Icono del sitio IT&ライフハックブログ|学びと実践のためのアイデア集

¿Qué es el User-Agent “bingbot”? Una explicación detallada del crawler de búsqueda de Microsoft, incluyendo una perspectiva de la era de la IA

blue and white miniature toy robot

Photo by Kindel Media on Pexels.com

¿Qué es el User-Agent “bingbot”? Una explicación detallada del crawler de búsqueda de Microsoft, incluyendo una perspectiva de la era de la IA

  • bingbot es el crawler de búsqueda de Microsoft Bing. Rastrea páginas en toda la web y se utiliza para la indexación en Bing y para mejorar la experiencia de búsqueda.
  • Hoy en día, bingbot no es solo un “bot de búsqueda anticuado”. En Bing Webmaster Tools, URL Inspection se describe como algo que cubre no solo el estado de indexación, sino también la elegibilidad para grounding, por lo que en la práctica es mejor entenderlo como algo que también tiene puntos de contacto con la experiencia de búsqueda de Microsoft y con contextos de referencia de estilo generativo impulsados por IA.
  • Para determinar si un bingbot es auténtico, Microsoft recomienda oficialmente comprobar no solo la cadena del User-Agent, sino también la herramienta Verify Bingbot, el DNS inverso y el Forward IP Lookup.
  • El control del rastreo puede manejarse con robots.txt, pero hay que tener en cuenta que si escribes una sección dedicada para bingbot, Bingbot solo mirará esa sección e ignorará otras directivas predeterminadas.
  • Por esa razón, bingbot es un User-Agent importante que debe ser comprendido correctamente no solo por los equipos de SEO, sino también por administradores de servidores, operadores de WAF y editores de contenido que se preocupan por el tráfico procedente de búsquedas con IA.

La función básica de bingbot

bingbot es el crawler oficial operado por Microsoft para Bing Search. Según la documentación de Microsoft, bingbot rastrea la web y añade páginas al índice de Bing. En otras palabras, su función central es, al igual que Googlebot para Google, rastrear e indexar para un motor de búsqueda. Si quieres que tus páginas aparezcan en los resultados de búsqueda de Bing, el primer requisito es que bingbot pueda recuperarlas correctamente.

Sin embargo, entender el bingbot actual solo como un bot de búsqueda tradicional resulta algo incompleto. En Bing Webmaster Tools, URL Inspection se describe como una herramienta que muestra el estado de indexación a nivel de URL, señales SEO, datos estructurados e incluso elegibilidad para grounding. Esto puede interpretarse como una sugerencia de que el índice de Bing ya no es solo la base del ranking en búsqueda, sino que también puede conectarse con la generación de respuestas y con contextos de referencia basados en IA de Microsoft. Al menos dentro de lo oficialmente documentado, la forma en que una página pública es tratada en Bing puede importar no solo para la búsqueda, sino también para experiencias más allá de la búsqueda.

Este tema es especialmente útil para operadores de owned media, especialistas SEO, editores, equipos de relaciones con desarrolladores, operadores de sitios de comercio electrónico, SREs y administradores de WAF. Por ejemplo, si gestionas un sitio de medios que depende del tráfico de búsqueda, manejar mal bingbot puede reducir tu descubribilidad a través de Bing. Y si el sitio de tu empresa tiene controles de bots demasiado estrictos, podrías bloquear involuntariamente el rastreo de Bing. Además, ahora vivimos en una era en la que también importan las respuestas impulsadas por IA y las experiencias de referencia, lo que hace que bingbot sea más importante de forma general que antes.

¿Por qué bingbot visita tu sitio?

El propósito principal de bingbot es construir y actualizar el índice de búsqueda de Bing. La documentación de Microsoft explica que Bingbot rastrea la web y añade páginas al índice de Bing. Esta es una función fundamental de cualquier motor de búsqueda, necesaria para comprender la existencia de páginas, sus actualizaciones, las relaciones de enlaces y su estructura. Por lo tanto, si quieres que artículos recién publicados o páginas de productos actualizadas sean reconocidos correctamente por Bing, es importante que bingbot pueda acceder a ellos.

Además, Microsoft ahora presenta oficialmente Bing también en torno al concepto de grounding. URL Inspection en Bing Webmaster Tools incluye elegibilidad para grounding, y la guía de Microsoft Copilot Studio para sitios web públicos explica que utiliza el índice de Bing Custom Search para recuperar información relevante de la web pública y generar respuestas fundamentadas. A partir de esto, queda claro que el rastreo y la indexación de Bing tienen valor no solo para la búsqueda, sino también como puente hacia sistemas de respuesta de estilo generativo con IA. Las implementaciones concretas de cada producto pueden variar, pero la documentación oficial muestra que la comprensión que Bing tiene de la web pública forma parte de la infraestructura más amplia de entrega de información de Microsoft.

Esto importa mucho a los editores de contenido. En el pasado, Bing podía considerarse a veces una preocupación secundaria. Pero ahora, además del tráfico de búsqueda, también puede tener puntos de contacto con las experiencias de respuesta de Microsoft y con servicios de IA empresariales. Por supuesto, no todas las páginas se utilizarán de la misma manera, pero es razonable pensar que un acceso adecuado por parte de bingbot es un requisito básico para que la información pública forme parte del ecosistema de búsqueda y referencia de Microsoft.

¿Cómo es bingbot como User-Agent?

En los últimos años, el User-Agent de bingbot ha cambiado para parecerse más al de un navegador. En el Bing Webmaster Blog, Microsoft anunció en 2022 que el User-Agent de bingbot haría una transición hacia un formato similar a Chromium. Por ejemplo, en escritorio podría verse como Mozilla/5.0 ... (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/... Safari/.... Esto refleja la realidad de que la web moderna depende mucho de JavaScript y de comportamientos similares a los de un navegador, y Bing se ha adaptado acercando el entorno de su crawler al de un navegador real.

El contexto de este cambio viene de antes. En 2019, Bing introdujo el “evergreen Bingbot”, explicando que avanzaría hacia el renderizado de JavaScript basado en Microsoft Edge. Esto significa que bingbot ya no es solo un crawler de estilo antiguo que recupera únicamente HTML sin procesar, sino que ha evolucionado hacia un crawler de renderizado más moderno. Para los equipos web, la lección clave es no asumir, basándose en ideas desactualizadas, que Bingbot apenas maneja JavaScript.

Al mismo tiempo, es importante no confiar únicamente en la cadena del User-Agent cuando la ves en los logs de acceso. Los nombres de crawlers populares suelen falsificarse, así que aunque una petición diga ser bingbot, eso por sí solo no demuestra su autenticidad. El propio Microsoft recomienda utilizar la herramienta Verify Bingbot y validación basada en DNS, dejando claro que la autenticidad no debe juzgarse solo por la cadena del User-Agent.

Cómo verificar si un bingbot es auténtico

Los métodos recomendados oficialmente por Microsoft son la herramienta Verify Bingbot, el DNS inverso y el Forward IP Lookup. En la documentación de Bing Webmaster Tools, Microsoft explica que puedes introducir una dirección IP en Verify Bingbot para determinar si el tráfico realmente procede de Bingbot. Otra documentación oficial también describe la validación mediante DNS inverso y búsqueda directa de IP. En otras palabras, el enfoque estándar es verificar a través de la consistencia entre IP y DNS.

Esto es especialmente importante para sitios con controles fuertes de WAF o protección contra bots. Por ejemplo, aunque tus logs muestren un gran número de solicitudes que afirman ser bingbot, si Verify Bingbot no las valida, puede que simplemente se trate de solicitudes falsificadas. A la inversa, los ecosistemas de gestión de bots y WAF de Microsoft suelen tratar a los crawlers de búsqueda validados como “good bots”, precisamente basándose en este tipo de verificación. Eso significa que la cuestión operativa no es si la cadena dice bingbot, sino si se trata de un bingbot verificado.

Microsoft también proporciona un recurso bingbot.json, que se utiliza para comprobar los rangos de IP validados de Bingbot. La guía de Microsoft Q&A también apunta a este JSON como una lista oficial proporcionada por Microsoft. Si quieres mantener una whitelist del lado del servidor o validar tráfico en bloque durante el análisis de logs, utilizar este JSON junto con Verify Bingbot es un enfoque práctico.

Control con robots.txt y advertencias importantes

El control del rastreo para bingbot generalmente se hace mediante robots.txt. Bing Webmaster Tools también ofrece un robots.txt Tester para que puedas verificar la configuración desde la perspectiva de Bingbot o BingAdsBot. En otras palabras, el control de rastreo específico de Bing no requiere un mecanismo especial; puede manejarse como una extensión de la operativa estándar con robots.txt.

Sin embargo, existe una advertencia importante con Bing. Según el Bing Webmaster Blog, si escribes una sección dedicada como User-agent: bingbot en robots.txt, entonces Bingbot ignorará las reglas generales y mirará solo esa sección específica para bingbot. Esto significa que si tienes reglas compartidas bajo User-agent: * y además defines un bloque User-agent: bingbot, entonces cualquier regla compartida que sigas queriendo que Bingbot respete debe repetirse también dentro del bloque de bingbot. Si no sabes esto, puedes pensar que una regla general se está aplicando a Bingbot cuando en realidad no es así.

En operaciones reales, esto importa muchísimo. Por ejemplo, imagina que quieres desautorizar /private/ para todos los bots, y además desautorizar /temp/ solo para Bingbot. Si escribes /private/ bajo User-agent: * y solo /temp/ bajo User-agent: bingbot, Bingbot podría no respetar en absoluto la regla de /private/. Por lo tanto, al crear una sección específica para Bingbot, el enfoque más seguro es volver a declarar allí también las reglas comunes.

Cómo deberías ver la frecuencia de rastreo y la resolución de problemas

Microsoft proporciona no solo control mediante robots, sino también herramientas como robots.txt Tester, Crawl Information y Crawl Errors para ayudar a analizar el comportamiento de bingbot. La guía de Bing Webmaster Tools recomienda revisar la información de errores y las pruebas de robots.txt cuando hay problemas de rastreo. En la práctica, esto significa que debes entender los problemas de Bingbot en términos como “demasiadas solicitudes”, “no rastrea en absoluto”, “recibe 403” o “no recoge algunas URLs”, y luego utilizar las herramientas proporcionadas para reducir la causa.

En cuanto a los errores 403 en particular, las discusiones en Microsoft Q&A apuntan a causas posibles como reglas Disallow en robots.txt, restricciones del lado del servidor o configuraciones de X-Robots-Tag. En otras palabras, si la página es visible para un navegador humano pero no puede ser recuperada por bingbot, deberías sospechar de configuraciones de entorno como controles de bots, políticas WAF, cabeceras o restricciones geográficas. No es raro que los sitios refuercen sus defensas y, como efecto secundario, terminen bloqueando a Bing accidentalmente.

Si sientes que bingbot está rastreando de forma demasiado agresiva, por lo general es mejor revisar tu diseño de robots.txt y la estructura de tu contenido público antes de plantearte un bloqueo completo. La propia guía de Microsoft afirma que robots.txt puede usarse para evitar el rastreo de secciones que no quieres que se rastreen. Bloquear áreas importantes para la búsqueda puede afectar negativamente al tráfico y a la indexación, así que el principio práctico es restringir solo las áreas innecesarias en lugar de utilizar un bloqueo general.

La relación entre bingbot y el SEO

bingbot es el crawler central para el SEO en Bing. Si quieres que tus páginas aparezcan en Bing, que se reconozcan las actualizaciones o que los datos estructurados y las etiquetas canonical se entiendan correctamente, al final todo depende de si bingbot puede recuperar e interpretar la página de forma correcta. Las Bing Webmaster Guidelines enfatizan la rastreabilidad, la renderización y la indexabilidad como requisitos básicos.

Hoy en día, el contexto del SEO se ha ampliado un poco porque URL Inspection en Bing Webmaster Tools incluye elegibilidad para grounding. Tradicionalmente, el foco era “optimización para rankings”, pero ahora también implica “cómo puede utilizarse el contenido en las experiencias de búsqueda y respuesta de Microsoft”. Por supuesto, no todos los factores de ranking ni las reglas de visualización con IA están documentados completamente de forma pública, pero al menos, si bingbot no puede acceder a una página, las oportunidades más allá de la búsqueda también se reducen.

En ese sentido, bingbot ya no es simplemente “aquello para lo que optimizas en Bing”. Es más exacto pensarlo como un punto de entrada a cómo se distribuye la información pública dentro del ecosistema de Microsoft. Eso lo hace relevante no solo para sitios de medios que buscan tráfico de búsqueda, sino también para sitios corporativos, documentación, FAQs, bases de conocimiento y páginas de información de productos.

¿Qué operadores de sitios deberían tomarse en serio a bingbot?

El primer grupo que debería preocuparse es el de sitios de medios y sitios corporativos que quieren tráfico de búsqueda de Bing. En áreas como noticias, B2B, SaaS, documentación, reclutamiento y comercio electrónico, donde los usuarios pueden llegar de forma realista a través de Bing, por lo general hay pocas razones para ignorar a bingbot. En entornos fuertemente empresariales, en particular, la capacidad de ser descubierto a través de experiencias de búsqueda relacionadas con Microsoft puede importar más de lo que muchos equipos suponen.

El segundo grupo importante son los operadores que tienen políticas fuertes de WAF, CDN o gestión de bots. Incluso el tráfico legítimo de bingbot puede clasificarse como bot desconocido o bot bloqueado según la configuración. En preguntas y respuestas relacionadas con Microsoft Azure, los crawlers validados como Bingbot se tratan explícitamente como Good Bots. Cuanto más fuerte se vuelve tu postura defensiva, más cuidadosamente necesitas diseñar cómo permitir el paso de bots legítimos.

También importa para los negocios de contenido que piensan estratégicamente sobre la información pública en la era de la IA. Dado que la indexación de Bing ahora tiene una relación documentada con grounding, las decisiones sobre cómo estructurar las páginas públicas, qué permitir rastrear y qué bloquear pueden afectar no solo a la búsqueda, sino también a futuras experiencias de referencia. Entender bingbot es, por tanto, un primer paso muy práctico.

Resumen

bingbot es el crawler oficial de búsqueda de Microsoft Bing y el mecanismo central mediante el cual Bing rastrea la web y construye su índice. En los últimos años ha evolucionado hacia User-Agents y comportamientos de renderizado similares a Chromium, lo que lo convierte en un crawler moderno capaz de manejar la web actual. Además, Bing Webmaster Tools ahora muestra la elegibilidad para grounding, por lo que resulta natural ver a bingbot como un punto de entrada a la infraestructura más amplia de búsqueda y respuestas de Microsoft.

Para los operadores de sitios, los puntos clave son no juzgar la autenticidad únicamente por la cadena del User-Agent, utilizar Verify Bingbot y comprobaciones DNS, y entender cómo se interpreta robots.txt. En particular, el hecho de que una sección específica para bingbot no herede automáticamente las reglas comunes es un detalle práctico importante que es fácil pasar por alto.

Por último, bingbot es un User-Agent cuya importancia ha crecido silenciosamente con el tiempo. Importa, por supuesto, para el tráfico de búsqueda, pero incluso más que eso, importa como puerta de entrada a cómo se descubre y se referencia la información pública dentro del ecosistema de Microsoft. Es uno de esos conocimientos fundamentales que benefician por igual a equipos de SEO, administradores de servidores y propietarios de contenido si lo comprenden correctamente.

Enlaces de referencia

Salir de la versión móvil