Icono del sitio IT&ライフハックブログ|学びと実践のためのアイデア集

¿Qué es el User-Agent “SemrushBot”? Una explicación detallada del papel de los crawlers oficiales de Semrush, su relación con el SEO y cómo bloquearlos

blue and white miniature toy robot

Photo by Kindel Media on Pexels.com

¿Qué es el User-Agent “SemrushBot”? Una explicación detallada del papel de los crawlers oficiales de Semrush, su relación con el SEO y cómo bloquearlos

  • SemrushBot es un crawler oficial enviado por Semrush para descubrir y recopilar datos web nuevos o actualizados.
  • Los datos recopilados se utilizan en múltiples funciones de Semrush, incluidas Backlink Analytics, Site Audit, Backlink Audit, Link Building y SEO Writing Assistant.
  • Sin embargo, “SemrushBot” no es solo un bot. En la práctica, está dividido por propósito en SemrushBot, SiteAuditBot, SemrushBot-BA, SemrushBot-SI, SemrushBot-SWA y otros.
  • Por eso, cuando lo ves en los logs de acceso, es importante pensar en con qué función de Semrush está relacionado ese rastreo.
  • El bloqueo puede controlarse individualmente mediante robots.txt, y también debes prestar atención a la configuración por subdominio y al comportamiento del estado HTTP de robots.txt.

La naturaleza básica de SemrushBot

SemrushBot es un crawler oficial operado por Semrush, una empresa conocida por sus servicios de SEO, análisis competitivo y auditoría de sitios. Según la explicación oficial de Semrush, SemrushBot es un bot utilizado para descubrir y recopilar datos web nuevos o actualizados. En otras palabras, a diferencia de un crawler dedicado de motor de búsqueda como Googlebot, es más práctico entenderlo como un crawler de recopilación de datos para análisis SEO, investigación de enlaces y auditoría técnica.

Esta distinción importa más de lo que puede parecer a los operadores de sitios. Con los crawlers de búsqueda, hay muchos casos en los que generalmente querrás permitirlos por su relación con el tráfico orgánico. Los crawlers relacionados con Semrush son algo distintos. Los datos recopilados por Semrush se utilizan para análisis de enlaces, auditorías técnicas de SEO, investigaciones sobre la salud de backlinks, apoyo en link building y comprobaciones de accesibilidad de URLs. Por eso, SemrushBot es menos un interlocutor directo de las decisiones de ranking en buscadores, y más una contraparte utilizada para analizar la estructura web y el estado técnico de un sitio.

Este tema es especialmente útil para especialistas SEO, operadores de medios propios, equipos web corporativos, SREs, administradores de servidores, operadores de WAF y medios preocupados por el análisis de la competencia. Por ejemplo, para agencias SEO o equipos internos de SEO, importa porque afecta a la precisión de los datos de Semrush. Desde el lado del servidor, en cambio, hay ocasiones en las que querrás decidir qué bots relacionados con Semrush permitir y hasta qué punto. SemrushBot es muy conocido en la industria SEO, pero en la operación diaria de sitios también es un User-Agent fácil de malinterpretar.

¿Por qué accede SemrushBot a los sitios?

La página oficial de Semrush ofrece una lista bastante específica de para qué se utilizan los datos recopilados. Los ejemplos clave incluyen Backlink Analytics como base de datos pública de enlaces, Site Audit para detectar problemas de SEO on-page, técnicos y de usabilidad, Backlink Audit para descubrir y organizar backlinks dañinos, Link Building para encontrar y supervisar oportunidades de adquisición de enlaces, y SEO Writing Assistant para comprobar la accesibilidad de URLs. También está vinculado a muchos otros productos, como On Page SEO Checker, SEO Content Template, Topic Research, Content Toolkit, Plagiarism Checker y Semrush Enterprise Site Intelligence.

Lo que esto muestra es que SemrushBot no es un simple bot único, sino más bien parte de la infraestructura general de análisis de Semrush. Para proporcionar análisis de backlinks, Semrush necesita recopilar estructuras de enlaces en toda la web. Para que Site Audit funcione, necesita rastrear sitios objetivo e inspeccionar su estado técnico. La familia de crawlers de Semrush opera en segundo plano para dar soporte a esos servicios de análisis.

En ese sentido, SemrushBot es algo diferente de crawlers como Googlebot o bingbot, cuyo propósito es “rastrear para inclusión en búsqueda”. Es más preciso entenderlo como un crawler operativo para investigación SEO, inteligencia de enlaces y diagnóstico de sitios. Es útil para equipos SEO, pero desde la perspectiva del operador del sitio, también es un interlocutor ante el cual tiene sentido pensar qué tipos de recopilación de datos quieres permitir.

Aunque se llame SemrushBot, en realidad está dividido en varios bots

Una de las cosas más importantes que hay que entender sobre Semrush es que, aunque “SemrushBot” se usa a menudo como una etiqueta amplia, los User-Agents reales están divididos por propósito. Según la página oficial de Semrush, las divisiones incluyen al menos las siguientes:

  • SemrushBot: principalmente recopilación de enlaces para Backlink Analytics
  • SiteAuditBot: rastreo para Site Audit
  • SemrushBot-BA: para Backlink Audit
  • SemrushBot-SI: para herramientas como On Page SEO Checker
  • SemrushBot-SWA: para comprobación de URLs en SEO Writing Assistant

Esta separación es muy práctica. La razón es simple: no todos los operadores quieren permitir todos ellos de la misma manera. Por ejemplo, si tu empresa usa Semrush Site Audit, probablemente quieras permitir SiteAuditBot. Al mismo tiempo, quizá quieras pensar con más cuidado en los rastreos relacionados con análisis competitivo o recopilación masiva de enlaces. Semrush permite controlarlos individualmente mediante robots.txt. Así que, en lugar de tratar SemrushBot como una sola entidad monolítica, el enfoque más inteligente es pensar en permisos o bloqueos por función.

¿Es SemrushBot un crawler de búsqueda?

Esta pregunta merece una respuesta cuidadosa. Semrush describe oficialmente SemrushBot como “search bot software”, pero eso no significa lo mismo que un crawler de motor de búsqueda orientado al consumidor como los usados por Google o Bing. En el caso de Semrush, la información recopilada por el crawler se utiliza para sus herramientas internas de SEO, análisis de enlaces y auditoría técnica, así como en informes para los usuarios. Por lo tanto, la interpretación natural es que no es un crawler para construir rankings de resultados de búsqueda, sino un crawler de búsqueda y recopilación para servicios de análisis SEO.

Esta diferencia afecta directamente a las decisiones operativas. Si bloqueas Googlebot, el resultado suele ser un gran impacto en el tráfico de búsqueda. Si bloqueas bots relacionados con Semrush, el significado es distinto. Puede afectar cómo aparece tu sitio dentro de Semrush, incluida la visibilidad de backlinks, la precisión de auditorías o cómo los usuarios de Semrush analizan tu sitio. Pero no significa directamente que tu sitio desaparecerá de Google o Bing. Así que gestionar SemrushBot tiene menos que ver con el SEO en sí y más con cuánta información quieres proporcionar al ecosistema de herramientas SEO.

¿Cómo puede controlarse con robots.txt?

Semrush identifica explícitamente robots.txt como el método principal de control de bots. Su página oficial incluye ejemplos listos para usar para bloquear cada bot individualmente. Por ejemplo, si quieres detener el SemrushBot orientado a la recopilación de enlaces, puedes escribir:

User-agent: SemrushBot
Disallow: /

Del mismo modo, para detener Site Audit deberías especificar SiteAuditBot, para Backlink Audit SemrushBot-BA, para rastreos relacionados con On Page SEO Checker SemrushBot-SI, y para SEO Writing Assistant SemrushBot-SWA, cada uno con Disallow: /. En otras palabras, los bots relacionados con Semrush se gestionan por sus nombres específicos y no por una sola etiqueta general.

Semrush también llama la atención sobre robots.txt a nivel de subdominio. Si tienes subdominios, debes colocar un robots.txt en cada uno de ellos. De lo contrario, SemrushBot no tendrá en cuenta la configuración de otro lugar y puede tratar ese subdominio como rastreable. Este es un punto fácil de pasar por alto en la práctica. Puedes sentirte seguro después de configurar solo www.example.com, pero si blog.example.com o docs.example.com no tienen su propio robots.txt, es posible que no estén controlados como pretendes.

Cómo afectan los códigos de estado HTTP de robots.txt al comportamiento

La página oficial de Semrush también explica de forma bastante concreta cómo se comporta según cómo se entregue robots.txt. Esto es muy importante en la práctica. Su guía dice que robots.txt debería devolver HTTP 200. Si devuelve una respuesta 4xx, SemrushBot lo interpreta como “robots.txt no existe”, lo que significa que asume que no hay restricciones de rastreo. En cambio, si devuelve 5xx, SemrushBot no rastreará el sitio en absoluto. Las respuestas 3xx se consideran procesables.

Este comportamiento importa especialmente en sitios que dependen de configuraciones de WAF o CDN. Por ejemplo, si accidentalmente haces que robots.txt devuelva 403, puedes pensar “lo estamos bloqueando correctamente”, mientras que SemrushBot lo interpreta como “no hay archivo robots”. Por otro lado, errores 5xx persistentes pueden detener incluso los rastreos de auditoría que sí quieres permitir. Así que, con robots.txt, no basta con escribir bien el contenido; devolverlo con el estado HTTP correcto también forma parte de la operación necesaria.

¿Cómo maneja Crawl-delay?

Semrush admite Crawl-delay, pero los detalles varían ligeramente según el caso de uso. En la página oficial de SemrushBot, explica que el SemrushBot principal usado para Backlink Analytics admite Crawl-delay y acepta intervalos de hasta 10 segundos. Los valores superiores a 10 segundos se tratan como 10 segundos, y si no se especifica ningún retraso, la frecuencia de rastreo se ajusta según la carga del servidor.

Mientras tanto, las páginas de configuración de Site Audit explican que el crawler de Semrush normalmente avanza a la siguiente URL aproximadamente una vez por segundo y, si el usuario elige la opción de respetar robots.txt, entonces Crawl-delay será respetado y la velocidad se reducirá. Otra página indica que el máximo Crawl-delay para Site Audit es de 30 segundos. Por lo tanto, la velocidad de rastreo relacionada con Semrush no es completamente uniforme; es más seguro entender que la operación varía ligeramente según la herramienta y la configuración.

También hay un punto especialmente práctico en el contexto de On Page SEO Checker. Para SemrushBot-SI, Semrush explica que si Crawl-delay es superior a 1 segundo, la recuperación de la página puede fallar. Esto importa mucho si usas algunas herramientas de Semrush en tu propio sitio. Si la configuración de retraso en robots.txt es demasiado estricta, Semrush puede mostrar “la página no es accesible” aunque la página sí esté activa. Así que Crawl-delay es a la vez una configuración defensiva y algo que puede afectar a las herramientas SEO que tú mismo usas.

¿Cómo deberías interpretarlo cuando lo ves en los logs de acceso?

Cuando ves un User-Agent relacionado con Semrush en tus logs de acceso, el primer paso importante no es quedarse en “Semrush está mirando algo”, sino identificar qué tipo de bot es. El SemrushBot base se centra principalmente en la recopilación del grafo de enlaces, SiteAuditBot es para auditorías y SemrushBot-SI está relacionado con On Page SEO Checker, y así sucesivamente. Como los propósitos difieren, la decisión sobre si permitirlos también puede diferir.

Lo siguiente que debes comprobar es qué funciones de Semrush utiliza tu propia organización o tus socios. Si tu equipo interno de SEO utiliza activamente Site Audit u On Page SEO Checker, bloquear el bot correspondiente puede reducir la precisión de tus propios análisis. Por otro lado, si no necesariamente quieres permitir una recopilación amplia de enlaces o análisis por parte de herramientas SEO externas, podrías decidir limitar los bots orientados a la recopilación de enlaces. En otras palabras, cómo gestionas SemrushBot no es solo una cuestión de gestión de bots. Es una combinación de tu propia política operativa de SEO y tu uso real de herramientas.

¿Qué tipos de operadores deberían pensar seriamente en SemrushBot?

En primer lugar, esto importa mucho para empresas y agencias que se toman el SEO en serio y realmente usan Semrush. Para ellas, los bots relacionados con Semrush no son simplemente una molestia externa. También son parte de su propio entorno de análisis. Si dependes de Site Audit o de On Page SEO Checker, gestionar incorrectamente estos bots puede hacer que tus propias auditorías o recomendaciones de optimización sean menos precisas.

En segundo lugar, también importa para medios y operadores de sitios grandes. Semrush se utiliza a menudo para comprender backlinks y estructura del sitio, por lo que si te importa cómo aparece tu sitio dentro del ecosistema de herramientas SEO, o qué tan visible es para el análisis de la competencia, vale la pena organizar tu política sobre SemrushBot. Esto es especialmente cierto en empresas con muchos subdominios o que realizan un control detallado de bots mediante un WAF, donde es fácil introducir permisos o bloqueos no intencionados.

También es relevante para operadores sensibles a la carga del servidor y a la gestión de crawlers. Semrush explica que admite ajuste de carga y Crawl-delay, pero en la práctica el impacto real depende de la estructura de tu sitio y de cómo estén configuradas las herramientas. Por eso, lo mejor es observar tus logs, comprobar si hay problemas y, si es necesario, ajustar la política a nivel de User-Agent individual.

Conclusión

SemrushBot es un crawler oficial utilizado por Semrush para recopilar datos web nuevos y actualizados, y sirve como base para muchas funciones relacionadas con el SEO, como Backlink Analytics, Site Audit, Backlink Audit, On Page SEO Checker y SEO Writing Assistant. No es un bot que determine directamente los rankings de los motores de búsqueda. La forma más precisa de entenderlo es como una familia de crawlers para análisis SEO, investigación de enlaces y auditoría técnica.

Además, la familia de bots de Semrush no es un solo User-Agent. Está dividida en SiteAuditBot, SemrushBot-BA, SemrushBot-SI, SemrushBot-SWA y otros, todos los cuales pueden controlarse individualmente mediante robots.txt. También hay varios puntos prácticos a tener en cuenta, como la configuración por subdominio, el manejo del estado HTTP de robots.txt y la forma en que se aplica Crawl-delay.

En pocas palabras, SemrushBot es un aliado útil para los equipos SEO, pero para los operadores de sitios también es algo que debe gestionarse con intención. En lugar de tratarlo como algo que hay que permitir totalmente o bloquear totalmente, resulta mucho más fácil manejarlo si piensas en términos de con qué funciones de Semrush quieres colaborar y hasta qué punto. Si lo ves en tus logs, vale la pena usarlo como una oportunidad para revisar tanto tus operaciones SEO como tu política de crawlers, en lugar de tratarlo como otra cadena más.

Enlaces de referencia

Salir de la versión móvil