サイトアイコン IT & ライフハックブログ|学びと実践のためのアイデア集

User-Agent「SemrushBot」とは何か Semrush公式クローラーの役割・SEOとの関係・拒否方法まで詳しく解説

blue and white miniature toy robot

Photo by Kindel Media on Pexels.com

User-Agent「SemrushBot」とは何か Semrush公式クローラーの役割・SEOとの関係・拒否方法まで詳しく解説

  • SemrushBot は、Semrush が新規・更新されたWebデータを発見し収集するために送る公式クローラーです
  • 収集データは、Backlink Analytics、Site Audit、Backlink Audit、Link Building、SEO Writing Assistant など、Semrushの複数機能で利用されます
  • ただし「SemrushBot」とひとことで言っても、用途別に SemrushBotSiteAuditBotSemrushBot-BASemrushBot-SISemrushBot-SWA などが分かれています
  • そのため、アクセスログで見かけたときは「Semrushの何の機能に関係するクロールなのか」を切り分けて考えることが大切です
  • 拒否は robots.txt で個別に制御でき、サブドメイン単位の設定や robots.txt のHTTPステータス挙動にも注意が必要です

SemrushBotの基本像

SemrushBot とは、SEO・競合分析・サイト診断などのサービスを展開する Semrush が運用する公式クローラーです。Semrush の公式説明では、SemrushBot は新しいWebデータや更新されたWebデータを発見し、収集するためのボットだと案内されています。つまり、Googlebot のように検索結果そのものを作るための検索エンジン専用クローラーとは少し違い、SEO分析やリンク調査、技術監査のためのデータ収集クローラーとして理解するのが実務的です。

この違いは、サイト運営者にとって意外と重要です。検索クローラーであれば、検索流入との関係から「基本的には通したい」と考える場面が多いのですが、Semrush系クローラーはそれとは少し性格が異なります。Semrush が収集するデータは、リンク分析、技術的なSEO監査、被リンクの健全性調査、リンクビルディング支援、URL到達性確認などに使われます。つまり SemrushBot は、検索順位を直接決めるための相手というより、Web上の構造や状態を分析するための相手なのです。

このテーマがとくに役立つのは、SEO担当者、オウンドメディア運営者、企業のWeb担当者、SRE、サーバー管理者、WAF運用担当、競合分析を気にするメディア企業の方々です。たとえばSEO支援会社や社内SEO担当にとっては、Semrushのデータ精度に関わるので重要ですし、一方でサーバー側から見ると、どのSemrush系ボットをどこまで許可するかを切り分けたくなることがあります。SemrushBot は、SEO業界ではかなり身近ですが、サイト運営の現場では意外と誤解されやすいUser-Agentでもありますの。

SemrushBotは何のためにアクセスするのか

Semrush の公式ページでは、SemrushBot が集めたデータの用途がかなり具体的に列挙されています。代表的なのは、公開リンクデータベースとしての Backlink Analytics、ページ上のSEO・技術・ユーザビリティ課題を調べる Site Audit、危険な被リンクの発見と整理を助ける Backlink Audit、リンク獲得候補の発見や監視を支援する Link Building、URLのアクセス可否確認などに使う SEO Writing Assistant です。さらに、On Page SEO Checker、SEO Content Template、Topic Research、Content Toolkit、Plagiarism Checker、Semrush Enterprise Site Intelligence など、かなり多くのプロダクトと結びついています。

ここから見えてくるのは、SemrushBot が単独の単純なボットではなく、Semrush全体の分析基盤の一部だということです。たとえば被リンク分析を行うには、Web上のリンク構造を広く収集する必要がありますし、Site Audit を成立させるには、対象サイトを実際にクロールして技術的状態を確認しなければなりません。Semrush のクローラー群は、そうした分析サービスを支える裏方として動いています。

この意味で、SemrushBot はGooglebotやbingbotのような「検索掲載のためのクロール」とは少し違います。むしろ、SEO調査・リンクインテリジェンス・サイト診断のための業務用クローラーとして理解したほうが実態に近いです。SEO担当者にとっては便利な存在ですが、サイト運営者の立場では「どの用途の取得まで許容するか」を考える余地がある相手でもあります。

SemrushBotという名前でも、実際は複数のボットに分かれている

Semrush を理解するうえでとても大切なのは、「SemrushBot」という名前が総称的に使われる一方、実際には用途別のUser-Agentが分かれていることです。Semrush公式ページでは、少なくとも次のような区分が案内されています。

  • SemrushBot:主に Backlink Analytics 向けのリンク収集
  • SiteAuditBot:Site Audit 用のクロール
  • SemrushBot-BA:Backlink Audit 用
  • SemrushBot-SI:On Page SEO Checker など類似ツール向け
  • SemrushBot-SWA:SEO Writing Assistant でのURL確認向け

この切り分けはとても実務的です。なぜなら、運営者によっては全部を同じように許可したいわけではないからです。たとえば自社でSemrushのSite Auditを使っているなら SiteAuditBot は通したいでしょうし、競合分析やリンク収集に関わるクロールだけは慎重に考えたいというケースもありえます。Semrush はこうした差を robots.txt で個別に制御できるようにしています。つまり SemrushBot をひとまとめに見ず、用途単位で許可・拒否を考えるのが賢いやり方です。

SemrushBotは検索クローラーなのか

この質問には、少し丁寧に答える必要があります。Semrush公式は SemrushBot を “search bot software” と表現していますが、これはGoogleやBingのような一般消費者向け検索エンジンのクローラーと同じ意味ではありません。Semrush の場合、クローラーが集めた情報は、同社のSEO・リンク分析・技術診断ツール群の内部データやユーザー向けレポートに使われます。つまり、検索エンジンそのものの掲載順位を作るためのクローラーではなく、SEO分析サービスのための検索・収集クローラーと理解するのが自然です。

この違いは、運営方針に直結します。Googlebotを止めれば通常は検索流入に大きな影響が出ますが、Semrush系ボットを止めても、その意味は別です。Semrush上での被リンク把握や監査精度、あるいはSemrushユーザーがそのサイトを分析するときの見え方に影響する可能性があります。一方で、Google検索やBing検索に直接掲載されなくなるわけではありません。ですから SemrushBot 対応は、SEOそのものというより、SEOツールエコシステムにどこまで情報を渡すかという論点だといえます。

robots.txtでどう制御できるのか

Semrush は、ボット制御の基本手段として robots.txt を明示しています。公式ページには、各ボットごとのブロック例がそのまま載っており、たとえばリンク収集向けの SemrushBot を止めたいなら、次のように書きます。

User-agent: SemrushBot
Disallow: /

同じように、Site Audit を止めたいなら SiteAuditBot、Backlink Audit なら SemrushBot-BA、On Page SEO Checker 系なら SemrushBot-SI、SEO Writing Assistant 用なら SemrushBot-SWA を指定して Disallow: / を書けば制御できます。つまり、Semrush系ボットは総称ではなく個別名で管理するのが基本です。

また、Semrush 公式はサブドメインごとの robots.txt にも注意を促しています。サブドメインがある場合、それぞれに robots.txt を置かなければ、SemrushBotは他の場所の設定を参照せず、そのサブドメインを自由にクロール可能とみなすと案内されています。これは現場で見落としやすいポイントです。たとえば www.example.com だけ設定して安心していても、blog.example.comdocs.example.com に別途 robots.txt がなければ、そちらでは意図通りに制御できない可能性があります。

robots.txtのHTTPステータスで起きる挙動

Semrush の公式ページには、robots.txt の返し方による挙動もかなり具体的に書かれています。ここが実務上、とても大切です。案内では、robots.txtHTTP 200 を返す必要があるとされています。もし robots.txt4xx を返すと、SemrushBot は「robots.txt が存在しない」と解釈し、クロール制限がないものとみなします。逆に 5xx を返すと、SemrushBot はサイト全体をクロールしないとされています。さらに 3xx は処理可能だと案内されています。

この仕様は、WAFやCDNの設定が絡むサイトでは特に重要です。たとえば robots.txt を誤って403にしていると、「拒否できている」と思いきや、SemrushBot側では「設定なし」と受け取られる可能性があります。逆に5xxが続くと、必要な監査用クロールまで止まってしまうかもしれません。つまり robots.txt は中身だけでなく、正しいHTTP応答で返すこと自体が運用の前提になります。

Crawl-delayにはどう対応しているのか

Semrush は Crawl-delay にも対応していますが、用途によって少し違いがあります。公式の SemrushBot 案内では、Backlink Analytics向けの SemrushBotCrawl-delay をサポートし、最大10秒までの間隔を受け付けると説明されています。10秒を超える値は10秒として扱われ、指定がない場合はサーバー負荷に応じて頻度を調整するとされています。

一方、Site Audit の設定関連ページでは、Semrush側のクローラーは通常およそ1秒ごとに次のURLへ進み、ユーザーが「robots.txt を尊重する」設定を選べば、Crawl-delay を反映してクロール速度を落とせると説明されています。また別ページでは、Site Audit向けの最大 Crawl-delay30秒までとして案内されています。つまり、Semrush系のクロール速度は一律ではなく、ツールや設定によって運用が少し異なることを理解しておいたほうが安全です。

さらに On Page SEO Checker 関連では、SemrushBot-SI 系のクローラーについて、Crawl-delay1秒を超えるとページ取得に失敗した扱いになる場合があると案内されています。ここはかなり実務的です。Semrushの一部ツールを自社で使っている場合、robots.txt の遅延設定が厳しすぎるせいで、ツール側で「ページにアクセスできない」と表示されることがあるからです。つまり Crawl-delay は、守りの設定である一方、自分が使うSEOツールの挙動にも影響するのです。

アクセスログで見かけたとき、どう判断するべきか

アクセスログに SemrushBot 系のUser-Agentが出てきたとき、まず大切なのは「Semrushが何かを見ている」だけで終わらせず、どの用途のボットかを切り分けることです。SemrushBot 本体なら主にリンクグラフ系、SiteAuditBot なら監査系、SemrushBot-SI ならOn Page SEO Checker系、といった違いがあります。用途が違えば、通すべきかどうかの判断も変わります。

次に確認したいのは、自社や取引先がSemrushのどの機能を使っているかです。もし社内SEOチームがSite AuditやOn Page SEO Checkerを活用しているなら、該当ボットをブロックすると、自分たちの分析精度が下がる可能性があります。逆に、Semrush上での一般的なリンク把握や外部ツールからの分析まで積極的に許容する必要がないと考えるなら、リンク収集系ボットを制限するという判断もありえます。つまり SemrushBot 対応は、単なるボット対策ではなく、自社のSEO運用方針とツール利用状況の合わせ技なのです。

どんな運営者がSemrushBot対応を真剣に考えるべきか

まず重要なのは、SEOを重視していて、Semrushを実際に使っている企業や支援会社です。こうした組織にとってSemrush系ボットは、外から来る迷惑な存在というより、自分たちの分析環境の一部でもあります。Site Audit や On Page SEO Checker を活用しているなら、対応を誤ると、自分たちの監査や改善提案が不正確になることがあります。

次に、メディア企業や大規模サイト運営者にとっても意味があります。Semrushは被リンクやサイト構造の把握に使われることが多いため、自社サイトがSEOツール群の中でどう見えるか、競合からどこまで分析可能かを気にする場合、SemrushBot の扱いは一度整理しておきたいところです。特にサブドメインが多い企業や、WAFで細かくBot制御しているサイトでは、意図せぬ許可や意図せぬ遮断が起こりやすいです。

さらに、サーバー負荷やクローラー管理に敏感な運営者にも関係があります。Semrush側は負荷調整や Crawl-delay 対応を案内していますが、実際にはサイト構造やツール設定次第で体感は変わります。ですから、ログを見て問題がないかを確認しつつ、必要なら個別のUser-Agent単位で調整するのがよいでしょう。

まとめ

SemrushBot は、Semrush が新規・更新Webデータを収集するための公式クローラーであり、Backlink Analytics、Site Audit、Backlink Audit、On Page SEO Checker、SEO Writing Assistant など、多くのSEO関連機能の基盤として使われています。検索エンジンの掲載順位を直接決めるためのボットではなく、SEO分析・リンク調査・技術監査のためのクローラー群として理解するのが最も実態に近いです。

また、Semrush系ボットは SemrushBot ひとつではなく、SiteAuditBotSemrushBot-BASemrushBot-SISemrushBot-SWA などに分かれており、用途ごとに robots.txt で個別制御できます。サブドメインごとの設定、robots.txt のHTTPステータス、Crawl-delay の効き方など、実務上の注意点も少なくありません。

最後に申し上げますと、SemrushBot はSEO担当には便利な味方でありつつ、サイト運営者にとってはきちんと設計して付き合うべき相手です。全面的に許可するか、一律に拒否するかではなく、どのSemrush機能にどこまで協力するかという視点で整理すると、とても扱いやすくなります。アクセスログで見かけたら、ただの文字列として流さず、自社のSEO運用とクローラー方針を見直すきっかけとして捉えるとよろしいですわ。

参考リンク

モバイルバージョンを終了