AIクローラーとはなにか?
AIクローラー(AI crawler)は、ウェブ上の情報を自動で巡回・収集するプログラムです。従来の検索エンジン用クローラー(Googlebot など)が検索インデックス構築のために使われるのに対し、AIクローラーは 機械学習モデル(特に大規模言語モデル=LLM)のトレーニングや、AI検索・リアルタイム回答生成の目的でデータ取得を行います。wikipediaより引用
要するに、AIクローラーは2つの目的で使い分けされています。
- 機械学習のトレーニング
- AI検索、リアルタイム回答生成
主要な機械学習用途のクローラー
- LLM(大規模言語モデル)の事前学習・継続学習用データ収集
- 大量・広範囲・非リアルタイム
- 一度取得したデータを長期間再利用することが多い
| クローラー名 | 企業 | 用途 |
|---|---|---|
| GPTBot | OpenAI | ChatGPT/GPT系モデルの学習用 |
| ClaudedBot | Anthropic | Claudeシリーズの学習用 |
| Google-Extended | Gemini/Bard向け学習データ収集(検索とは分離) | |
| Meta-ExternalAgent | Meta | LLaMA等の学習用 |
主要な回答生成用途のクローラー
- アクセスは断続的・質問依存
- 最新情報の取得が目的
- 検索流入や被リンク効果が発生する場合もある
| クローラー名 | 企業 | 用途 |
|---|---|---|
| ChatGPT-User | OpenAI | ユーザーの質問に応じて都度クロール |
| OAI-SearchBot | OpenAI | 検索インデックス・回答補助 |
| PerplexityBot | Perplexity AI | 出典付き回答を生成 |
| Claude-SearchBot / Claude-User | Anthropic | Claudeの検索・補助回答 |
| Bingbot | Microsoft | Copilot / Bing AI向け |
| Googlebot | SGE / Gemini検索補助 |
学習用と回答生成用の違いまとめ
| 観点 | 企業 | 用途 |
|---|---|---|
| 主目的 | モデル学習 | ユーザー回答 |
| データ | 大量・蓄積型 | 少量・即時 |
| リアルタイム性 | 不要 | 必須 |
| サイト負荷 | 高くなりがち | 比較的低い |
| SEO負荷 | ほぼなし | 間接的にあり得る |
| 制御方法 | robots.txt / llms.txt | robots.txt / UA制御 |
個人ブロガーにとって企業の学習用クローラーは不要
ここからが私の意見であり、本記事で伝えたいことです。個人ブロガーの立場では、ユーザーがあなたのサイトに訪れてもらうことが目的です。しかし、学習用クローラーは、あなたに見返りがありません。それどころか、学習用クローラーはあなたの独自のコンテンツ価値を希釈してきます。学習した内容を、要約され、再構築され、他サイトの情報と混ぜてモデルを強化しています。つまり、あなたのブログで読む理由が弱くなるということです。あなたのサイトに来てほしいのは、回答生成用のクローラーであって、機械学習用のクローラーではありません。
学習用クローラーは全く意味がないのか?という問いに対して、意味は完全にはゼロではありませんが、見返りが抽象的です。将来的には社会全体のAI品質向上に寄与するかもしれませんが、個人ブログは学習への寄与が限定的です。そのため、私は学習用クローラーのアクセスは原則ブロックで問題ないと判断しています。
ブロック推奨クローラー一覧
先ほど挙げた、機械学習用のクローラーの表は、一部だったため改めてリストで紹介します。ここに載っているクローラーがブロックするべきクローラーです。
- GPTBot
- ClaudeBot
- Google-Extended
- Meta-ExternalAgent
- Bytespider
- CCBot
- AI2Bot
- cohere-ai