登録日:
2025-03-17
最終更新日:
2025-03-19
robots.txt とは?
robots.txt は、ウェブサイトの管理者が検索エンジンのクローラー(ロボット)に対して、どのページをクロール(巡回・取得)してよいか、またはクロールしてほしくないかを指示するためのテキストファイルです。
robots.txt の役割
- 検索エンジンのクローラーがサイトを訪問した際に最初に確認する。
- 指定したページやディレクトリをクロール対象外にできる。
- sitemap.xml の場所を指定し、検索エンジンにサイトの構造を伝えられる。
robots.txt の基本構造
robots.txt は User-agent(対象のクローラー)と Disallow(アクセス禁止のパス)を記述する単純なテキストファイルです。
基本的な書き方
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://example.com/sitemap.xml
Memo:
- User-agent: * → すべての検索エンジンのクローラーに適用。
- Disallow: /admin/ → /admin/ 以下のページをクロール禁止。
- Disallow: /private/ → /private/ 以下のページをクロール禁止。
- Allow: /public/ → /public/ はクロールを許可。
- Sitemap: https://example.com/sitemap.xml → サイトマップのURLを指定し、検索エンジンにページの構造を伝える。
robots.txt の設置場所
robots.txt は サイトのルートディレクトリ に設置する必要があります。
設置場所の例:
https://example.com/robots.txt
robots.txt の使用例
- サイト全体をクロール禁止
開発中のサイトやテスト環境で検索エンジンにインデックスさせたくない場合。
User-agent: *
Disallow: /
- 特定のページをクロール禁止
ログインページや会員登録ページなど、検索結果に表示する必要がないページを除外。
User-agent: *
Disallow: /login
Disallow: /signup
- Googlebot のみを制限
Googlebot だけ /private/ 以下をクロール禁止にする。
User-agent: Googlebot
Disallow: /private/
- 画像をクロール禁止
用途: 画像のインデックスを防ぐ。
User-agent: Googlebot-Image
Disallow: /images/
- サイトマップを通知
sitemap.xml のURLを検索エンジンに伝え、サイトのクロール効率を上げる。
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
robots.txt の注意点
robots.txt でページのインデックスを完全に防げるわけではない!
- robots.txt はクローラーに「巡回しないで」と指示するだけで、インデックスを防ぐ保証はない。
- すでに検索エンジンにインデックスされたページは削除されない。
- 確実にインデックスを防ぎたい場合は、meta robots タグを使う。
インデックスを防ぐ方法(meta robots タグを使用)
以下のHTMLを
内に記述すれば、そのページのインデックスを防ぐことができます。
<meta name="robots" content="noindex, nofollow">
robots.txt の確認方法
自分の robots.txt が正しく機能しているかを確認するには、以下の方法があります。
-
Google Search Console の robots.txt テスター
Google Search Console の「robots.txt テスター」を使うと、設定が正しいか確認できます。 -
直接URLにアクセス
ブラウザで https://example.com/robots.txt にアクセスし、内容を確認する。