役立つ情報
登録日: 2025-03-17   最終更新日: 2025-03-19

robots.txt とは?

robots.txt は、ウェブサイトの管理者が検索エンジンのクローラー(ロボット)に対して、どのページをクロール(巡回・取得)してよいか、またはクロールしてほしくないかを指示するためのテキストファイルです。

robots.txt の役割

  • 検索エンジンのクローラーがサイトを訪問した際に最初に確認する。
  • 指定したページやディレクトリをクロール対象外にできる。
  • sitemap.xml の場所を指定し、検索エンジンにサイトの構造を伝えられる。

robots.txt の基本構造

robots.txt は User-agent(対象のクローラー)と Disallow(アクセス禁止のパス)を記述する単純なテキストファイルです。

基本的な書き方


User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

Sitemap: https://example.com/sitemap.xml

Memo:

  • User-agent: * → すべての検索エンジンのクローラーに適用。
  • Disallow: /admin/ → /admin/ 以下のページをクロール禁止。
  • Disallow: /private/ → /private/ 以下のページをクロール禁止。
  • Allow: /public/ → /public/ はクロールを許可。
  • Sitemap: https://example.com/sitemap.xml → サイトマップのURLを指定し、検索エンジンにページの構造を伝える。

robots.txt の設置場所

robots.txt は サイトのルートディレクトリ に設置する必要があります。

設置場所の例:
https://example.com/robots.txt

robots.txt の使用例

  1. サイト全体をクロール禁止
    開発中のサイトやテスト環境で検索エンジンにインデックスさせたくない場合。

User-agent: *
Disallow: /
  1. 特定のページをクロール禁止
    ログインページや会員登録ページなど、検索結果に表示する必要がないページを除外。

User-agent: *
Disallow: /login
Disallow: /signup
  1. Googlebot のみを制限
    Googlebot だけ /private/ 以下をクロール禁止にする。

User-agent: Googlebot
Disallow: /private/
  1. 画像をクロール禁止
    用途: 画像のインデックスを防ぐ。

User-agent: Googlebot-Image
Disallow: /images/
  1. サイトマップを通知
    sitemap.xml のURLを検索エンジンに伝え、サイトのクロール効率を上げる。

User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml

robots.txt の注意点

robots.txt でページのインデックスを完全に防げるわけではない!

  • robots.txt はクローラーに「巡回しないで」と指示するだけで、インデックスを防ぐ保証はない。
  • すでに検索エンジンにインデックスされたページは削除されない。
  • 確実にインデックスを防ぎたい場合は、meta robots タグを使う。

インデックスを防ぐ方法(meta robots タグを使用)

以下のHTMLを

内に記述すれば、そのページのインデックスを防ぐことができます。

<meta name="robots" content="noindex, nofollow">

robots.txt の確認方法

自分の robots.txt が正しく機能しているかを確認するには、以下の方法があります。

  • Google Search Console の robots.txt テスター
    Google Search Console の「robots.txt テスター」を使うと、設定が正しいか確認できます。

  • 直接URLにアクセス
    ブラウザで https://example.com/robots.txt にアクセスし、内容を確認する。


Copyright 役立つ情報.net