robots.txt



robots.txt(ロボット・テキスト、ロボッツ・テキスト)

robots.txtとは、そのウェブサイトでの検索エンジンロボットクローラー)の振る舞いを指定する情報またはそのファイルの名称です。

***

robots.txtは、最近までは、アクセス量が過剰なクローラー等の拒否またはアクセス間隔の制限を行うこと以外に用途はありませんでした。したがって、SEO的には無意味な機能でしたが、最近、検索エンジンSitemapsの存在を通知できるSitemap Autodiscovery機能がrobots.txtに付加され、SEO的(インデックス化促進)に意味のあるファイルになりました。

2007年4月、GoogleYahooMSNの3社は、SitemapsURLrobots.txtで指定可能にすることを発表しました。

従来は、各検索エンジンのサイトに個別にSitemapsURLを登録する必要がありましたが、この機能の提供により、robots.txtに以下の形式の1行を追加するだけで、Autodiscoveryをサポートする全ての検索エンジンSitemapsの存在を通知できるようになりました。

  Sitemap: http://www.example.com/sitemap.xml

複数のSitemapsの指定は複数行を記述することで可能です。

☆Yahoo!公式ブログの記事
http://www.ysearchblog.com/archives/000437.html

☆サイトマップ(Sitemaps)のサポートについて - Yahooサイト管理者向けヘルプ
http://help.yahoo.co.jp/help/jp/search/indexing/indexing-29.html

☆Google公式ブログの記事
http://googlewebmastercentral.blogspot.com/2007/04/whats-new-with-sitemapsorg.html

関連ページ(施策):
  インデックス対策
  GoogleのSitemaps機能について
  Google、Yahoo!、MSNの統一フォーマット「Sitemaps 0.90」
  Yahoo!のSitemaps機能について

関連ページ(用語):
  Sitemaps
  Sitemaps 0.90

***

robots.txtは、ウェブサイトのトップディレクトリに保管します。

ロボットは、robots.txtファイルがなければ巡回しますので、巡回を希望する場合、特に指定する必要はありません。

robots.txtの記述例:

 ・すべての巡回を希望する指定(無指定と同じ)

  ┌────────────────────────
  │User-agent: *
  │Disallow:
  └────────────────────────

 ・全ての巡回を拒否する指定

  ┌────────────────────────
  │User-agent: *
  │Disallow: /
  └────────────────────────

 ・一部の巡回を拒否する指定

  ┌────────────────────────
  │User-agent: *
  │Disallow: /test/
  │Disallow: /otameshi.html
  └────────────────────────

   ※ 上記は、/test/ ディレクトリのすべてと /otameshi.html の巡回を拒否する指定です。

 ・特定のファイルの巡回を拒否する指定

  ┌────────────────────────
  │User-agent: *
  │Disallow: /*.gif$
  └────────────────────────

   ※ 上記は、トップディレクトリ直下のGIFファイルの巡回を拒否する指定です。
     (イメージ検索用クローラーへの対応)

   ※ 上記で使用しているワイルドカード(“*.gif$”の“*”)指定と
     末尾(“*.gif$”の“$”)指定は、対応しないクローラーがあります。

 ・特定のロボットに対して巡回を拒否する指定

  ┌────────────────────────
  │User-agent: ロボットの名称
  │Disallow: /
  └────────────────────────

   ※ 「ロボットの名称」には、以下等を指定します。

    ・* … 全ロボット
    ・Slurp … Yahooのロボット
    ・googlebot … Googleのロボット
    ・msnbot … MSNWindows Live Searchのロボット
    ・baiduspider … 百度のロボット
    ・NaverBot … NAVERのロボット
    ・YodaoBot … 有道のロボット
    ・TEOMA … Askのロボット
    ・BecomeBot … Becomeのロボット

    上記は、HTTP_USER_AGENT中の文字列とは無関係です。

 ・複数のUser-agentに対して巡回を拒否する指定

  ┌────────────────────────
  │User-agent: baiduspider
  │Disallow: /
  │
  │User-agent: NaverBot
  │Disallow: /
  └────────────────────────

   ※ 複数のUser-agentの指定を行う場合は、上記のように空行を挿入して記述します。

***

robots.txtの指定は、すべてのクローラーが守ってくれるわけではありません。対応の有無は、各クローラーの解説サイトの確認が必要です。

大手検索エンジンクローラーの多くは問題ないですが、行儀の悪いクローラーもいますので、巡回されたくないページは、他ページからリンクを張らない、そのページに記載されている外部リンクをクリックしない(リンク先で記録され自動でバックリンクを張られることがしばしばあるため)という注意も必要です。

なお、間違いなく巡回を拒否したい場合は、.htaccessによる拒否、Basic認証やCGIによる認証の対応が必要です。

***

★Yahoo - robots.txtで使用できるパターン記号
http://help.yahoo.co.jp/help/jp/search/indexing/indexing-30.html

★Google - robots.txt ファイルを使用してページをブロックまたは削除する
http://www.google.com/support/webmasters/bin/answer.py?answer=35303

関連ページ(施策):
  クローラーの巡回を拒否する指定
  クローラーの巡回を希望する指定

関連ページ(用語):
  .htaccess
  メタ・ロボット
  Yahoo Slurp
  Googlebot
  msnbot
  Baiduspider
  NaverBot



   
関連サイト