|
|
robots.txtrobots.txt(ロボット・テキスト、ロボッツ・テキスト) robots.txtとは、そのウェブサイトでの検索エンジンのロボット(クローラー)の振る舞いを指定する情報またはそのファイルの名称です。 *** robots.txtは、最近までは、アクセス量が過剰なクローラー等の拒否またはアクセス間隔の制限を行うこと以外に用途はありませんでした。したがって、SEO的には無意味な機能でしたが、最近、検索エンジンにSitemapsの存在を通知できるSitemap Autodiscovery機能がrobots.txtに付加され、SEO的(インデックス化促進)に意味のあるファイルになりました。 2007年4月、Google、Yahoo、MSNの3社は、SitemapsのURLをrobots.txtで指定可能にすることを発表しました。 従来は、各検索エンジンのサイトに個別にSitemapsのURLを登録する必要がありましたが、この機能の提供により、robots.txtに以下の形式の1行を追加するだけで、Autodiscoveryをサポートする全ての検索エンジンにSitemapsの存在を通知できるようになりました。 Sitemap: http://www.example.com/sitemap.xml 複数のSitemapsの指定は複数行を記述することで可能です。 ☆Yahoo!公式ブログの記事
http://www.ysearchblog.com/archives/000437.html☆サイトマップ(Sitemaps)のサポートについて - Yahooサイト管理者向けヘルプ
http://help.yahoo.co.jp/help/jp/search/indexing/indexing-29.html☆Google公式ブログの記事
http://googlewebmastercentral.blogspot.com/2007/04/whats-new-with-sitemapsorg.html関連ページ(施策): インデックス対策 GoogleのSitemaps機能について Google、Yahoo!、MSNの統一フォーマット「Sitemaps 0.90」 Yahoo!のSitemaps機能について 関連ページ(用語): Sitemaps Sitemaps 0.90 *** robots.txtは、ウェブサイトのトップディレクトリに保管します。 ロボットは、robots.txtファイルがなければ巡回しますので、巡回を希望する場合、特に指定する必要はありません。 robots.txtの記述例: ・すべての巡回を希望する指定(無指定と同じ) ┌──────────────────────── │User-agent: * │Disallow: └──────────────────────── ・全ての巡回を拒否する指定 ┌──────────────────────── │User-agent: * │Disallow: / └──────────────────────── ・一部の巡回を拒否する指定 ┌──────────────────────── │User-agent: * │Disallow: /test/ │Disallow: /otameshi.html └──────────────────────── ※ 上記は、/test/ ディレクトリのすべてと /otameshi.html の巡回を拒否する指定です。 ・特定のファイルの巡回を拒否する指定 ┌──────────────────────── │User-agent: * │Disallow: /*.gif$ └──────────────────────── ※ 上記は、トップディレクトリ直下のGIFファイルの巡回を拒否する指定です。 (イメージ検索用クローラーへの対応) ※ 上記で使用しているワイルドカード(“*.gif$”の“*”)指定と 末尾(“*.gif$”の“$”)指定は、対応しないクローラーがあります。 ・特定のロボットに対して巡回を拒否する指定 ┌──────────────────────── │User-agent: ロボットの名称 │Disallow: / └──────────────────────── ※ 「ロボットの名称」には、以下等を指定します。 ・* … 全ロボット ・Slurp … Yahooのロボット ・googlebot … Googleのロボット ・msnbot … MSN、Windows Live Searchのロボット ・baiduspider … 百度のロボット ・NaverBot … NAVERのロボット ・YodaoBot … 有道のロボット ・TEOMA … Askのロボット ・BecomeBot … Becomeのロボット 上記は、HTTP_USER_AGENT中の文字列とは無関係です。 ・複数のUser-agentに対して巡回を拒否する指定 ┌──────────────────────── │User-agent: baiduspider │Disallow: / │ │User-agent: NaverBot │Disallow: / └──────────────────────── ※ 複数のUser-agentの指定を行う場合は、上記のように空行を挿入して記述します。 *** robots.txtの指定は、すべてのクローラーが守ってくれるわけではありません。対応の有無は、各クローラーの解説サイトの確認が必要です。 大手検索エンジンのクローラーの多くは問題ないですが、行儀の悪いクローラーもいますので、巡回されたくないページは、他ページからリンクを張らない、そのページに記載されている外部リンクをクリックしない(リンク先で記録され自動でバックリンクを張られることがしばしばあるため)という注意も必要です。 なお、間違いなく巡回を拒否したい場合は、.htaccessによる拒否、Basic認証やCGIによる認証の対応が必要です。 *** ★Yahoo - robots.txtで使用できるパターン記号 http://help.yahoo.co.jp/help/jp/search/indexing/indexing-30.html ★Google - robots.txt ファイルを使用してページをブロックまたは削除する http://www.google.com/support/webmasters/bin/answer.py?answer=35303 関連ページ(施策): クローラーの巡回を拒否する指定 クローラーの巡回を希望する指定 関連ページ(用語): .htaccess メタ・ロボット Yahoo Slurp Googlebot msnbot Baiduspider NaverBot
※ 本資料(「SEOの施策(方法)とSEOツールの紹介」または「SEOの用語集」)の最終更新は2009年の夏です。
そのため一部にリンク切れや古い情報を含むことをご承知おきください。
|
|