クローラーの巡回を拒否する指定



クローラー巡回可否は、robots.txtメタ・ロボット.htaccess、等で指定できます。

クローラーは指定がなければ巡回しますので、巡回を希望する場合、特に指定する必要はありません。しかし、何らかの理由、たとえば、テスト用のページのため巡回して欲しくない場合、robots.txtメタ・ロボット.htaccess、等で指定することで、巡回を拒否できます。

○トップディレクトリ直下のrobots.txt

  ┌────────────────────────
  │User-agent: *
  │Disallow: /test/
  │Disallow: /otameshi.html
  └────────────────────────

  • 上記は、/test/ ディレクトリのすべてと /otameshi.html の巡回を拒否する指定です。
  • サイトすべての巡回拒否を行う場合は Disallow: / を指定します。
  • User-agentは、特定のクローラー巡回を拒否する場合に、クローラーによって決まっている名称を記入して指定するものです。  GoogleのGooglebotクローラーは「Googlebot」、YahooのYahoo Slurpクローラーは「Slurp」がその名称です。
  • robots.txtファイルは、必ずサイトのトップディレクトリに配置する必要があります。


○ページのHEADセクション内に以下を記述(メタ・ロボット)

  <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

  • ページ単位に有効です。
  • この方法は、厳密には、「クローラー巡回を拒否」するものではなく、CONTENT属性で指定するとおり、インデックスされることの拒否(NOINDEX)、リンク先を辿ることの拒否(NOFOLLOW)、です。ただし、これが指定されている場合、巡回は無意味ですので、クローラーはその後の巡回を行わないように制御されます。


***

robots.txtまたはメタ・ロボットの指定は、すべてのクローラーが守ってくれるわけではありません。

大手検索エンジンクローラーはだいたい問題ないですが、行儀の悪いクローラーもいますので、巡回されたくないページは、他ページからリンクを張らない、そのページに記載されている外部リンクをクリックしない(リンク先で記録され自動でバックリンクを張られることがしばしばあるため)という注意も必要です。

なお、間違いなく巡回を拒否したい場合は、.htaccessによる拒否を行うか、Basic認証やCGIによる認証の対応が必要です。

***

クローラーによる巡回は、JavaScriptを使うアクセス解析ツールでは記録されません。CGIまたはSSIを使うアクセス解析ツールか、ウェブサーバーの生ログの参照で確認できます。



   
関連サイト