Baiduspider



Baiduspider(バイドゥ・スパイダー)

Baiduspiderとは、中国最大の検索サービス「百度」が使用するクローラーの名称です。

Baiduspiderには複数の種類がありますが、主要なHTTP_USER_AGENTは以下です。

  Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
  Baiduspider+(+http://www.baidu.com/search/spider.htm)

従来、十分な間隔をおかずに連続アクセスし大量に巡回して行くため、日本の多数のサイトが出入り禁止(アクセス拒否)にしたクローラーです。

★Wikipediaによる「Baiduspiderの行儀の悪さ」の解説
http://ja.wikipedia.org/wiki/Baiduspider

★Googleにて「Baiduspider (拒否|禁止)」を検索 ⇒ 18,400件(2007/04/06時点)
http://www.google.com/search?hl=ja&q=Baiduspider+%28%E6%8B%92%E5%90%A6%7C%E7%A6%81%E6%AD%A2%29

その「百度」は、2006年12月、2007年に日本語版のサービスを開始することを発表しました。

★日本進出が決まった中国最大の検索サービス「百度」の実態 - CNET Japan
http://japan.cnet.com/interview/story/0,2000055954,20337724,00.htm

その後、Baiduspiderのクロールの行儀の悪さは変わりませんでしたが、2007年1月頃からアクセスがほとんどなくなりました。

百度」は、2007年3月、「Baiduspiderの行儀をよくします」広報を行いました。

★「百度 日本」の「Baiduspiderの行儀をよくします」広報
http://www.baidu.jp/spider.html

3月21日に「百度 日本」のベータ版が公開されました。

★百度 日本
http://www.baidu.jp/

★百度について
http://www.baidu.jp/about.html

その日の夕方からBaiduspiderのクロールが再開されましたが、以前に比べて遥かに長いアクセス間隔でクロールするようになりました。

 
○Baiduspiderのアクセス拒否またはアクセス間隔制御の方法

☆.htaccessによる方法

  • サイトのトップディレクトリに保管する.htaccessファイルをウェブサーバーが読み取ってアクセス制御する方法です。
  • ウェブサーバーの種類や設定状況によっては、使用できないことがあります。
  • サイトのトップディレクトリに.htaccessファイルを保管できる権限が必要です。
  • この方法が使用可能な場合、アクセス制御として一番確実な方法です。

★全アクセスを拒否(クローラー名称を指定する方法)
┌────────────────────────
│SetEnvIf User-Agent "Baiduspider" deny_ua
│Order allow,deny
│Allow from all
│Deny from env=deny_ua
└────────────────────────
※ "Baiduspider"は、Baiduspiderを識別可能なHTTP_USER_AGENT中の一部の文字列です。
HTTP_USER_AGENTが変更された場合などは、必要に応じて変更が必要です。

★全アクセスを拒否(IPアドレスを指定する方法)
┌────────────────────────
│Order allow,deny
│Allow from all
│Deny from IPアドレス1
│Deny from IPアドレス2
│ :
└────────────────────────
IPアドレスは、クローラーIPアドレスを、「12.345.6.789」のように指定します。
※ 複数のIPアドレスを指定する場合、複数行を指定します。

☆robots.txtによる方法

  • サイトのトップディレクトリに保管するrobots.txtファイルをクローラーが読み取ってアクセス制御する方法です。
  • Baiduspiderの場合、対応していることが、下方のURLに明記されています。
  • サイトのトップディレクトリにrobots.txtファイルを保管できる権限が必要です。

★全アクセスを拒否
┌────────────────────────
│User-agent: baiduspider
│Disallow: /
└────────────────────────

★最短アクセス間隔を指定
┌────────────────────────
│User-agent: baiduspider
│Crawl-delay: 30
└────────────────────────
※ 指定の単位は「秒」

☆メタ・ロボットによる方法

  • Baiduspiderの場合、対応している旨の説明はありません。

***

★Baiduspiderのrobots.txtの説明
http://www.baidu.jp/search/robots.html

関連ページ(用語):
  百度
  クローラー
  Yahoo Slurp
  Googlebot
  msnbot
  NaverBot
  .htaccess
  robots.txt
  メタ・ロボット



   
関連サイト