検索エンジンの基本的な仕組み



SEOのためには、検索エンジンの基本的な仕組みを理解する必要があります。

検索エンジンの基本的な仕組みは以下であり、それぞれが分業して処理を実施しています。

1) クロール
2) インデックス
3) サーチ

○クロール(ページ情報の収集)

クローラーと呼ばれるプログラムがインターネット上のサイトを巡回し、各サイトのページ情報を収集します。収集したページ情報は、一時保管データベースに登録されます。

インターネット上には大変な量のページが存在します。検索結果情報として網羅性と最新性を得るには多量の巡回が必要であり、効率的に巡回する技術が各検索エンジンの重要なノウハウの一つです。

網羅性と最新性を得るため、有用サイトは頻度の高い巡回を行う必要があります。ただし、サイト側の負荷を配慮した適切なアクセス制御が必要です。1台のサーバーで複数のサイトが運用されていることも多く、アクセス制御はサイト(ドメイン)単位ではなく、サーバー(IPアドレス)単位で行われことが望ましいです。

○インデックス(データベース化)

インデックサーと呼ばれるプログラムが一時保管データベースを参照し、そのページの各種情報(URL、重要なキーワードリンク、サイズ、日付、等)を整理して、インデックスデータベースと呼ばれる、検索時に参照されるデータベースに登録します。その際、ページ情報はキャッシュデータベースに登録されます。

インデックスデータベースは、データベースを保守するプログラムによって、定常的に、類似ページの削除や保管されてからの時間経過に伴って変化する情報の更新、などのメンテナンス処理が実行されます。

サーチ処理で瞬時に検索結果を表示させるため、実際の検索時に行うスコアリング作業(順位付け)は、必要最低限になるよう設計されます。そのために重要なのがインデックスでの情報整理です。この整理の仕方が各検索エンジンの重要なノウハウです。

○サーチ(検索要求に対する対応)

検索画面に対応するプログラムは、利用者が検索したとき、インデックスデータベースを参照し、検索語を前提にしたスコアリングを行い、そのスコア順にページ情報を一覧します。その際、そのページに対応するキャッシュURLを付記することで、キャッシュデータベースを参照可能な仕組みにしています。

***

インデックスとサーチの両者で行われるスコアリングに関わる仕組みを合わせて、アルゴリズムと呼びます。アルゴリズムは、検索語に対応したページの一覧の順序を決めるものです。アルゴリズムの品質が悪ければ一覧結果が利用者のニーズに沿わないものになり、検索精度の悪い検索エンジンという評価になってしまいます。アルゴリズムは、検索エンジンで最も重要な仕様です。