ウエブを這い回るロボットを創るには?

自動的に webを旅するプログラムはとても役立ちますが、深酷な問題を起こす可能性もあります。各サイトをひとつづつ懸命に「捜しまわる」かわりに、多くのサイトを次々と探検し、webを「幅優先検索」するようなロボットが作られています。いくつかのこのようなロボットは、web 上で利用できる優れた索引を作りました。

しかし、別の人は単純な深さ優先検索を用いたため、最悪の場合、無数のリンクを持つ CGIスクリプトを基にしたページを再帰的にダウンロードすることによって、数分のうちにサーバを屈伏させてしまう (ロボットはしばしばこれに気付きません！)ものを作りました。ロボットが数百の mpeg movieの目録を作ろうとした場合、どうなるか想像してみて下さい。恐ろしいでしょう。

教訓：あなたが欲しいロボットは既にあるかもしれません。もしなければ、 World Wide Web Robots, Wanderersおよび Spidersに関する文書 (URL http://info.webcrawler.com/mak/projects/robots/robots.html )を学ぶことと、望まれていない領域からのロボットの探検のための出現基準について知っておいて下さい。そこでは既存のロボットについても読むことができます。

World Wide Web FAQ