Методика выбора поисковой машины

Ниже приведен фрагмент статьи, которая была написана нами в декабре 1998 г.

Copyright , 2000 г.

Поляков В.Н., Шонин Д.А. Использование лингвистических технологий для сбора и анализа научных данных в компьютерной сети ИНТЕРНЕТ. ”Обработка текста и когнитивные технологии”: Сборник, / Под ред. Потаповой Р.К., - Пущино: 1999 (Вып.2) с.87-100.

***

3. Методика выбора поисковой машины

Специфика данной задачи заключается в том, что нам необходимо найти не один-два узла по определенной тематике, а в сжатые сроки просмотреть весь массив доступной информации. При этом из экономических соображений сразу была сделана ориентация на компьютерные средства, доступные рядовому научному коллективу, который не может себе позволить "роскошь" поддержания поисковой машины, оснащенной высокоскоростными устройствами доступа к данным, сверхсовременными средствами связи, круглосуточно работающими спайдерами и т.п. атрибутами. (Спайдер (spider, букв. паук) - программный агент для сбора информации в сети Интернет). Поэтому, при необходимости обзора ресурсов Интернет, посвященных какому-либо научному направлению, первым шагом является обращение к надежной поисковой системе. При этом возникают проблемы, во-первых, выбора поисковой машины и, во-вторых, организации запроса таким образом, чтобы не пропустить нужной информации и, в то же время, не получить большого количества информационного "мусора".

Казалось, при том обилии информации о поисковых машинах, которые есть в Интернет, выбор поисковой машины для организации сбора по определенному направлению не представляет проблем. Например, на рис.1 показана диаграмма рейтингов поисковых машин, приведенная в [http://www.searchenginewatch.com/reports/index.html Search Engine Status Reports]. Однако, учитывая особенности поставленной задачи, мы были вынуждены разработать собственную методику эмпирической проверки качества работы поисковых машин по скорости и релевантности результатов поиска.

Первый вывод, к которому мы пришли в результате многочисленных экспериментов при организации запросов - это "необходимость организации запросов по словосочетанию из двух, реже трех слов, адекватно отражающих специфику предметной области". Запросы, организованные по одному ключевому слову или комбинации отдельных ключевых слов, дают непозволительно большое количество информационного шума вследствие полисемии.

Рис.1 Диаграмма рейтингов поисковых машин, приведенная в [http://www.searchenginewatch.com/reports/index.html Search Engine Status Reports].

Обозначения: YH=Yahoo, NS=Netscape, EX=Excite, IS=Infoseek, LY=Lycos, AV=AltaVista, WC=WebCrawler, RN=RealNames

В таблице 1 приведены сравнительные результаты запросов по словосочетаниям и отдельным ключевым словам, полученные на различных поисковых машинах. Запрос, указанный в кавычках, организован по соответствующему словосочетанию (например: "natural language"). Запрос по комбинации ключевых слов записан через знак "+" (например: "natural+ language"). Выбор такого словосочетания или нескольких словосочетаний, является непростой задачей, которую может решить только специалист в данной предметной области.

Для сравнительных тестов были выбраны поисковые машины, которые сообщают общее количество обнаруженных по запросу узлов. Для машины Yahoo приведены два значения: в левом столбце - количество Web-сайтов, в правом - количество Web-страниц. Из таблицы 1 можно увидеть, что машины, осуществляющие поиск по ключевым словам (HotBot, Infoseek), находят больше информации, чем машины рубрикаторного типа (Yahoo, AltaVista).

Выбрав подходящий поисковый образ, можно уже попытаться протестировать поисковые машины по скорости поиска и по релевантности полученной информации.

Табл 1. Сравнительные результаты запросов по словосочетаниям и отдельным словам.

Запрос	Yahoo		Alta Vista	HotBot	Infoseek
"natural language"	66	18968	59680	16488	34408
natural+language	91	200247	59665	4736071	14985308
"artificial intelligence"	243	200247	181623	103894	381403
artificial+intelligence	274	34912	181623	226940	2385170
"search engine"	780	326518	757344	1422073	4239348
search+engine	1613	92067	757344	932471	33328393

В таблице 2 приведены сравнительные данные о времени выполнения запросов для различных поисковых машин. Для устранения ошибки, связанной с техническими средствами, запросы запускались одновременно на четырех одинаковых компьютерах, подключенных к общему каналу Интернет. При этом объем выводимой на экран информации устанавливался минимальным и фиксировалось время окончания загрузки информации. Для поисковой машины Yahoo минимально возможное количество узлов составляет 20, для остальных - 10. Естественно, что на результаты тестирования влияло и время загрузки коммерческой и рекламной информации, которая всегда присутствует на серверах поисковых машин.

В таблице приведены данные по восьми из девяти запросов по трем словосочетаниям ("natural language"-строки 1,2; "artificial intelligence"-строки 3,4,5; "search engine" - строки 6,7,8). Время приведено в процентах по отношению к самой быстрой поисковой машине (Yahoo). Во время выполнения запросов наблюдались сбои в работе поисковых машин: Yahoo - 1 раз (этот запрос в таблице 2 не представлен); AltaVista - нет; HotBot - 3 раза; Infoseek - 1 раз.

Табл 2. Сравнительные данные о времени выполнения запросов.

	Yahoo	AltaVista	HotBot	Infoseek
1	100%	132%	-	104%
2	100%	160%	238%	348%
3	100%	233%	233%	167%
4	100%	225%	225%	225%
5	100%	426%	-	320%
6	100%	45%	87%	79%
7	100%	107%	-	-
8	100%	243%	387%	260%

Для проверки релевантности найденной информации использовалась следующая методика. По результатам поиска организовывался дополнительный запрос по ключевому слову (например: application= приложение). Результаты второго запроса анализировались вручную. Для проведения этого теста потребовалось использовать средства комбинирования запросов, предусмотренные в различных поисковых машинах.

На сервере Infoseek предусмотрена возможность организации запроса к результатам предыдущего запроса. Анализ полученного таким образом подзапроса показал его стопроцентную релевантность. Для сокращения множества найденной информации с целью оценки релевантности был сделан еще один подзапрос по ключевому слову finance. Данные о количестве узлов, найденных в подзапросе, приведены в таблице 3.

На поисковой машине Yahoo подзапрос был организован как сложный запрос "natural language" application и дал значительно меньше Web-страниц, чем на Infoseek (см.табл.3) с релевантностью 100%.

На поисковой машине AltaVista мы пытались организовать сложный запрос двумя способами:

- Как запрос "natural language" AND application (столбец AND в табл.3). Оператор AND означает логическое И.

- Как запрос ["natural language" application] (столбец [-] в табл.3). Скобки [...] означает близкое расположение слов в тексте (не более десяти разделяющих слов).

Результат такого поиска оказался очень противоречивым и неправдоподобным. Релевантность такого количества узлов оценить невозможно.

Табл 3. Сравнительные данные о подзапросах и сложных запросах.

Запрос	Yahoo	Alta Vista		HotBot		Infoseek
		AND	[-]	exact phrase	all words
"natural language" +application	5	37767	735924	63	112269	536
"artificial intelligence" +application	38	255	1566663	215	33611	768
"search engine" +application	2	5602531	3775072	455	184315	1305

На поисковой машине HotBot для организации подзапроса выполнялся сложный запрос natural language application в двух режимах:

- в режиме exact phrase (столбец exact phrase в табл.3);

- в режиме all words (столбец all words в табл.3).

При этом мы фактически меняли первоначальный поисковый образ, так что оценка релевантности также оказалась невозможной.

В результате комплексного анализа поисковых машин выбор был сделан в пользу Infoseek.

***

Дополнение (апрель 2000 г.):

Парадоксальный на первый взгляд результат, когда самая популярная ПМ оказывается не самой лучшей, автор объясняет следующим образом.

Наибольшей популярностью пользуются поисковые системы, обеспечивающие минимальное время поиска при его удовлетворительном качестве (на момент тестирования этим качествам отвечала ПМ Yahoo).

Для научных целей, когда время поиска интересует в меньшей степени, а на первый план выходят задачи обеспечения релевантности и полноты при удовлетворительном времени поиска, к выбору ПМ необходимо подходить более обдуманно (на момент тестирования всем приведенным качествам отвечала ПМ Infoseek).

Hosted by www.Geocities.ws