Ниже приведен фрагмент статьи, которая была написана нами в декабре 1998 г.

Copyright , 2000 г.

Поляков В.Н., Шонин Д.А. Использование лингвистических технологий для сбора и анализа научных данных в компьютерной сети ИНТЕРНЕТ. ”Обработка текста и когнитивные технологии”: Сборник, / Под ред. Потаповой Р.К., - Пущино: 1999 (Вып.2) с.87-100.

***

3. Методика выбора поисковой машины

Специфика данной задачи заключается в том, что нам необходимо найти не один-два узла по определенной тематике, а в сжатые сроки просмотреть весь массив доступной информации. При этом из экономических соображений сразу была сделана ориентация на компьютерные средства, доступные рядовому научному коллективу, который не может себе позволить "роскошь" поддержания поисковой машины, оснащенной высокоскоростными устройствами доступа к данным, сверхсовременными средствами связи, круглосуточно работающими спайдерами и т.п. атрибутами. (Спайдер (spider, букв. паук) - программный агент для сбора информации в сети Интернет). Поэтому, при необходимости обзора ресурсов Интернет, посвященных какому-либо научному направлению, первым шагом является обращение к надежной поисковой системе. При этом возникают проблемы, во-первых, выбора поисковой машины и, во-вторых, организации запроса таким образом, чтобы не пропустить нужной информации и, в то же время, не получить большого количества информационного "мусора".

Казалось, при том обилии информации о поисковых машинах, которые есть в Интернет, выбор поисковой машины для организации сбора по определенному направлению не представляет проблем. Например, на рис.1 показана диаграмма рейтингов поисковых машин, приведенная в [http://www.searchenginewatch.com/reports/index.html Search Engine Status Reports]. Однако, учитывая особенности поставленной задачи, мы были вынуждены разработать собственную методику эмпирической проверки качества работы поисковых машин по скорости и релевантности результатов поиска.

Первый вывод, к которому мы пришли в результате многочисленных экспериментов при организации запросов - это "необходимость организации запросов по словосочетанию из двух, реже трех слов, адекватно отражающих специфику предметной области". Запросы, организованные по одному ключевому слову или комбинации отдельных ключевых слов, дают непозволительно большое количество информационного шума вследствие полисемии.

 

Рис.1 Диаграмма рейтингов поисковых машин, приведенная в [http://www.searchenginewatch.com/reports/index.html Search Engine Status Reports].

Обозначения: YH=Yahoo, NS=Netscape, EX=Excite, IS=Infoseek, LY=Lycos, AV=AltaVista, WC=WebCrawler, RN=RealNames

В таблице 1 приведены сравнительные результаты запросов по словосочетаниям и отдельным ключевым словам, полученные на различных поисковых машинах. Запрос, указанный в кавычках, организован по соответствующему словосочетанию (например: "natural language"). Запрос по комбинации ключевых слов записан через знак "+" (например: "natural+ language"). Выбор такого словосочетания или нескольких словосочетаний, является непростой задачей, которую может решить только специалист в данной предметной области.

Для сравнительных тестов были выбраны поисковые машины, которые сообщают общее количество обнаруженных по запросу узлов. Для машины Yahoo приведены два значения: в левом столбце - количество Web-сайтов, в правом - количество Web-страниц. Из таблицы 1 можно увидеть, что машины, осуществляющие поиск по ключевым словам (HotBot, Infoseek), находят больше информации, чем машины рубрикаторного типа (Yahoo, AltaVista).

Выбрав подходящий поисковый образ, можно уже попытаться протестировать поисковые машины по скорости поиска и по релевантности полученной информации.

Табл 1. Сравнительные результаты запросов по словосочетаниям и отдельным словам.

Запрос

Yahoo

Alta Vista

HotBot

Infoseek

"natural language"

66

18968

59680

16488

34408

natural+language

91

200247

59665

4736071

14985308

"artificial intelligence"

243

200247

181623

103894

381403

artificial+intelligence

274

34912

181623

226940

2385170

"search engine"

780

326518

757344

1422073

4239348

search+engine

1613

92067

757344

932471

33328393

В таблице 2 приведены сравнительные данные о времени выполнения запросов для различных поисковых машин. Для устранения ошибки, связанной с техническими средствами, запросы запускались одновременно на четырех одинаковых компьютерах, подключенных к общему каналу Интернет. При этом объем выводимой на экран информации устанавливался минимальным и фиксировалось время окончания загрузки информации. Для поисковой машины Yahoo минимально возможное количество узлов составляет 20, для остальных - 10. Естественно, что на результаты тестирования влияло и время загрузки коммерческой и рекламной информации, которая всегда присутствует на серверах поисковых машин.

В таблице приведены данные по восьми из девяти запросов по трем словосочетаниям ("natural language"-строки 1,2; "artificial intelligence"-строки 3,4,5; "search engine" - строки 6,7,8). Время приведено в процентах по отношению к самой быстрой поисковой машине (Yahoo). Во время выполнения запросов наблюдались сбои в работе поисковых машин: Yahoo - 1 раз (этот запрос в таблице 2 не представлен); AltaVista - нет; HotBot - 3 раза; Infoseek - 1 раз.

Табл 2. Сравнительные данные о времени выполнения запросов.

Yahoo

AltaVista

HotBot

Infoseek

1

100%

132%

-

104%

2

100%

160%

238%

348%

3

100%

233%

233%

167%

4

100%

225%

225%

225%

5

100%

426%

-

320%

6

100%

45%

87%

79%

7

100%

107%

-

-

8

100%

243%

387%

260%

Для проверки релевантности найденной информации использовалась следующая методика. По результатам поиска организовывался дополнительный запрос по ключевому слову (например: application= приложение). Результаты второго запроса анализировались вручную. Для проведения этого теста потребовалось использовать средства комбинирования запросов, предусмотренные в различных поисковых машинах.

На сервере Infoseek предусмотрена возможность организации запроса к результатам предыдущего запроса. Анализ полученного таким образом подзапроса показал его стопроцентную релевантность. Для сокращения множества найденной информации с целью оценки релевантности был сделан еще один подзапрос по ключевому слову finance. Данные о количестве узлов, найденных в подзапросе, приведены в таблице 3.

На поисковой машине Yahoo подзапрос был организован как сложный запрос "natural language" application и дал значительно меньше Web-страниц, чем на Infoseek (см.табл.3) с релевантностью 100%.

На поисковой машине AltaVista мы пытались организовать сложный запрос двумя способами:

- Как запрос "natural language" AND application (столбец AND в табл.3). Оператор AND означает логическое И.

- Как запрос ["natural language" application] (столбец [-] в табл.3). Скобки [...] означает близкое расположение слов в тексте (не более десяти разделяющих слов).

Результат такого поиска оказался очень противоречивым и неправдоподобным. Релевантность такого количества узлов оценить невозможно.

Табл 3. Сравнительные данные о подзапросах и сложных запросах.

Запрос

Yahoo

Alta Vista

HotBot

Infoseek

 

 

AND

[-]

exact phrase

all words

 

"natural language"

+application

5

37767

735924

63

112269

536

"artificial intelligence"

+application

38

255

1566663

215

33611

768

"search engine"

+application

2

5602531

3775072

455

184315

1305

На поисковой машине HotBot для организации подзапроса выполнялся сложный запрос natural language application в двух режимах:

- в режиме exact phrase (столбец exact phrase в табл.3);

- в режиме all words (столбец all words в табл.3).

При этом мы фактически меняли первоначальный поисковый образ, так что оценка релевантности также оказалась невозможной.

В результате комплексного анализа поисковых машин выбор был сделан в пользу Infoseek.

***

Дополнение (апрель 2000 г.):

Парадоксальный на первый взгляд результат, когда самая популярная ПМ оказывается не самой лучшей, автор объясняет следующим образом.

Наибольшей популярностью пользуются поисковые системы, обеспечивающие минимальное время поиска при его удовлетворительном качестве (на момент тестирования этим качествам отвечала ПМ Yahoo).

Для научных целей, когда время поиска интересует в меньшей степени, а на первый план выходят задачи обеспечения релевантности и полноты при удовлетворительном времени поиска, к выбору ПМ необходимо подходить более обдуманно (на момент тестирования всем приведенным качествам отвечала ПМ Infoseek).

Hosted by www.Geocities.ws

1