Подробности ...
Проверка количественного состава БД поисковых машин проводилась путем прямого сравнения результатов поиска по отдельным ключевым словам (именам нарицательным, собственным и алфавитно-цифровым идентификаторам), по группе ключевых слов и по словосочетаниям. Ключевые слова и словосочетания были взяты из прямого эфира ПС Yandex, так что в целом они отвечают реальным информационным потребностям пользователей. Количественные данные базировались на строке, отражающей статистику результатов поиска. Учитывая то, что ПС Rambler и List не приводят статистику по числу найденных сайтов, для этих ПС данный параметр не указан. Так как для ПС Yandex существует ее быстрый вариант (Ya.ru) и результаты запросов "обычного" и "быстрого" Yandex'ов не всегда совпадают, для этой ПС выделено два столбца. Вопрос о том, насколько можно доверять данным о количестве найденных ресурсов, приводимым разработчиками ПС, мы обсудим в разделе "Качественный анализ". Постоянное количество найденных страниц 1500, которое показывает ПС Aport, означает, судя по всему, введенный разработчиками искусственный ограничитель. Сравнительные данные приведены в таблицах 5-8.
Таблица 5. Количественные данные результатов запроса по одному ключевому слову-имени нарицательному
|
Запрос |
Yandex |
"Быстрый" Yandex |
Aport |
Rambler |
List |
|||
|
Сайты |
Страницы |
Сайты |
Страницы |
Сайты |
Страницы |
Страницы |
Страницы |
|
|
аренда |
4737 |
181167 |
4700 |
203941 |
860 |
1500 |
45797 |
822 |
|
библиотека |
8428 |
655913 |
8456 |
591729 |
1097 |
1500 |
277830 |
1920 |
|
колледжи |
3173 |
60810 |
3205 |
23117 |
656 |
1500 |
5836 |
372 |
|
кран |
2669 |
49880 |
2669 |
68490 |
839 |
1500 |
16918 |
129 |
|
курс |
14121 |
1036914 |
14121 |
1036511 |
722 |
1500 |
270272 |
1647 |
|
тосты |
1509 |
62436 |
1509 |
70129 |
481 |
1500 |
48576 |
373 |
|
drivers |
2974 |
128461 |
2974 |
141295 |
533 |
1500 |
60873 |
73 |
Минимальное и максимальное процентные соотношения результатов поиска, приведенные на диаграмме 1, основывается именно на этой таблице.
Таблица 6. Количественные данные результатов запроса по одному ключевому слову-имени собственному или а/ц идентификатору
|
Запрос |
Yandex |
"Быстрый" Yandex |
Aport |
Rambler |
List |
|||
|
Сайты |
Страницы |
Сайты |
Страницы |
Сайты |
Страницы |
Страницы |
Страницы |
|
|
www.aport.ru |
1847 |
71991 |
1847 |
58794 |
912 |
1500 |
10 |
14 |
|
www.list.ru |
286 |
13598 |
267 |
4056 |
359 |
1500 |
71 |
160 |
|
www.rambler.ru |
1158 |
42245 |
1158 |
46488 |
383 |
1500 |
31 |
16 |
|
www.yandex.ru |
944 |
44017 |
944 |
40067 |
109 |
1500 |
14 |
7 |
|
Брат-2 |
291 |
4072 |
316 |
10397 |
123 |
172 |
86988 |
1 |
|
Ваз-2115 |
101 |
1905 |
101 |
2155 |
385 |
1067 |
44704 |
- |
|
ГАЗ-21 |
167 |
2711 |
167 |
2706 |
176 |
213 |
124893 |
17 |
|
Ковров |
3087 |
61577 |
3087 |
97038 |
809 |
1500 |
7552 |
9 |
|
Манилов |
281 |
13230 |
281 |
12030 |
302 |
1500 |
16265 |
- |
|
Шереметьево |
1045 |
16539 |
1045 |
25858 |
714 |
1500 |
13645 |
12 |
В запросах к ПС Rambler по ключевым словам Брат-2, Ваз-2115, ГАЗ-21 части идентификатора после тире просто отбрасывается как незначащие, что приводит в неоправданно большому количеству информационного шума.
Интересно сравнить данные запросов по URL (первые четыре строки). В ПС Rambler и List над этой возможностью надо еще поработать.
Всплеск по запросу на слово "Ковров" в ПС Yandex - признак того, что система не отличает нарицательное "ковёр" в родительном падеже множественного числа от имени собственного, обозначающего город во Владимирской области. Правда, необходимо признать, что в остальных ПС задача разрешения омонимии и полисемии также не решается.
Таблица 7. Количественные данные результатов запроса по нескольким ключевым словам (И-запрос)
|
Запрос |
Yandex |
"Быстрый" Yandex |
Aport |
Rambler |
List |
|||
|
Сайты |
Страницы |
Сайты |
Страницы |
Сайты |
Страницы |
Страницы |
Страницы |
|
|
linux +security |
3783 |
212245 |
3783 |
212245 |
3702 |
30866 |
26528 |
7 |
|
знакомства+девушки+Санкт-Петербург |
0 |
0 |
0 |
0 |
1407 |
4643 |
995 |
21 |
|
москва&справки&телефон |
1361 |
26214 |
1361 |
32058 |
486 |
855 |
3311 |
12 |
|
работа+вакансии+управленец+испанский |
0 |
0 |
0 |
0 |
8 |
9 |
2 |
0 |
Нами не ставилась задача полного тестирования возможностей расширенного поиска. Мы ограничились набором из 4-х И-запросов, полагая что они являются наиболее часто используемой разновидностью. Вообще, язык запросов - это довольно сложная вещь, ориентированная на квалифицированного пользователя. В руках профессионалов он может быть весьма эффективным инструментом поиска, в руках же неопытного пользователя - средством получения информационного шума или наоборот сведения результатов поиска к нулю (см. последнюю строчку в таблице). И здесь также помогает или мешает сориентироваться то, как организована подача информации. Например, в Yandex'е - строгий И-запрос дает 0 страниц, но выдается статистика по найденным
словам, которая в принципе позволяет скорректировать запрос. Было бы более эффективно - предложить измененные варианты запросов.Таблица 8. Количественные данные результатов запроса по словосочетаниям
1|
Запрос |
Yandex |
"Быстрый" Yandex |
Aport |
Rambler |
List |
|||
|
Сайты |
Страницы |
Сайты |
Страницы |
Сайты |
Страницы |
Страницы |
Страницы |
|
|
японские автомобили |
457 |
11213 |
457 |
11213 |
409 |
1856 |
2553 |
102 |
|
язык программирования perl |
510 |
14167 |
510 |
15589 |
874 |
1937 |
2912 |
23 |
|
юридические консультации |
1250 |
47884 |
1250 |
47884 |
1557 |
3000 |
11786 |
362 |
|
эмиграция в канаду |
211 |
2901 |
177 |
2593 |
1029 |
3000 |
1186 |
97 |
|
электронная библиотека 2 |
1246 |
80231 |
1246 |
80231 |
807 |
2276 |
19413 |
235 |
1.ПС Rambler и List не предусматривают поиск по словосочетанию и рассматривают введенный запрос как набор ключевых слов. Естественно, это влияет на релевантность результатов запроса. Данные в таблице для указанных ПС приведены для сравнения.
2.В ПС Yandex по запросу "электронная библиотека" в одном из сервисов ("поиск по товарам") выдается также "библиотека электронных компонентов", что говорит об ошибке обработки запроса. Но эта ошибка из той же серии, что "Ковров" (табл.6) и свидетельство хорошо проработанной морфологии в комбинации с обработкой прямых и инвертированных фраз. Также это свидетельство того, что ресурс традиционных методов обработки морфологии и синтаксиса в наиболее продвинутых ПС уже себя исчерпал.
В отчете не приведены сравнительные данные по времени выполнения запросов. Однако я думаю, что мы к этому вопросу когда-нибудь еще вернемся.