Подробности ...

Проверка количественного состава БД поисковых машин проводилась путем прямого сравнения результатов поиска по отдельным ключевым словам (именам нарицательным, собственным и алфавитно-цифровым идентификаторам), по группе ключевых слов и по словосочетаниям. Ключевые слова и словосочетания были взяты из прямого эфира ПС Yandex, так что в целом они отвечают реальным информационным потребностям пользователей. Количественные данные базировались на строке, отражающей статистику результатов поиска. Учитывая то, что ПС Rambler и List не приводят статистику по числу найденных сайтов, для этих ПС данный параметр не указан. Так как для ПС Yandex существует ее быстрый вариант (Ya.ru) и результаты запросов "обычного" и "быстрого" Yandex'ов не всегда совпадают, для этой ПС выделено два столбца. Вопрос о том, насколько можно доверять данным о количестве найденных ресурсов, приводимым разработчиками ПС, мы обсудим в разделе "Качественный анализ". Постоянное количество найденных страниц 1500, которое показывает ПС Aport, означает, судя по всему, введенный разработчиками искусственный ограничитель. Сравнительные данные приведены в таблицах 5-8.

Таблица 5. Количественные данные результатов запроса по одному ключевому слову-имени нарицательному

Запрос

Yandex

"Быстрый" Yandex

Aport

Rambler

List

Сайты

Страницы

Сайты

Страницы

Сайты

Страницы

Страницы

Страницы

аренда

4737

181167

4700

203941

860

1500

45797

822

библиотека

8428

655913

8456

591729

1097

1500

277830

1920

колледжи

3173

60810

3205

23117

656

1500

5836

372

кран

2669

49880

2669

68490

839

1500

16918

129

курс

14121

1036914

14121

1036511

722

1500

270272

1647

тосты

1509

62436

1509

70129

481

1500

48576

373

drivers

2974

128461

2974

141295

533

1500

60873

73

Минимальное и максимальное процентные соотношения результатов поиска, приведенные на диаграмме 1, основывается именно на этой таблице.

Таблица 6. Количественные данные результатов запроса по одному ключевому слову-имени собственному или а/ц идентификатору

Запрос

Yandex

"Быстрый" Yandex

Aport

Rambler

List

Сайты

Страницы

Сайты

Страницы

Сайты

Страницы

Страницы

Страницы

www.aport.ru

1847

71991

1847

58794

912

1500

10

14

www.list.ru

286

13598

267

4056

359

1500

71

160

www.rambler.ru

1158

42245

1158

46488

383

1500

31

16

www.yandex.ru

944

44017

944

40067

109

1500

14

7

Брат-2

291

4072

316

10397

123

172

86988

1

Ваз-2115

101

1905

101

2155

385

1067

44704

-

ГАЗ-21

167

2711

167

2706

176

213

124893

17

Ковров

3087

61577

3087

97038

809

1500

7552

9

Манилов

281

13230

281

12030

302

1500

16265

-

Шереметьево

1045

16539

1045

25858

714

1500

13645

12

В запросах к ПС Rambler по ключевым словам Брат-2, Ваз-2115, ГАЗ-21 части идентификатора после тире просто отбрасывается как незначащие, что приводит в неоправданно большому количеству информационного шума.

Интересно сравнить данные запросов по URL (первые четыре строки). В ПС Rambler и List над этой возможностью надо еще поработать.

Всплеск по запросу на слово "Ковров" в ПС Yandex - признак того, что система не отличает нарицательное "ковёр" в родительном падеже множественного числа от имени собственного, обозначающего город во Владимирской области. Правда, необходимо признать, что в остальных ПС задача разрешения омонимии и полисемии также не решается.

Таблица 7. Количественные данные результатов запроса по нескольким ключевым словам (И-запрос)

Запрос

Yandex

"Быстрый" Yandex

Aport

Rambler

List

Сайты

Страницы

Сайты

Страницы

Сайты

Страницы

Страницы

Страницы

linux +security

3783

212245

3783

212245

3702

30866

26528

7

знакомства+девушки+Санкт-Петербург

0

0

0

0

1407

4643

995

21

москва&справки&телефон

1361

26214

1361

32058

486

855

3311

12

работа+вакансии+управленец+испанский

0

0

0

0

8

9

2

0

Нами не ставилась задача полного тестирования возможностей расширенного поиска. Мы ограничились набором из 4-х И-запросов, полагая что они являются наиболее часто используемой разновидностью. Вообще, язык запросов - это довольно сложная вещь, ориентированная на квалифицированного пользователя. В руках профессионалов он может быть весьма эффективным инструментом поиска, в руках же неопытного пользователя - средством получения информационного шума или наоборот сведения результатов поиска к нулю (см. последнюю строчку в таблице). И здесь также помогает или мешает сориентироваться то, как организована подача информации. Например, в Yandex'е - строгий И-запрос дает 0 страниц, но выдается статистика по найденным словам, которая в принципе позволяет скорректировать запрос. Было бы более эффективно - предложить измененные варианты запросов.

Таблица 8. Количественные данные результатов запроса по словосочетаниям 1

Запрос

Yandex

"Быстрый" Yandex

Aport

Rambler

List

Сайты

Страницы

Сайты

Страницы

Сайты

Страницы

Страницы

Страницы

японские автомобили

457

11213

457

11213

409

1856

2553

102

язык программирования perl

510

14167

510

15589

874

1937

2912

23

юридические консультации

1250

47884

1250

47884

1557

3000

11786

362

эмиграция в канаду

211

2901

177

2593

1029

3000

1186

97

электронная библиотека 2

1246

80231

1246

80231

807

2276

19413

235

1.ПС Rambler и List не предусматривают поиск по словосочетанию и рассматривают введенный запрос как набор ключевых слов. Естественно, это влияет на релевантность результатов запроса. Данные в таблице для указанных ПС приведены для сравнения.

2.В ПС Yandex по запросу "электронная библиотека" в одном из сервисов ("поиск по товарам") выдается также "библиотека электронных компонентов", что говорит об ошибке обработки запроса. Но эта ошибка из той же серии, что "Ковров" (табл.6) и свидетельство хорошо проработанной морфологии в комбинации с обработкой прямых и инвертированных фраз. Также это свидетельство того, что ресурс традиционных методов обработки морфологии и синтаксиса в наиболее продвинутых ПС уже себя исчерпал.

В отчете не приведены сравнительные данные по времени выполнения запросов. Однако я думаю, что мы к этому вопросу когда-нибудь еще вернемся.

Hosted by www.Geocities.ws

1