ВЕЛИКАЯ ОТЕЧЕСТВЕННАЯ ВОЙНА ЗА КЛИК ПОЛЬЗОВАТЕЛЯ

Copyright , 2000 г.

Опубликовано на сайте Web-журнала Russian Internet Content News, www.ricn.ru, 4.10.2000

Поляков В.Н. Война за клик пользователя. (Сравнительный анализ поисковых систем).

ВОЙНА ЗА КЛИК ПОЛЬЗОВАТЕЛЯ

(Сравнительный обзор российских поисковых систем)

Поляков В.Н.

ИМЯ ТВОЕ НЕИЗВЕСТНО - ПОДВИГ ТВОЙ БЕССМЕРТЕН.

(Народ о создателе ПС Рамблер)

Итак. В историю Интернет вписаны первые страницы. Как и положено во всякой истории, - в ней сложены свои легенды и мифы. Подвиги героев электронной Эллады описаны, размещены в Сети и растиражированы по тысячам тысяч компьютеров современными былинниками и миссионерами - Web-броузерами. Адреса первых сайтов передавались из уст в уста как волшебные заклинания зороастритов.

Когда прошел первый ажиотаж от "веселых картинок" и "порно-мурзилок", каждый наверное не раз задумывался, почувствовав головную боль от восьмичасового "скольжения" по сайтам в поисках остро необходимой информации,: "А зачем все это? Нельзя ли сделать все проще?".

"Можно!",- сказал какой-то умник и создал первую поисковую систему. Кстати, имя этого умника, российского сетевого пионера, патриарха дела поиска в Интернет, создателя ПС Рамблер - Дмитрий Крюков (http://gelman.ru/vse_obozrev/kryukov.htm).

Получив возможность искать по ключевым словам или каталогу (рубрикатору), пользователь получил временное облегчение.

Однако вскоре он опять почувствовал дискомфорт, - ищет плохо или вообще не то, что нужно.

А в классификаторе - одна попса.

А в это время...

В один прекрасный момент оказалось, что на рекламе, размещенной на популярном сайте, можно неплохо заработать. А куда чаще всего заходит сетевой пользователь? Правильно. На поисковую систему.

Началась Великая Отечественная война за клик пользователя. Появилось новое понятие - "портал", т.е. узел в Сети, зайдя на который, пользователь должен найти, по идее, все, или почти все, что в Сети имеется. В любом ее самом темном закоулке! Или просто получить интересующую его информацию. Вот почему, дизайнеры поисковых систем соревнуются в деле показа новостей, TV-программ, прогноза погоды и тому подобного ширпотреба. Заодно это снижает напор на поисковую машину, так как по экспертным оценкам 30 процентов запросов относится именно к этому типу информации. Другие 30 процентов - это запросы типа "А что такое "то-то" и "то-то"?". Кстати именно в Сети такого рода данных нет или данных этих очень мало. Эта общая энциклопедическая информация, которая хранится в словарях и энциклопедиях. Так что не надо быть Дельфийским Оракулом, чтобы предсказать очередной раунд Великой Битвы, связанный с "привинчиванием" энциклопедических словарей к порталам. Пока же похвастаться успехами в этой области может только один сайт: www.km.ru.

Да и сами требования к поисковой системе изменились.

Она теперь должна не просто искать информацию, а искать ее так, чтобы привлекать пользователя. Чтобы этот несчастный инфоголик приникал к ней снова и снова, как жаждущий спасительной влаги путник в пустыне приникает к арыку в оазисе.

Так, или примерно так, шла эволюция поиска в Сети.

А что дальше? Как обстоит дело с поиском и навигацией в Сети сейчас? Далеко ли ушли современные поисковые системы от тех, первых, несовершенных образцов? Нужны ли поисковые системы вообще?

Мы постараемся дать квалифицированный ответ на эти непростые вопросы.

УЗОК ИХ КРУГ И СТРАШНО ДАЛЕКИ ОНИ ОТ НАРОДА

(Герцен - о компьютерных лингвистах)

Прежде чем писать о методике и результатах испытания поисковых систем, надо представить: "А с чем имеет дело ПС?". Известно, что основным способом представления информации в Сети является гипертекст, то есть гибрид естественно-языкового текста и языка HTML.

Что представляет собой такой привычный нам естественный язык с точки зрения кодирования и поиска информации ? Какими параметрами, количественными и качественными он обладает ? В чем проблема поиска и существует ли она вообще ? Может быть это хитрый коммерческий ход компьютерных лингвистов и программистов с тайной целью заставить инвесторов побольше раскошелиться ?

Подробности...

Для людей, которые интересуются современной проблематикой, связанной с разработкой поисковых систем, автор рекомендует ознакомиться с проектом "Интеллектуальная поисковая машина", текст которого расположен на странице

http://www.geocities.com/SiliconValley/Campus/7926/Polyakov/Proposals.htm

Нами были рассмотрены только основные проблемы, связанные с организацией поиска в Сети. Однако существует масса тонкостей, на подробный анализ которых нет времени и места. Перечислим проблемы, с которыми приходится встречаться разработчикам при создании реальной поисковой системы:

- поиск по иностранным словам, "вкрапленным" в русскоязычный текст;

- устранение дублирования описания страниц в базе данных;

- объединение однородных страниц, относящихся к одному большому сайту;

- поиск по URL и алфавитно-цифровым идентификаторам;

- учет/неучет верхнего/нижнего регистра;

- обработка знаков пунктуации;

- обработка морфологии новых слов, не описанных в словарях (неологизмов);

Список можно было бы продолжать и дальше. Когнитивные способности человека по обработке текстов еще далеко не изучены.

ВЫСОЧАЙШИЕ ДОСТИЖЕНИЯ НЕЙТРОННОЙ МЕГАЛОПЛАЗМЫ! - ... - РОТОР ПОЛЯ НАПОДОБИЕ ДИВЕРГЕНЦИИ ГРАДУИРУЕТ СЕБЯ ВДОЛЬ СПИНА И ТАМ ВНУТРЕ, ОБРАЩАЕТ МАТЕРИЮ ВОПРОСА В СПИРИТУАЛЬНЫЕ ЭЛЕКТРОННЫЕ ВИХРИ, ИЗ КОИХ И ВОЗНИКАЕТ СИНЕКДОХА ОТВЕЧАНИЯ.

(Бр.Стругацкие о системах обработки естественного языка и поисковых системах в частности.)

Обычно для определения рейтинга ПС используется два метода: 1) прямое голосование (см. сайт i2r.rusfund.ru, опрос от 20.01 Какую поисковую систему Вы предпочитаете?), 2) подсчет количества обращений пользователей (см. сайт SpyLog.ru). Оба эти метода не лишены своей прелести, так как дают интегральную оценку по системе качество+популярность, однако базируются на субъективных предпочтениях пользователей, и не отвечают на главный вопрос "А почему так?".

Подробности...

В технике принято сравнивать передовые образцы по типовому набору характеристик. Даже утюг имеет технические характеристики. Тем более это актуально для такого сложного "изделия", как поисковая система.

В основу нашей методики испытания поисковых систем положен способ сравнения по характеристикам, разработанный и апробированный автором в 1998 году.

(см. http://www.geocities.com/SiliconValley/Campus/7926/Polyakov/ForeignSE.htm)

Для начала попробуем разобраться, какими же потребительскими характеристиками обладают современные поисковые системы. Разделим эти параметры на три группы:

- функциональные;

- количественные;

- качественные.

Функциональные характеристики описывают функции поисковых систем. Должен отметить, что "поисковики" или "искалки", как их ласково называют компьютерщики, - это чрезвычайно динамичная область компьютерной техники. Конкурентная борьба за клик пользователя заставляет разработчиков искать все новые и новые виды сервиса, придумывать дополнительные возможности и методы обработки запросов, средства привлечения пользователя. Поэтому в состав функциональных характеристик будем включать только такие, которые имеют непосредственное отношение к поиску данных. Таким образом, различные уловки-завлекалки (сборники анекдотов, чат-сервис и т.п.), остаются вне поля зрения нашего обзора.

Количественные характеристики это те, которые могут быть измерены. К ним относятся скорость работы поисковых машин и количество обнаруженных в запросе узлов. Дело в том, что официальные данные о количестве обрабатываемых в единицу времени запросов и об объеме базы данных ПС, приводимые фирмами-разработчиками, характеризуют ПС с точки зрения разработчика, т.е. изнутри. Для пользователя гораздо важнее, сколько сайтов (страниц) система обнаружит на его конкретный запрос и за какое время. Наша методика позволяет достоверно ответить на эти вопросы.

Часто качественные характеристики считаются менее важными, чем скорость поиска или объем найденной информации. Однако, если вдуматься, низкое качество поиска вынуждает пользователя больше времени проводить в Сети, просматривать больше сайтов, и, в итоге, тратить больше времени и денег для получения необходимого результата. Пришло время осознать этот неоспоримый факт разработчикам поисковых систем. К разряду качественных характеристик отнесем сравнительную оценку качества поиска, то есть оценку релевантности результатов выполнения запроса.

ЗАХОДИТ ПОКУПАТЕЛЬ АКЦИЙ РАМБЛЕР ИНТЕРНЕТ ХОЛДИНГА В ОКЛАХОМЕ НА САЙТ РАМБЛЕР И ДЕЛАЕТ ЗАПРОС "RAMBLER GROUP", А ЕМУ В ОТВЕТ "БРОДЯ-ЯГА К БАЙКА-АЛУ ПОДХО-ОДИТ, РЫБА-А-АЦКУЮ ЛОДКУ БЕРЕ-ЕТ" ??!!

(Анекдот)

Не мудрствуя лукаво, автор включил в тестируемый пул четыре наиболее популярные отечественные поисковые системы: Aport.ru, List.ru, Rambler.ru, Yandex.ru. Это тем более справедливо, что позволит сравнить субъективные пользовательские рейтинги (опубликованные на сайтах i2r.rusfund.ru и SpyLog.ru) с объективными показателями. Автор приносит свои извинения авторам и разработчикам других ПС и готов вести переговоры о включении этих ПС в тестируемые пулы в дальнейшем.

Ниже приведен краткий отчет о результатах тестирования, подробности можно получить, кликнув на соответствующие ссылки. Тестирование проводилось в период с 18.09 по 30.09 2000 г.

ФУНКЦИОНАЛЬНЫЙ АНАЛИЗ

Краткий сравнительный анализ по функциям, которые поддерживают ПС приведен в таблице 1.

Таблица 1.

ПС	Всего функций	В т.ч. уникальных
Yandex.ru	34	9
Aport.ru	23	3
Rambler.ru	20	1
List.ru	12	1

Подробности...

КОЛИЧЕСТВЕННЫЙ АНАЛИЗ ОБЪЕМА КОНТЕНТА

Анализ проводился в четырех номинациях:

- запрос по отдельному слову;

- запрос по алфавитно-цифровому идентификатору или имени собственному;

- запрос по группе слов (И-запрос);

- запрос по словосочетанию.

Сравнительные данные результатов поиска в процентном отношении при обработке запросов по одному ключевому слову приведены на диаграмме 1.

Диаграмма 1.

Подробности ...

КАЧЕСТВЕННЫЙ АНАЛИЗ РЕЛЕВАНТНОСТИ РЕЗУЛЬТАТОВ ВЫПОЛНЕНИЯ ЗАПРОСОВ

Для оценки релевантности запросов использовалась методика вложенных запросов. Это означает, что к ПС делались вложенные запросы до тех пор, пока найденное количество страниц не становилось доступным для ручного анализа. Затем проводился анализ релевантности найденных документов. Использовалось два вложенных запроса:

1) Японские автомобили & запчасти & коленвал

2) Электронные библиотеки & фантастика & Воннегут

Итоговые результаты приведены в диаграмме 2.

Диаграмма 2.

Подробности ...

А ЧТО ДАЛЬШЕ? БУДУЩЕЕ ТУМАННО...

В силу острой конкуренции и возросших потоков инвестиций в Интернет область поисковых систем в последние месяцы стала очень динамичной. Команды ПС Yandex и Aport уже доказали свою состоятельность и, судя по всему, не собираются почивать на лаврах в дальнейшем. Rambler и List задержались на старте. Однако, по нашим сведениям, в Рамблер Интернет Холдинг была приглашена весьма авторитетная команда, разработавшая в свое время ПС Следопыт в фирме МедиаЛингва во главе с И. Ашмановым. Это позволяет ожидать появления гибрида ПС Рамблер-Следопыт уже в ближайшие месяцы. Ведутся активные поиски решения проблемы и в List'е. Кроме того, на очереди стоит создание билинговых и многоязыковых ПС. Не надо сбрасывать со счетов еще полтора десятка независимых групп, разрабатывающих собственные ПС.

Не секрет, что поисковые технологии, которые применяются в современных ПС, базируются на результатах исследований, выполненных в 60-70 годы, и на сегодняшний день этот задел практически исчерпан. Нужны новые идеи! Настоящий прорыв, по глубокому убеждению автора, лежит в области более активного задействования научного потенциала и достижений современной отечественной компьютерной лингвистики и смежных областей. Но для этого лидерам RUNET'a необходимо победить главного конкурента - собственную партию ретроградов. Мешает этому, как всегда, стойкое российское убеждение в том, что у нас нет пророков в своем отечестве. Пока же, проигнорировав этот потенциал, некоторые из лидеров сурово наказали ... сами себя.

Hosted by www.Geocities.ws