ИНТЕЛЛЕКТУАЛЬНАЯ ПОИСКОВАЯ МАШИНА.ЧАСТЬ I

Copyright , май 2000 г.

ИНТЕЛЛЕКТУАЛЬНАЯ ПОИСКОВАЯ МАШИНА

КОНЦЕПТУАЛЬНЫЙ ПРОЕКТ

ЧАСТЬ 1

В.Н. Поляков

Факультет Информатики и Экономики

Московский Государственный Институт Стали и Сплавов (Технологический Университет)

Кафедра экспериментальной и прикладной лингвистики

Московский государственный лингвистический университет

http://geocities/SiliconValley/Campus/7926/Polyakov/Polyakov.htm

[email protected]

МОСКВА, 2000

Содержание

Введение

Проблемы

Традиционные пути развития поисковых машин

Заключение

Литература

Введение

Трудно себе представить эффективную работу в Интернет без существования поисковых машин. Среду World Wide Web в Интернет можно сравнить с огромной энциклопедией, насчитывающей более 800 млн. страниц, которую забыли оснастить оглавлением. В настоящее время в Интернет даже на словосочетание "search engine" откликается уже более 4 млн. страниц, что свидетельствует об информационном взрыве, связанным с темой поиска информации.

В целом задача поиска информации по ключевым словам решена вполне удовлетворительно и в комбинации с И/ИЛИ/НЕ-запросами покрывает большинство потребностей пользователей сети. Однако, жизнь и рынок диктует свои законы, заставляя разработчиков искать более эффективные способы удовлетворения информационных потребностей пользователей как по времени поиска, так и по качеству отбора информации, тем самым привлекая их на свои Web-страницы. Подчеркнем, что подготовленный пользователь сможет найти в сети любую информацию с уже имеющимися средствами. К сожалению, большинство пользователей не имеют достаточной квалификации для того, чтобы четко сформулировать свои информационные потребности, поэтому задача интеллектуализации поисковых машин является актуальной.

Для тех, кто хочет глубже познакомиться с проблематикой организации поиска в полнотекстовых базах данных рекомендуем обратиться к соответствующей научной литературе [Рыбаков, Survey]. Для обзора и сравнительного анализа возможностей зарубежных поисковых машин рекомендуем следующие источники [Поляков-Шонин, Твин, Reports].

В начало

Проблемы

Для людей, профессионально занимающихся компьютерной обработкой естественного языка, хорошо известно, что существует две наиболее распространенные "болезни" поисковых машин:

нерелевантность поиска; или информационный шум;

неполнота поиска.

Нерелевантность

Нерелевантность это несоответствие информации, полученной по запросу, информационным ожиданиям пользователя.

Причин информационного шума несколько.

Первая причина: пользователь ввел непредставительное ключевое слово (несколько слов, словосочетание). Это - довольно часто встречающаяся ситуация. Обычно это связано с низким уровнем культуры пользования поисковыми машинами, отсутствием опыта, незнанием предметной области, терминов (особенно, на иностранных языках).

Пример:

Предположим, что пользователя интересует информация о машинном масле в зарубежной части Интернет. Пользователь ищет по словарю перевод для слова масло - butter и вводит его в качестве поискового образа. Ясно, что из-за ошибки перевода он получит информацию не о машинном, а о коровьем масле.

Существует несколько решений этой проблемы. Самым кардинальным было бы дать пользователю возможность общаться с поисковой машиной на естественном языке (ЕЯ), для того, чтобы в процессе ЕЯ-диалога можно было бы сформулировать корректный запрос. Однако в силу отсутствия адекватной лингвистической модели, обеспечивающей полное понимание естественного языка, это решение в настоящее время невозможно реализовать. Поэтому прибегают к более простым методам. Один из них состоит в предоставлении возможности формулирования запроса на естественном языке, с последующим извлечением из предложения списка ключевых слов. Таким способом организован поиск в ПМ Ask Jeeve. Другой способ - это организация запроса по представленному текстовому образцу. Очевидно, что оба эти способы сводятся к поиску по ключевым словам. В настоящем проекте предлагается использовать смешанные способы организации поиска для того, чтобы сделать этот процесс доступным неподготовленному пользователю.

Вторая причина: многозначность. Под многозначностью будем понимать ситуацию, когда одним и тем же словом (словосочетанием) называются несколько объектов, понятий или отношений окружающего мира. В области компьютерной обработки принято недооценивать многозначность и особенно метафоричность естественного языка. Однако проблема разрешения многозначности является ключевой и для систем машинного перевода, и для систем понимания ЕЯ, и для организации качественного поиска.

Пример:

Предположим, что пользователя опять интересует информация о машинном масле.

В толковом словаре Ожегова для слова масло приведены следующие значения

1.Жировое вещество, приготовленное из веществ животного, растительного или минерального происхождения.

Растительное м.

Животное м.

Сливочное м.

Смазочные масла

Фр.:Подлить масла в огонь

М.масляное

Как по маслу

Как маслом по сердцу

2.Такое вещество как пищевой продукт

Фр.:Хлеб с маслом

Жарить на масле

Сбивать м.

Маслом кашу не испортишь

3.Масляные краски, а также картина написанная ими

Др.

Масляные краски

Масляное пятно

Масляная живопись

Масляный выключатель

Как мы можем видеть, для слова масло имеются как минимум четыре различных смысловых значения (1.смазка, 2.пищевой продукт, 3.масляная краска, 4.картина, написанная масляной краской). Не следует сбрасывать со счетов и фразеологизмы типа "Маслом кашу не испортишь", которые также служат источником шума.

В англо-русском политехническом словаре мы находим следующие пояснения для слова масло

масло 1.тех. oil

с.сочетания:

варить м. boil an oil

вводить загуститель в м. thicken an oil

вводить присадки в м. dope an oil

м. вспенивается the oil churns (foams)

загущать м. give (more) body to an oil

м.застывает the oil solidifies

м.коксуется the oil has carbon-forming properties

компаундировать м. blend (the) oil

обесцвечивать м. decolourize oil

осветлять м. clarify oil

отбеливать м. bleach oil

отжимать м. isolate oil by pressing (by expression)

очищать м. refine oil

продувать м. (для окисления примесей) blow the oil

прокачивать м. circulate oil (through a system)

уплотнять м. body oil

2.(коровье) butter

(растительное) oil

м.горкнет butter becomes rancid

пахтать (сбивать) м. churn butter

...

и далее свыше 100 (!) устойчивых словосочетаний со словом масло, таких, например, как:

авиационное м. aviation oil

автотракторное м. motor oil

арахисовое м. peanut (groun-nut) oil

ацетоновое м. acetone oil

белое м. white oil

вазелиновое м. petrolatum, petroleum jelly

веретенное м. spindle oil

всесезонное м. (авто) multigrade oil

высыхающее м. drying oil

...

Кроме того в том же политехническом словаре имеется 34 (!) термина, образованные от корня масло, как, например:

Маслобак oil tank

Маслобензостойкость oil-and-petrol resistance

Маслобойка butter chorn

...

Традиционным решением проблемы лексической многозначности является создание тематических помет в словаре, позволяющих сузить область применения значения слова заданной темой (предметной областью). Однако для организации запросов по ключевым словам этот метод не годится, так как нет других признаков темы, кроме самих ключевых слов, которые, как мы выяснили, многозначны по определению. При организации запросов по образцу текста этот метод мог бы сработать, однако, как показывает опыт его использования в системах машинного перевода, надежность его низкая.

Настоящий проект содержит несколько решений проблемы разрешения многозначности. Речь о них пойдет во второй части.

Третья причина мало известна даже среди специалистов по обработке ЕЯ. Ее можно было бы назвать как нечеткое формулирование коммуникативных целей пользователя. Что это значит? Дело в том, что не всегда пользователя интересует любая информация на заданную ключевыми словами тему. В этом случае релевантный вроде бы результат поиска по запросу оказывается на поверку информационным шумом, так как коммуникативная цель пользователя - не получить информацию вообще, а получить конкретную информацию.

Пример:

Предположим, что нашего пользователя снова интересует информация о машинном масле.

Но.

Его не интересует информация о том, где это масло можно купить или продать.

Также его не интересует информация о том как это масло производить.

Его интересует информация о методах исследования морозостойкости масла.

Современные поисковые машины не дают легкого ответа на такой запрос. И результат в этом случае уже зависит от упорства и подготовленности пользователя. Он должен или "тупо" просмотреть все сайты, выданные на запрос "масло", или сделать сложный запрос "масло, морозостойкость", "масло, свойства, исследование" и т.п. Однако, предложенные варианты сложных запросов могут и не привести к желаемому результату.

В второй части проекта приведены пути разрешения проблемы выявления коммуникативных целей пользователя.
Неполнота поиска

Проблему неполноты поиска можно было бы охарактеризовать так: информация в базе текстов, интересующая пользователя, есть, она имеет косвенное отношение к запросу, а найти ее ПМ не может.

Самой распространенной причиной этого явления оказывается синонимия. Однако синонимические связи не исчерпывают всего многообразия семантических связей в предметной области.

Пример.

Думается, что результат запроса был бы более полным, если бы пользователь, интересующийся машинным маслом ввел бы сложный запрос "масло или смазка". Однако, чтобы найти подходящий синоним, ему надо заглянуть в словарь, который не всегда есть под рукой. Кроме того, в реальной ситуации существует несколько вариантов сложных ИЛИ-запросов, с учетом слов-(квази)синонимов, гипонимов, когипонимов, гиперонимов, словосочетаний и перефраз.

Кардинальным решением проблемы явилось бы создание гигантской базы энциклопедических и наивных знаний, покрывающих все информационные потребности. Однако, в силу существования ряда нерешенных фундаментальных научных проблем в области искусственного интеллекта в настоящее время этот путь неприемлем. В качестве альтернативного решения часто используют создание словарей-тезаурусов и онтологий.

В проекте предлагается оригинальный метод автоматического построения онтологий, что позволит снять проблему неполноты поиска.

В начало

Традиционные пути развития поисковых машин

В настоящее время можно говорить о возможности реализации следующих способов организации поиска в полнотекстовых базах:

= поиск по рубрикатору;

= поиск по ключевым словам;

= поиск по ЕЯ-вопросу (или запросу);

= поиск по образцу текста;

= поиск с использованием тезауруса или онтологии;

= поиск по сценарию;

= смешанные механизмы поиска.

Каждый из перечисленных способов рассчитан на определенную категорию пользователей, имеет свои плюсы и минусы, имеет определенную перспективу развития. В таблице 1 представлен их подробный анализ.

Таблица 1. Способы организации поиска в полнотекстовых базах

Поиск по рубрикатору
Примеры	Yahoo, Rambler
Основные категории пользователей	1.Начинающие пользователи 2.Пользователи с типичными информационными потребностями
Плюсы	1.Возможность качественной классификации (ручной / автоматической) 2.Легкость выбора тем посредством меню 3.Хорошая релевантность, так как тема уже была задана разработчиком рубрикатора 4.Простота реализации
Минусы	1.Жесткая схема выбора 2.Неполнота, как следствие предыдущего недостатка
Перспективы	1.Автоматическое наращивание рубрикатора за счет привязки его к тезаурусу 2.Автоматическая классификация 3.Возможности задания пользователем своих рубрик (настройка на пользователя; настройка может осуществляться по образцу текста/сайта, по результатам предварительных запросов, по списку ключевых слов/тем, сужением темы и т.д.)

Поиск по ключевым словам
Примеры	Реализован на всех популярных поисковых машинах в Интернет
Основные категории пользователей	1.Продвинутые пользователи 2.Пользователи с разнообразными информационными потребностями
Плюсы	1.Гибкость 2.Возможность индексации текстов по ключевым словам и словосочетаниям 3.Сравнительная простота реализации
Минусы	1.Проблемы многозначности и полноты 2.Требуется какая-то минимальная подготовка пользователя для выбора представительных ключевых слов, и тем более словосочетаний 3.Ограниченные возможности формулирования коммуникативных целей
Перспективы	1.Совмещение с другими механизмами (рубрикаторы, тезаурусы, онтологии, сценарии) включение механизмов разрешения многозначности 2.Включение механизмов разрешения неполноты (тезаурусы, онтологии, морфоструктура) 3.Когнитивная морфология 4.Возможности настройки на пользователя (фиксирование тематических и коммуникативных потребностей и задание их по умолчанию)
Примечание	Дополнительные возможности включают: 1.И/ИЛИ/НЕ-запросы 2.Повторный запрос в результатах предыдущего поиска 3.Запрос по устойчивым словосочетаниям 4.Запрос по однокоренным словам

Поиск по ЕЯ-вопросу
Примеры	Примеры реализации поиска к текстовым базам данных по ЕЯ - запросу на английском языке можно найти в ПМ Ask Jeeve, Start, в энциклопедии Britannica.
Основные категории пользователей	1. Начинающие пользователи 2.Пользователи со сложными или специфичными информационными потребностями
Плюсы	1.Создается иллюзия ЕЯ-общения 2.Пользователь формулирует тематическую и коммуникативную направленность в явном виде
Минусы	1.Необходимо реализовывать анализ ЕЯ-текста, частичный или полный 2.Сложности обработки косвенных вопросов 3.Значительные трудности, возникающие при попытках организации уточняющего диалога
Перспективы	Развитие этого способа можно представить в виде последовательных этапов: 1 этап: выявление ключевых слов и переход к запросам по ключевым словам 2 этап: выявление ключевых слов и переход к сценариям 3 этап: выявление ключевых слов и коммуникативных потребностей и переход к сценариям 4 этап: выявление ключевых слов и коммуникативных потребностей и переход к уточняющему диалогу
Примечание	Большинство ихвестных автору ПМ с возможностью ЕЯ-запросов (за исключением ПМ START) используют механизм перевода ЕЯ-запроса в список ключевых слов

Поиск по образцу текста
Примеры	Поиск по образцу успешно применяется в поисковых машинах Rambler, Infoseek
Основные категории пользователей	1. Начинающие пользователи 2.пользователи с плохо формулируемыми информационными потребностями
Плюсы	1.Более полный охват информационных потребностей пользователя, чем в запросе по ключевым словам или по ЕЯ-запросу 2.Сравнительная простота реализации 3.Больше средств тематической фиксации
Минусы	1.Трудности выявления доминантной потребности при их многообразии 2.Те же проблемы многозначности и полноты 3.Те же проблемы формулирования коммуникативных целей 4.Новые проблемы синтаксического анализа и понимания текста
Перспективы	1.Совмещение с другими механизмами (рубрикаторы, тезаурусы, онтологии, сценарии) 2.Включение механизмов разрешения многозначности включение механизмов разрешения неполноты (тезаурусы, онтологии, морфоструктура) 3.Когнитивная морфология 4.Возможности настройки на пользователя (фиксирование тематических и коммуникативных потребностей и задание их по умолчанию) 5.Синтаксический анализ, выявление коммуникативной направленности текста (какой главный вопрос?)

Поиск с использованием тезауруса или онтологии
Примеры	С переменным успехом был в разное время реализован на нескольких поисковых машинах (Infoseek, AltaVista, Yahoo) Как разновидность этого поиска можно рассматривать ограничение запроса по ключевым словам рубрикой классификатора (см. List, Yandex, Rambler).
Основные категории пользователей	Пользователи со сложными или специфичными информационными потребностями
Плюсы	В зависимости от заданного диапазона можно использовать универсально: 1. Как средство увеличения полноты поиска 2.Как средство разрешения многозначности
Минусы	1.Требует дополнительной эрудиции пользователя 2.Не всегда эффективен по времени и качеству
Перспективы	1.Автоматическое формирование тезаурусов, онтологий, рубрикаторов 2.Более жесткий отбор сайтов/страниц на основе фильтрации семантических связей
Примечание	Практически не применяется в самостоятельном режиме. Используется как дополнительная поддержка при поиске по ключевым словам для расширения фронта поиска или разрешения многознчности

Поиск по сценарию
Примеры	В ПМ машинах используются сравнительно мало, чаще всего при организации ввода и выбора фактографических данных.
Основные категории пользователей	1. Начинающие пользователи. 2.Пользователи со сложными или специфичными информационными потребностями
Плюсы	1.Можно очень точно выявить информационные потребности пользователя 2.Можно хорошо настроиться на информационные потребности пользователя, создать его профиль 3.Замедление работы комопенсируется качеством поиска
Минусы	1.Необходимо привыкание пользователей к интерфейсу 2.Кажущаяся громоздкость 3.Замедление работы
Перспективы	1.Автор считает сценарии одним из самых перспективных способов интеллектуализации процесса поиска на современном этапе. 2.Гибкие сценарии, обеспечивающие быстрое переключение между режимами 3.Необходимо повысить эффективность поиска настолько, что это полностью компенсирует замедление работы 4.Совмещение всех механизмов (рубрикаторы, тезаурусы, онтологии, сценарии) 5.Включение механизмов разрешения многозначности 6.Включение механизмов разрешения неполноты (тезаурусы, онтологии, морфоструктура) 7.Когнитивная морфология 8.Возможности настройки на пользователя (фиксирование тематических и коммуникативных потребностей и задание их по умолчанию)
Примечание	Сценарии часто используются в различных мастерах, генераторах и т.п. программах Они хорошо себя зарекомендовали при работе с неподготовленными пользователями, а также как средство поддержки диалога

Смешанные механизмы поиска
Примеры	Примеры применения смешанных механизмов поиска можно найти на сайтах ПМ Infoseek и Altavista. В основном это сочетание поиска по ключевым словам с поддержкой поиска по тезаурусу
Основные категории пользователей	Все пользователи
Плюсы	1.Максимальный охват всех категорий пользователей, информационных и коммуникативных потребностей. 2.Гибкость
Минусы	Необходимо привыкание пользователей к интерфейсу
Перспективы	См.по категориям
Примечание	Смешанные механизмы поиска можно рассматривать как специфичную форму сценария. В этом случае ввод первоначального запроса по ключевым словам активизирует набор альтернатив, которые можно рассматривать как ветви сценария.

В начало

Заключение

Проект включает краткое изложение основных проблем, связанных с организацией качественного поиска в среде WWW Интернет, анализ путей развития поисковых машин (ПМ), наметившихся к настоящему моменту. Во второй части проекта предложены оригинальные решения, позволяющие, на взгляд автора, существенно увеличить интеллектуальные возможности современных поисковых машин.

Литература

[Survey] Survey of the State of the Art in Human Language Technology / Cole, Ronald, et al (eds.) Studies in Natural Language Processing. Cambridge University Press 1998. 533 pp.

[Reports] Search Engine Status Reports. // http://www.searchenginewatch.com/reports/index.html, 1999.

[Поляков-Шонин] Поляков В.Н., Шонин Д.В. Использование лингвистических технологий для сбора и анализа научных данных в компьютерной сети Интернет. // Обработка текста и когнитивные технологии. - Вып. 2. - М., Пущино: ОНТИ ПНЦ РАН, 1999.

[Рыбаков] Рыбаков Ф.И., Руднев Е.А., Петухов В.А. Автоматическое индексирование на естественном языке. - М.: Энергия, 1980.

[Твин] Дилан Твин. Поиск - мое ремесло. /пер с англ./. Мир ПК. Январь 1997,. с.114-123

В начало

Hosted by www.Geocities.ws