Copyright , июль 2000 г.

 

ИНТЕЛЛЕКТУАЛЬНАЯ ПОИСКОВАЯ МАШИНА

КОНЦЕПТУАЛЬНЫЙ ПРОЕКТ

(ЧАСТЬ III-1)

В.Н. Поляков

Факультет Информатики и Экономики

Московский Государственный Институт Стали и Сплавов (Технологический Университет)

Кафедра экспериментальной и прикладной лингвистики

Московский государственный лингвистический университет

http://geocities/SiliconValley/Campus/7926/Polyakov/Polyakov.htm

[email protected]

МОСКВА, 2000

Содержание

1.Введение

2. Классификация запросов

3. Результаты частотного анализа запросов

3.1. Выводы по частотному анализу

4. Механизм распознавания типа запроса по грамматическим и семантическим признакам слов

5. Диалоговые сценарии разрешения лексической и коммуникативной многозначности, расширения полноты поиска

6. Механизмы настройки интерфейса ИПМ на профиль пользователя, историю, частотность

Заключение

Приложение 1. Типы запросов, характеризующиеся самостоятельным МП-сценарием

Приложение 2. Фрагмент алгоритма обработки запросов диспетчером запросов

 

1. Введение

Этот раздел концептуального проекта включает :

2. Классификация запросов

Предварительный анализ запросов позволил разбить их на классы. Классификация запросов, обрабатываемых ИПМ, представлена на рис.1.

Были выявлены следующие основные типы запросов, которые в свою очередь разбиваются на подтипы. Типы пронумерованы и выделены жирным шрифтом. Подтипы взяты в квадратные скобки.

1)Запрос:[Слово]-[словосочетание]-[и/или/не_запрос]-[Псевдо_ЕЯ_запрос]

2)Слово: [лексема]-[ац_идентификатор]

3)Лексема: [кириллица]-[латиница]

4)Кириллица: [имя_собственное] - [многозначная_лексема]

5)Латиница: [имя_собственное] - [многозначная_лексема]

6)Словосочетание: [устойчивое] -[параметрическое]-[свободное]-[цитата_в_кавычках]-[два_и_более_с/с]

7)И/или/не-запрос: [перечень_кл.слов] - [с_идентификаторами] - [с_и/собственными] - [с_мн.лексемами] - [со_с/сочетаниями] - [комбинированный]

8)Псевдо_ЕЯ_запрос: [Запрос_с_перформативом] - [запрос_с_вопр_мест.]-[запрос_с_целевым_словом]

9)Полнота: [Результат=0] - [Результат<=10] - [Результат>=10]

Приведенная классификация не является исчерпывающей, и грешит некоторой противоречивостью. Цель ее создания - хоть как-то упорядочить множество запросов. Для того, чтобы снять возможные вопросы, приводим следующие пояснения, объясняющие мотивы выделения различных классов/подклассов запросов.

Пояснения к классификации запросов:

1.[ац_идентификатор] - это алфавитно-цифровой индентификатор.

2.Как разделить запросы [имя_собственное] vs. [многозначная_лексема] ? Например слово Windows, это явно и то и другое. Если пользователь использует в запросе прописные буквы, то они могут служить косвенным указателем на имя собственное. А вот как отделить первые от вторых в тексте БД - это уже "ноу хау".

3.Псевдо_ЕЯ_запросом будем считать любое связное словосочетание, включающее более 3-х лексем. Эта категория совпадает с категорией "два и более с/сочетаний".

4.Запрос_с_перформативом. Перформатив - это глагол, наречие или оборот, эксплицирующий коммуникативный статус высказывания. Например: Сообшаю вам номер своего лицевого счета. Как правило, перформативные конструкции не несут полезной информации для поиска. Их надо выявлять и устранять. К этой же категории отнесены запросы - гиперболы (см. таблицу).

5.Виды словосочетаний: [устойчивое]-[параметрическое]-[свободное]. Свободные словосочетания подчиняются грамматическим правилам, однако не воспринимаются как некий фиксированный объект, или заданное множество объектов. Например в выражении "час небывало жаркого заката" все словосочетания свободные. Напротив, устойчивые словосочетания представляют собой настоящую находку для поисковых технологий. Они характерны для определенных тематических областей, узкого круга пользователя, лексического подмножества языка и являются хорошим средством разрешения многозначности. Примеры устойчивых словосочетаний: "поисковая машина", "бытовая техника ", "green card". Параметрические словосочетания - это разновидность устойчивых словосочетаний, отличающаяся более гибким составом, когда одно из слов может быть заменено на некоторое множество лексем, с определенной грамматической характеристикой. Примеры всех типов запросов даны ниже в Приложении 1.

6.Полнота была включена в качестве основания для классификации как характеристика результатов выполнения запроса, а не признаков введенных слов.

7. мн.лексема - многозначная лексема.

Для краткости диалоговые сценарии разрешения лексической и коммуникативной многозначноти, расширения полноты поиска будем в дальнейшем называть МП-сценариями. С точки зрения создания различных МП-сценариев в указанной схеме можно выделить 21 тип запросов (на рис.1 соответствующие прямоугольники затемнены). Эти типы с характерными примерами перечислены в таблице. (см. приложение 1) Необходимо также отметить, что типы 1-19 относятся к сценариям многозначности, а типы 20-21 - к сценариям полноты.

Процентное соотношение объемов каждого типа запросов было выявлено в результате частотного анализа корпуса запросов и приведено в разделе 3.

В разделе 4 приведено описание механизма распознавания типа запроса по грамматическим и семантическим признакам слов.

3. Результаты частотного анализа запросов

Частотный анализ запросов проводился по корпусу запросов, полученных через "прямой эфир" поисковой машины Yandex (http:\\www.yandex.ru). Сбор информации проводился за период 19-27.06.2000. В результате чего был собран корпус, содержащий 7812 запросов.

Предварительный анализ позволил выявить четыре базовых типа запроса: слово, словосочетание, и/или/не_запрос, псевдо_ЕЯ_запрос. Кстати, И/ИЛИ/НЕ-запрос включает и логическую комбиницию всех остальных. Это, так называемый, "комбинированный запрос".

Анализ проводился по категориям, представленным на рис.1. Было отмечено, что нулевой или мизерный результат может быть получен на любом из типов запросов. Поэтому отдельно проводился частотный анализ запросов по такому показателю, как полнота поиска.

В результате частотного анализа были построены следующие виды диаграмм:

Процентное соотношение базовых типов запросов (Рис.2). Категория "Псевдо-ЕЯ-запрос" на этой диаграмме не отражена, так как она частично пересекается с категорией "словосочетание".

Процентное соотношение лексем: идентификатор- кириллица - латиница - весь_объем. (Рис.3).

Процентное соотношение лексем: имя_собственное - многозначная_лексема - весь_объем. (Рис.4). При этом в категориях "имя собственное" и "многозначная лексема" объединены лексемы в кириллице и в латинице.

Процентное соотношение: виды_словосочетаний -весь_объем. (Рис.5). Ввиду сильного пересечения множеств запросов для визуализации выбрана столбчатая диаграмма.

Процентное соотношение: виды_И/ИЛИ/НЕ_запросов -весь_объем. (Рис.6). Столбчатая диаграмма.

Процентное соотношение: псевдо_ЕЯ_запросы -весь_объем. (Рис.7). Совпадает с категорией "два и более словосочетания".

Процентное соотношение: полнота_поиска -весь_объем. (Рис.8).

Рис.1 Классификация запросов, обрабатываемых ИПМ

 

 

Рис.2 Процентное соотношение базовых типов запросов

 

Рис.3 Процентное соотношение лексем: идентификатор- кириллица - латиница - весь_объем.

 

Рис.4 Процентное соотношение лексем: имя_собственное - многозначная_лексема-весь_объем.

 

Рис.5 Процентное соотношение: виды_словосочетаний -весь_объем.

 

Рис.6 Процентное соотношение: виды_И/ИЛИ/НЕ_запросов -весь_объем

 

Рис.7 Процентное соотношение: псевдо_ЕЯ_запросы -весь_объем

 

Рис.8 Процентное соотношение: полнота_поиска -весь_объем.

 

3.1. Предварительные выводы по частотному анализу

1.Львиную долю запросов составляют запросы, состоящие из с/сочетания (52 %) и отдельной лексемы (42 %). Это лишний раз подтверждает правильность первоначальных посылок, положенных в основу проекта ИПМ, в частности, выделение проблем лексической и коммуникативной многозначности, как основных "болевых точек" современных ПМ.

2.И/ИЛИ/НЕ-запросы не являются доминирующей категорией и составляют всего 6 %. Этот факт можно объяснить тем, что формулирование такого запроса требует определенной квалификации и дополнительного времени. Сравнительно небольшой процент И/ИЛИ/НЕ-запросов является косвенным подтверждением их низкой эффективности, также как высокий процент запросов по словосочетаниям подтверждает эффективность последних.

3.Большинство ЕЯ-запросов сводится к запросам, состоящим из словосочетаний (псевдо-ЕЯ-запросы). Доля запросов, представляющих полноценное предложение составляет менее 1 %. Этот показатель свидетельствует о двух связанных между собой факторах:

а) низкой эффективности ЕЯ-запросов в современных ПМ;

б) сложности формулирования эффективных ЕЯ-запросов.

4.Сравнительно высокая доля запросов заканчивается полной неудачей (11 %) или небольшим объемом найденных узлов (19 %). Это подтверждает актуальность проблемы расширения полноты поиска.

4. Механизм распознавания типа запроса по грамматическим и семантическим признакам слов

Для иллюстрации работы механизма распознавания типа запроса по грамматическим и семантическим признакам слов ниже приведен фрагмент алгоритма обработки запросов диспетчером запросов.

5. Диалоговые сценарии разрешения лексической и коммуникативной многозначности, расширения полноты поиска

Как было установлено в результате частотного анализа запросов, практически все сценарии разрешения лексической и коммуникативной многозначности, расширения полноты поиска сводятся к базовому сценарию, описанному в части II концептуального проекта. Отличие заключается в параметрах, передаваемых из диспетчера запросов, сформированных на основании работы механизма распознавания типа запроса, которые задают способы сокращения или комбинирования сценариев.

6. Механизмы настройки интерфейса ИПМ на профиль пользователя, историю, частотность

В проекте предусмотрен механизм настройки ИПМ на профиль и историю пользователя, частотность. Способом настройки является сортировка списков. При формировании списков словосочетаний, кластеров, толкований, видов деятельности, вопросов порядок сортировки может быть задан:

Заключение

Проведенный частотный анализ запросов позволил выявить основные типы запросов и их процентное соотношение. Полученные результаты подтвердили обоснованность основных решений, заложенных в проект ИПМ.

 

Приложение 1. Типы запросов, характеризующиеся самостоятельным МП-сценарием

№ п.п.

Вид запроса

Характерные примеры

1

Идентификатор

2108-2905003

[email protected]

Fifa2000

GR-DVM50

Http://1001.vdv.ru

Http://193.233.79.157

http://www.cityline.ru

http://www.icc.ru/fed/pic/map.jpg

IEEE488

mp3

2

Кириллица, имя собственное

"Байкал"

"Единство"

"Отелло"

"Спорт-экспресс"

Австро-Венгрия

Автоваз

Автомир

Адлер

Айболит

Алсу

3

Кириллица, многозначная лексема

адрес

аквариум

аккумулятор

анекдот

атлас

банк

библиотека

Библия

Биржа

Курс

4

Латиница, имя собственное

ABBA

Adidas

Apache

Aport

Arizona

Bosch

Delphi

LaTEX

Moscow

Yahoo

5

Латиница, многозначная лексема

art

balls

BANK

boy

child

clipper

counter

drivers

fashion

fatal

6

Словосочетание: устойчивое

(звуковые сигналы системы при запуске)

daewoo бытовая техника

depeche mode

green card

автотранспортные предприятия в Москве

агенства по трудоустройству в Казани

административное деление РФ

административный кодекс

академия дипломатическая

Аллергические реакции

7

Словосочетание:Параметрическое

автомобиль *

американский *

анализ *

анекдоты про *

аренда *

архив *

ассоциация *

Тур *

Фильм *

Юридический *

8

Словосочетание:Свободное

(звуковые сигналы системы при запуске)

автоматизированная система повременного учета соединений стоимости

автомобили во Владивостоке

адреса и сайты средних технических учебных заведений в москве

аксессуары к стропам

анализ экономического состояния предприятия энергетики

белорусские операционные столы

белый шиповник

библиотеки благодарят

Библиотеки по праву

9

Словосочетание:Цитата

"andromeda screen"

"annual weather"

"hard disk programming"

"автомобили из владивостока"

"автомобили из Приморья"

"автоответчик для Eline"

"безопасность компьютерных сетей"

"бесплатные доски объявлений"

"железо оцинкованное"

"клуб у Петровича"

10

Словосочетание:Два и более

прошивка ПЗУ принтера EPSON LQ-1050+

Библиотека Российского детектива

биография Богдана Хмельницкого

биотехнология в штате Нью-Йорк

болезни почек у кошек

британское кладбище в Архангельске

букеровская премия по литературе

бытовые водонагревательные приборы

веб серверы компаний информационных технологий

ветеринарный противотуберкулезный препарат

11

И/или/не-Запрос: Перечень кл.слов

!модернизация российского !общества

+report +wizard +visual +basic

photoshop&кодировка&смена

12

И/или/не-Запрос: С_идентификаторами

"TeraLogic Texture Maker 32"

"WinPoint 95 "

"Zoom studio 1201"

+"Windows 2000" +настройка -url:microsoft.com

+mp3 +producer +pro

13

И/или/не-Запрос: С_и/собственными

"Internet Explorer for Windows 3.1"

"Might & Magic VI"

"Nokia Cellular Data Suite"

+"юридическая академия" +Москва

+Ольга +Резник

14

И/или/не-Запрос: С_мн.лексемами

time & measurement

вуз+кино

карта&калужская область&жуковский район

клуб+ Дом

15

И/или/не-Запрос: Со_с/сочетаниями

!модернизация российского !общества

!холодная /+1 !вода

(бесплатный хостинг)&cgi

(новокузнецкий алюминиевый завод)!(нказ)

(солнечные батарей) | (ветрогенераторы) | (независимое электроснабжение)

16

И/или/не-Запрос: Комбинированный

+"юридическая академия" +Москва

17

Псевдо_ЕЯ: запрос С_перформативом

все анегдоты про порутчика Ржевского

ВСЕ КУРСОВЫЕ

Все сайты

Хочу мужа из Европы

хочу стать офицером

18

Псевдо_ЕЯ: С_вопр.мест.

как (получить | скачать) файлы помощью (e-mail | 'электронной почты')

как смотреть НТВ+ на халяву

Что такое Mailbomber

что такое поповник обыкновенный

Где живёт Василий Головачёв

где можно купить диплом

19

Псевдо_ЕЯ: С_целевым.словом

+добавить URL ресурс

TRACE /+1 MODE скачать

лечение && (остеохондроз шейного)

наркотик&&реабилитация

отделка+офисов

прошивка ПЗУ принтера EPSON LQ-1050+

фантастический + скачать

шифрование данных && программы && обзор

хронический гепатит отсрочка

функции visual lisp

учитесь плавать

учить иврит

учу хакерству

20

Результат = 0

экспорт в ИНДИЮ

руское лото

диллерские предложения

vblez

"Государственныйуниверситетуправления"

хирургия,оперативный доступ,гинекология,пфанненштиль

бытоваятехника

"обзор Alone in the dark"

lakystar motherboard

кран шаровой

21

Результат < 10

Автоспорт

Русские midi

Электромашинка для волос

Уитни хьюстон+фото

Водка перестройка преступность

Taliban,Batken

Australia.ru

Янтовит

TRACE /+1 MODE скачать

Machinoimport

 

Приложение 2. Фрагмент алгоритма обработки запросов диспетчером запросов

 

Опубликовано: 17.07.2000

Hosted by www.Geocities.ws

1