Подробности...

Приведем немного скучной информации, без которой дальнейшее изложение может быть непонятным. Русский язык в отличии от английского - флективный, т.е. обладает богатой словоизменительной морфологией. Это означает, в частности, что на каждое имя существительное в базе должно храниться описание 12 его морфологических форм (6 падежей, 2 числа), на каждое имя прилагательное -36 (6 падежей, 2 числа, 3 рода), на каждый глагол -свыше 20 форм (2 числа, 3 рода, 3 лица, 3 времени). В среднем в языке по статистике по всем частям речи на одно слово приходится 10-15 морфоформ. Известно, что лексико-терминологический словарь современных языков составляет свыше миллиона лексем. Один словарь химических терминов, по данным академика Апресяна, приближается к миллиону.

Это означает, что на один миллион уникальных слов в базе данных для русского языка будет храниться описание 10-15 миллионов морфоформ. Это без учета аналитических форм глагола в будущем времени и сослагательном наклонении (буду делать, сделал бы) и превосходной степени прилагательных (самый красивый).

К счастью, проблема полного описания морфологии русского языка была удачно решена А.А.Зализняком в конце семидесятых, когда компьютеры были еще большими, а их возможности - маленькими. :) С тех пор несколько поколений советских и российских компьютерных лингвистов успешно паразитирует на Великом Словаре (А.А.Зализняк. Грамматический словарь русского языка, Москва, Русский язык, 1980), который содержит исчерпывающее описание морфологии около 100 000 слов, составляющих ядро общеупотребительной лексики.

Hosted by www.Geocities.ws

1