Подробности...
Приведем немного скучной информации, без которой дальнейшее изложение может быть непонятным. Русский язык в отличии от английского - флективный, т.е. обладает богатой словоизменительной морфологией. Это означает, в частности, что на каждое имя существительное в базе должно храниться описание 12 его морфологических форм (6 падежей, 2 числа), на каждое имя прилагательное -36 (6 падежей, 2 числа, 3 рода), на каждый глагол -свыше 20 форм (2 числа, 3 рода, 3 лица, 3 времени). В среднем в языке по статистике по всем частям речи на одно слово приходится 10-15 морфоформ. Известно, что лексико-терминологический словарь современных языков составляет свыше миллиона лексем. Один словарь химических терминов, по данным академика Апресяна, приближается к миллиону.
Это означает, что на один миллион уникальных слов в базе данных для русского языка будет храниться описание 10-15 миллионов морфоформ. Это без учета аналитических форм глагола в будущем времени и сослагательном наклонении (буду делать, сделал бы) и превосходной степени прилагательных (самый красивый).
К счастью, проблема полного описания морфологии русского языка была удачно решена А.А.Зализняком в конце семидесятых, когда компьютеры были еще большими, а их возможности - маленькими. :) С тех пор несколько поколений советских и российских компьютерных лингвистов успешно паразитирует на Великом Словаре (А.А.Зализняк. Грамматический словарь русского языка, Москва, Русский язык, 1980), который содержит исчерпывающее описание морфологии около 100 000 слов, составляющих ядро общеупотребительной лексики.