Система KorLang Transcriber преобразует полученный на входе текст в его фонетическую (фонемную) запись, используя для записи преобразованного текста соответствующие знаки транскрипции. Помимо записи собственно звуков в задачу системы входит расстановка ударений в словах. Для решения этих двух задач (звуки и ударения) система может использовать следующие источники информации (обычно в указанном ниже порядке):
- транскрипционная информация о форме (сочетании букв), предоставляемая лексическим компонентом объемлющей лингвистической системы (KorLang);
- данные, являющиеся результатом работы морфологического и синтаксического компонентов KorLang;
- информация о фонетических соответствиях (с учетом контекстов) для каждой буквы алфавита;
- информация, получаемая алгоритмически (путем применения различных правил)
Предполагается, что лексический компонент может содержать транскрипционные соответствия для тех сочетаний букв (обычно целых морфологических форм), для которых не могут быть найдены правила соответствий или однозначные контексты, и предоставлять их программе, строящей транскрипционные соответствия слова - транскриптору.
Описываемая версия (0.5) не имеет такого источника, т.к. соответствующий лексический компонент для английского языка в системе KorLang отсутствует. Как следствие, соответствующие слова система проанализирует неправильно (хотя и будет выбран наиболее подходящий с точки зрения системы вариант описания).
То же можно сказать и о словах, для правильного анализа которых требуется второй источник информации. Компоненты, относящиеся к этому источнику, также отсутствуют. Временно часть информации, которая могла бы поступать из последнего источника, моделируется системой путем поддержания собственных списков аффиксов, но это ни в коей мере не устраняет в общем случае необходимости использования морфологического и синтаксического анализа. Так, например, списки аффиксов без соответствующей информации об основах могут приводить к неправильному отнесению некоторых частей слова к аффиксам. Примерами слов, для правильного анализа которых необходимо привлекать синтаксический анализатор, являются слова permit (подчеркнут возможный ударный элемент) и advocate (подчеркнут элемент, имеющий варианты прочтения).
Алгоритмическая часть состоит из слогоделителя и собственно транскриптора. Слогоделитель помимо деления слова на слоги определяет некоторые характеристики выделенных слогов, такие как:
- сильный/слабый,
- ударный/безударный,
- содержащий/не содержащий диграф,
- содержащий/ не содержащий зияние,
- открытый/закрытый/закрытый по правилу "дактиля"
- и др.
Для определения некоторых из этих характеристик используются такие правила, как правило расстановки ударений в многосложном слове по дактилю или по признаку наличия в нем ударного или безударного зияния и др.
Используя эти характеристики и фактический контекст для рассматриваемой буквы слова, транскриптор может извлекать соответствующую информацию из семантической сети, содержащей фонетические соответствия для букв английского языка. Эта сеть структурирована как признаками, так и контекстами. Системой учитываются следующие типы контекстов:
- позиционные (начальные/конечные/промежуточные/левые/правые);
- фонемные/графемные;
- элементные (задаются графемами или фонемами)/типовые (задаются отнесенностью к определенному типу, напр., шипящим согласным);
- одноуровневые/многоуровневые(вложенные).
Система поддерживает практически неограниченную вложенность контекстов.
Сеть содержит около 500 узлов с количеством атрибутов на узел от 0 до ~30.
На рисунке (будет) приведен пример (фрагмент, ~ 1/10) описания буквы 't'.