Electrónica

Tesís

	Justificación
	Área en que participo
	Problemas a resolver
	Alcances y Limitaciones
	Fundamentos Teóricos
	Tipos de Configuraciones de robots
	Reconocimiento y Sintetizado del habla
	Interfaces Utilizadas
	Robots Asistenciales
	Sensores y Dispositivos
	Procedimientos
	Resultados
	Documento Completo (4.6)

Robotica

Ckt

Pagina

Links

Otros

Regresar

Reconocimiento y sintetizado de la voz

El reconocimiento del habla mantiene una interfaz muy natural y familiar al interactuar con caracteres. Sin embargo, la entrada del habla tambi�n presenta muchos desaf�os. Los algoritmos de reconocimiento del habla operan actualmente sin las partes sustanciales del repertorio de comunicaci�n de discurso humano, como gestos, entonaci�n y las expresiones faciales. El discurso extenso y natural es t�picamente ilimitado. Es f�cil para el portavoz exceder el vocabulario actual, o gram�tica, del algoritmo de reconocimiento; y la formulaci�n o el orden pueden variar para cualquier demanda dada o contestaci�n. Adem�s, los algoritmos de reconocimiento de habla deben tratar a menudo con variaciones grandes en el ambiente del portavoz, por ejemplo, el ruido del fondo, calidad del micr�fono y situaci�n pueden afectar la calidad de la entrada. Por otra parte, pronunciaciones del portavoz diferentes o variaciones del mismo portavoz, como cuando el portavoz tiene un resfriado. Finalmente, los algoritmos de reconocimiento de voz tambi�n deben enfrentarse a palabras sonoras similares o frases en un idioma, como "ola", "hola", o "casa", "caza".

La voz no siempre es la mejor forma de entrada para realizar una tarea. Debido a la naturaleza de la conversaci�n rec�proca del habla, puede ser a menudo m�s lento que otras formas de entrada. Como el teclado, la entrada de voz es una interfaz pobre por apuntar a menos que alg�n tipo de representaci�n mnem�nica se proporcione. Por consiguiente, siempre debe considerarse si la voz es la entrada m�s apropiada para realizar una tarea. Es mejor evitar utilizar comandos de voz como la interfase exclusiva a cualquier tarea. Deben ser proporcionadas otras maneras de acceder cualquier funcionalidad b�sica con m�todos tradicionales como el rat�n o teclado. Adem�s, debe aprovecharse la naturaleza multimodal de usar comandos de voz con interfases visuales combinando entrada de la voz con informaci�n visual y auxilios que especifiquen el contexto y opciones.

Finalmente, el uso exitoso del habla como entrada s�lo es en parte debido a la calidad de la tecnolog�a. Incluso el reconocimiento humano, que excede cualquier tecnolog�a de reconocimiento actual, a veces falla. Sin embargo, en la comunicaci�n humana nosotros usamos estrategias que mejoran la probabilidad de �xito, permiti�ndonos enmendar errores cuando algo sale mal. Por consiguiente, la efectividad en la entrada de comandos de voz tambi�n depende de la calidad de la interfaz del usuario que lo utiliza.

Estudiar los modelos humanos de interacci�n del habla puede ser �til al dise�ar interfaces de voz m�s naturales. Grabando situaciones reales de conversaci�n en la vida real puede ayudar a entender mejor las estructuras y modelos involucrados para as� poder utilizarlos, as� como las formas eficaces de regeneraci�n y recuperaci�n del error. Todo esto puede ayudar a determinar el vocabulario apropiado a utilizar (en la entrada y salida). Es mejor dise�ar una interfaz del discurso basada en c�mo las personas realmente hablan que cambiar la simple interfaz gr�fica en la que opera.

El habla no es el �nico medio de apoyar interfaces interactivas. Usted tambi�n puede usar comandos de voz para procesar las entradas del teclado en lugar de, o adem�s del discurso. En esas situaciones, usted generalmente a�n puede aplicar pautas para la entrada del habla.

�Por qu� se debe usar el reconocimiento y sintetizado de voz si no es perfecto?

Cuando alguien menciona reconocimiento de voz o sintetizado de voz (texto a voz), las personas instant�neamente piensan en la computadora de �Viaje a las Estrellas�. La s�ntesis de voz de esta computadora es exactamente igual a la de la voz humana, y el reconocimiento de comandos es aun mejor. Nunca presta atenci�n a una conversaci�n entre personas, y cuando se le da un comando, la computadora no comete ning�n error. Esto es perfecto. Si las computaras tuvieran esas cualidades actualmente todos estar�amos habl�ndoles a nuestras computadoras. Desafortunadamente pasaran d�cadas antes de que lleguemos a tal tecnolog�a.

Aunque la tecnolog�a actual de reconocimiento de voz no es perfecta, es �til para ciertas aplicaciones. Desdichadamente, debido a que algunas personas esperan mas de lo que la tecnolog�a puede aportar actualmente, esta es rechazada.

La tecnolog�a de reconocimiento de voz no esta hecha para remplazar al teclado y al rat�n, mientras que la s�ntesis de voz no eliminara al texto en pantalla, ya que estas caracter�sticas solo son dos interfaces m�s para el usuario, disponibles para los programadores de aplicaciones. El reconocimiento de voz se puede agregar o comparar a una gran lista de interfaces como pueden ser el teclado, rat�n, JoyStick y pluma �ptica. Por otra parte la s�ntesis de voz puede compararse al texto, gr�ficos, videos animados y sonido.

Si se piensa bien, las aplicaciones usan actualmente m�s de una interfaz para comunicarse con los usuarios. Un juego usa conjuntamente el teclado y el JoyStick. El usuario manipula el JoyStick para �decirle� a la computadora hacia donde quiere moverse. Mientras el teclado es usado para escribir un comando, como puede ser �Hola Mundo�. El JoyStick es mejor interfaz para describir movimientos, mientras que el teclado para introducir texto. Las interfaces de salida de los juegos trabajan de la misma forma, ya que los juegos utilizan una combinaci�n de im�genes, texto y sonido para comunicarse con el usuario. Cu�ndo una nave enemigo es destruida, el juego no dibuja �!Boom!� En grandes letra, en cambio, el juego reproduce un sonido de explosi�n.

El habla es por lo tanto otra interfaz de la cual se puede echar mano como cualquier otra. Hay dos formas de implementar el texto a voz, la s�ntesis de voz y la concatenaci�n de voz.

La s�ntesis de voz es lo que t�picamente se imagina uno cuando se habla de texto a voz. Esta se realiza analizando las palabras y dejando que la computadora decida la pronunciaci�n fon�tica de las palabras. Posteriormente los fonemas son pasados por un complejo algoritmo que simula el tracto vocal humano y emite un sonido. Este m�todo permite que el "texto a voz" pronuncie cualquier palabra, incluso las inventadas como �Zamphoom�, pero la voz producida tiene poca emoci�n y es distinta a la humana. La s�ntesis de voz usualmente requiere una computadora 486/33 MHz, con un megabyte de memoria RAM libre.

La concatenaci�n de voz trabaja de diferente forma. En esta s� pregraban las palabras a decir en una librer�a, para su posterior uso. Debido a que la voz es una grabaci�n esta suena bien. Desafortunadamente, si el texto a pronunciar tiene una palabra o frase que no se grabo con antelaci�n el programa no la podr� decir. La concatenaci�n se puede ver como una forma de comprimir audio debido a que las palabras y frases comunes solo tienen que ser grabadas una sola vez, una de las desventajas es la capacidad del disco donde se tienen que grabar todas los archivos .WAV con la pronunciaci�n a reproducir, ya que en algunos casos puede ser muy grande.

El reconocimiento de voz es m�s dif�cil de clasificar que el "texto a voz". Cada algoritmos de reconocimiento de voz tiene tres caracter�sticas principales:

Continuo o discreto: si el reconocimiento es continuo, el usuario puede hablar con naturalidad, pero si es discreto, el usuario necesita hacer pausa entra cada palabra. Obviamente, el reconocimiento continuo es menor que el discreto, pero �ste necesita mayor tiempo de procesamiento del CPU.

Tama�o del vocabulario: el reconocimiento de voz puede soportar un vocabulario peque�o o grande. Vocabularios peque�os permitir�n a los usuarios realizar simples comandos a sus computadoras. Para dictar un documento, el sistema debe de tener un vocabulario muy grande. Vocabularios de gran tama�o requieren mas procesamiento y memoria que los m�s peque�os.

Dependencia de usuario: el reconocimiento con dependencia de usuario trabaja muy bien pero con ciertas limitantes. Con dependencia de usuario el sistema requiere un entrenamiento previo para cada usuario de cerca de 30 minutos.

Actualmente cualquier combinaci�n de las tres anteriores caracter�sticas es posible. Utilizar solo dos combinaciones es muy popular actualmente.

�Comando y Control� El reconocimiento es continuo, con un peque�o vocabulario, e independiente del usuario. Esto quiere decir que el usuario puede utilizar cientos de diferentes comandos o frases. Si el usuario dice un comando que no esta en la lista el sistema devuelve �no reconocido� o piensa que escucho un comando que suena igual. Un sistema de comando y control requiere una computadora con un m�nimo de 486/66 MHz. y un megabyte de memoria libre.

�Dictado discreto� El reconocimiento de voz es discreto, con un gran vocabulario y dependencia de usuario. Este es usado para dictar texto en procesadores de texto o mail, o comandos en lenguaje natural. Por lo cual los usuarios pueden decir lo que deseen, pero deben de dejar pausas entre palabras, haciendo el habla poco natural. Estos sistemas requieren una computadora con Pentium a 60 mega hertz con 8 megabytes de memoria libre.

Descripci�n de c�mo trabajan las tecnolog�as del habla como interfaz:

Reconocimiento de voz es la habilidad de la computadora de entender las palabras pronunciadas con el prop�sito de recibir un comando o dato de entrada del usuario.

"Texto a voz" es la habilidad de la computadora de convertir texto en voz sint�tica que puede ser escuchada por el usuario.

El reconocimiento de voz y el "texto a voz" utilizan algoritmos, que son los programas que efect�an el reconocimiento del habla o reproducen el texto. La mayor�a de los algoritmos de reconocimiento de voz convierten el audio de entrada a fonemas espec�ficos del algoritmo, que despu�s son convertidos en texto que la aplicaci�n puede usar, (un fonema es la m�s peque�a unidad estructural de un sonido que puede ser usada para distinguir una iteraci�n de otra es un lenguaje hablado). Un algoritmo de "texto a voz" realiza el mismo proceso, pero en forma inversa.

El algoritmo de reconocimiento de voz transcribe el audio de una entrada de audio, como puede ser un micr�fono o una l�nea telef�nica. El algoritmo de "texto a voz" convierte texto a audio, el cual es enviado a la salida de audio especificada como puede ser una bocina, aud�fonos, o una l�nea de tel�fono. Bajo ciertas circunstancias, el algoritmo puede transcribir audio desde, o a un archivo.

Un algoritmo t�picamente provee m�s de una forma para reconocer el habla o reproducir el texto. Por ejemplo, un algoritmo de reconocimiento de voz puede tener un modo por cada lenguaje o dialecto que puede reconocer. Por otra parte, un algoritmo de "texto a voz" puede tener un modo por cada voz, con la que reproduce el texto en un diferente estilo. Otros modos pueden ser optimizados para un ancho de banda particular, como son los 8 kilohertz (kHz) para usarse sobre las l�neas telef�nicas.

El reconocimiento de voz puede ser simplemente un conjunto de comandos vocales predefinidos que la aplicaci�n puede reconocer. Un reconocimiento de voz m�s complejo involucra el uso de un patr�n gramatical, que se define como un conjunto de palabras o frases que pueden ser reconocidas. Un patr�n gramatical puede usar reglas para predecir las palabras m�s utilizadas que siguen de la ultima palabra pronunciada. O tambi�n puede definir un contexto que identifica el tipo de dictado y el estilo del lenguaje esperado.

El reconocimiento de voz y el "texto a voz" pueden usar un l�xico de pronunciaci�n gramatical contenido en una base de datos que contiene la correcta pronunciaci�n de las palabras y frases que pueden ser reconocidas o reproducidas.

La aproximaci�n o grado de error de un algoritmo para reconocer el habla o reproducir el texto determina la calidad del habla de la aplicaci�n, esto es, la exactitud de reconocimiento y la claridad de la reproducci�n y la cantidad de esfuerzo requerido por el usuario para obtener una buena calidad y claridad. La aproximaci�n o exactitud del algoritmo tambi�n tiene efectos sobre la velocidad del procesador y la memoria requerida para la aplicaci�n; esto tambi�n puede influenciar en las especificaciones del dise�o de la interfaz de usuario de la aplicaci�n.

Hosted by www.Geocities.ws