GRAMÁTICA Y
LEXICOGRAFÍA
En La Lingüística

Del Corpus Textual



 
  El Corpus Oral de Referencia del Español Contemporáneo

     Para el español existe por el momento un único corpus público de referencia de la lengua oral (existen otros corpus orales, pero no se hallan disponibles, existen otros corpus públicos, pero no son del lenguaje oral) que la Universidad Autónoma de Madrid ha puesto a disposición de la comunidad científica y cualquiera interesado en la dirección:

ftp://ftp.lllf.uam.es/pub/corpus/oral/corpus.tar.Z

Corpus Oral de Referencia del Español Contemporáneo

Este archivo comprimido de 2,55 Mb, una vez descargado, es necesario descomprimirlo mediante dos programas de MSDOS, que son: u16.exe y extar.exe y que se pueden encontrar en el mismo servidor, en la misma dirección en el directorio:

ftp://ftp.lllf.uam.es/pub/varios/arcutils/

Localización de los archivos u16.exe y extar.exe

 

Extracción del Corpus ORAL
     Explicación técnica de cómo se hace la extracción del Corpus Oral de Referencia del Español Contemporáneo a partir del archivo descargado de Internet:

     A continuación explicaré la manera, en absoluto simple, de obtener el corpus a partir de archivo corpus.tar.Z descargado de la red.

  • Se necesita trabajar en el entorno de comandos de texto del sistema operativo MSDOS.
  • Son necesarios unos 18Mb libres en el disco duro para realizar todo el proceso de descompresión y organización del corpus.
  • Son necesarios los archivos:
  1. corpus.tar.Z que es el del corpus
  2. u16.exe de descompresión y
  3. extar.exe que despliega el corpus una vez descomprimido.

     En Windows 95, 98 y NT se pueden realizar las siguientes operaciones (donde los nombres que se dan a los archivos del corpus son un ejemplo). Empiezo haciendo un directorio (o carpeta), para esto abriendo MiPC y ya yendo al menú de archivo ya dando al botón derecho de ratón escogemos hacer una nueva carpeta de nombre, por ejemplo, corpus en, por ejemplo, C:\ la carpeta vista en formato MSDOS:

C:\corpus

en ella coloco los tres archivos:

corpus.tar.Z
u16.exe
extar.exe

     Cambio el nombre de corpus.tar.Z, por ejemplo a: corpus.z; la razón para esto es que un nombre como corpus.tar.Z (con puntos dentro de él y más de ocho letras) no se admite para los archivos trabajando en el sistema MSDOS.

     Abro, después, una ventana de comandos MSDOS, haciendo clic sobre el icono con las siglas MSDOS en el menú de inicio, y cambio a la carpeta anterior, C:\corpus, para ello escribo tras el símbolo C:\:

cd corpus

y doy a la tecla:

<INTRO>

     Entonces, tras la expresión C:\corpus> , que debemos estar viendo, escribo:

u16.exe corpus.z > corpus.d

(donde corpus.d u otro nombre que queramos será el nombre del archivo del corpus descomprimido de salida) y ejecuto el comando dando de nuevo a la tecla:

<INTRO>

Con esto hemos obtenido un fichero de casi 7Mb de tamaño.

     A continuación para desplegar este archivo en los diversos archivos que contiene es necesaria una operación más. En el lugar donde lo hemos dejado escribimos la siguiente línea de comando:

extar.exe corpus.d

(o el nombre que tenga el archivo descomprimido en el paso anterior) y damos de nuevo a la tecla:

<INTRO>

si hay suficiente espacio en el disco duro no tiene por qué haber problemas y tendremos una carpeta de nombre:

corpus.orl

dentro de esta habrá un par de subcarpetas y dentro de estas otras los archivos del corpus. Estos archivos de texto así obtenidos están en código ASCII y pueden verse con cualquier procesador de textos, pero solo se verán sin caracteres extraños en un editor de texto de MSDOS.

     La naturaleza de este Corpus Oral de Referencia del Español Contemporáneo de la Universidad Autónoma de Madrid se encuentra explicada en la dirección:

http://elvira.lllf.uam.es/docs_es/corpus/corpus.html

Corpus Oral en castellano
Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia

 
 
 
Hosted by www.Geocities.ws

1