A
continuación explicaré la manera, en absoluto
simple, de obtener el corpus a partir de archivo corpus.tar.Z descargado de la red.
- Se
necesita trabajar en el entorno de comandos
de texto del sistema operativo MSDOS.
- Son
necesarios unos 18Mb libres en el disco duro
para realizar todo el proceso de
descompresión y organización del corpus.
- Son
necesarios los archivos:
- corpus.tar.Z
que
es el del corpus
- u16.exe
de
descompresión y
- extar.exe
que
despliega el corpus una vez
descomprimido.
En Windows 95, 98
y NT se pueden realizar las
siguientes operaciones (donde los nombres que se dan
a los archivos del corpus son un ejemplo). Empiezo
haciendo un directorio (o carpeta), para esto
abriendo
MiPC y
ya yendo al menú de archivo ya dando al botón
derecho de ratón escogemos hacer una nueva carpeta
de nombre, por ejemplo, corpus en, por ejemplo, C:\ la carpeta vista en
formato
MSDOS:
C:\corpus
en ella coloco
los tres archivos:
corpus.tar.Z
u16.exe
extar.exe
Cambio el
nombre de corpus.tar.Z, por ejemplo a: corpus.z; la razón para esto
es que un nombre como corpus.tar.Z (con puntos dentro de
él y más de ocho letras) no se admite para los
archivos trabajando en el sistema MSDOS.
Abro,
después, una ventana de comandos MSDOS, haciendo
clic sobre el icono con las siglas MSDOS en el menú
de inicio, y cambio a la carpeta anterior, C:\corpus, para ello escribo
tras el símbolo C:\:
cd corpus
y doy a la
tecla:
<INTRO>
Entonces, tras
la expresión C:\corpus> , que debemos estar
viendo, escribo:
u16.exe corpus.z
> corpus.d
(donde corpus.d u otro nombre que
queramos será el nombre del archivo del corpus
descomprimido de salida) y ejecuto el comando dando
de nuevo a la tecla:
<INTRO>
Con esto hemos
obtenido un fichero de casi 7Mb de tamaño.
A
continuación para desplegar este archivo en los
diversos archivos que contiene es necesaria una
operación más. En el lugar donde lo hemos dejado
escribimos la siguiente línea de comando:
extar.exe
corpus.d
(o el nombre
que tenga el archivo descomprimido en el paso
anterior) y damos de nuevo a la tecla:
<INTRO>
si hay
suficiente espacio en el disco duro no tiene por qué
haber problemas y tendremos una carpeta de nombre:
corpus.orl
dentro de esta
habrá un par de subcarpetas y dentro de estas otras
los archivos del corpus. Estos archivos de texto así
obtenidos están en código ASCII y pueden verse con
cualquier procesador de textos, pero solo se verán
sin caracteres extraños en un editor de texto de MSDOS.