Blog de Joan Miquel-Vergés Curso 2025-2026: Semana 6 del 13/10/2025 al 19/10/2025

SEMANA NÚMERO 06 (S-06)

PRIMERA CLASE (resumen)

VIDEOCLASE: https://cutt.ly/Cr9M2IdV

Observación: Al principio de la clase repasamos todo lo relacionado con el apartado 1) del ENCARGO-3 relacionado con el "texto literario"; y la "obra1" de "El Quijote" (que es la misma para todo el alumnado). Con posterioridad, dejé que el alumnado trabajase con su "obra2" asignada de manera personalizada (que tenía que haber descargado en casa durante el fin de semana del portal bibliográfico del "Proyecto Gutenberg").

*** EN LA SEGUNDA CLASE DE LA SEMANA ANTERIOR (SEMANA 5 O S-5) NO SE LIMPIÓ LA OBRA EN FORMATO HTML NI SE USÓ COMO PALABRA A USAR EN LA CONCORDANCIA LA PALABRA "hombre". ES POR ELLO QUE, SI QUERÉIS CONSULTAR LA "GRABACIÓN CORRECTA, DEBÉIS CONSULTAR LA GRABACIÓN DE ESTA PRIMERA CLASE DE ESTA SEMANA (SEMANA 6 O S-6) ***

ENCARGO-3 DE LA PRÁCTICA-1

1) PRELIMINARES
Toda la documentación relacionada con el encargo está disponible en la web  http://jmv.webs.uvigo.es/docs/practicas/practica1/encargo3/p1-e3.htm
El enunciado del encargo está disponible en el archivo PDF siguiente:  http://jmv.webs.uvigo.es/docs/practicas/practica1/encargo3/practica1-encargo3.pdf
Este encargo está personalizada para cada uno/a de los/as alumnos/as de la materia. El listado del asignaciones del alumnado es este: http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/asignacion.pdf. Si vuestro nombre no aparece en el listado, por favor, poneros en contacto con el profesor de la materia para que os asigne las tareas correspondientes.
En este encargo nos centraremos en las fases de "análisis" y "preparación" del modelo tecnológico de la traducción que estamos siguiendo en todos los encargos.
En encargo consiste en un doble encargo de traducción: por una parte un texto literario y por otra parte un texto especializado. En el primero de los casos, el texto literario, nos detendremos en la fase de análisis y utilizaremos un programa lexicográfico para obtener un listado de las palabras a traducir y, en el caso de no saber cómo se traduce alguna de ellas, solicitaremos del programa que nos la enseñe en su contexto (lo que en lexicografía se denomina como "concordancia"). En el segundo de los casos, el texto especializado, trabajaremos con bases de datos terminológicas para poder conocer la traducción de los términos del texto especializado (para ello haremos uso de diversos programas relacionados, directa e indirectamente, con las bases de datos terminológicas).
Un programa lexicográfico es, básicamente, un programa que analiza el léxico de un determinado texto y elabora "listas de palabras y sus frecuencias" del mismo (ordenadas dichas listas por frecuencias o bien alfabéticamente), el listado de contextos donde aparecen dichas palabras (denominados "concordancias"); y, algunas veces (no es el caso del programa que usaremos) estadísticas relacionadas con el texto.
Una base de datos es, a grandes rasgos, una tabla compuesta por columnas y filas. Las filas se denominan "campos" y las columnas "registros". La información contenida en los registros se almacena de manera ordenada y estructurada en los diversos campos de la base de datos. para acceder a dicha información es necesario "consultar/preguntar" a la base de datos; y la base de datos nos "responde" a la/s pregunta/s efectuadas. Como sea que el lenguaje (máquina) que emplean (entienden) las bases de datos y el lenguaje (humano) que emplea (entiende) el/la usuario/a humano, los/as usuarios/as acostumbran a usar un "formulario (amigable)" para crear las consultas/preguntas a la base de datos. Estas consultas se transforman al lenguaje de las bases de datos (normalmente se usa el Structured Query Language o "lenguaje de consulta estructurado", conocido mayoritariamente por sus siglas en inglés SQL), un lenguaje específico del dominio utilizado en programación, diseñado para administrar sistemas de gestión de bases de datos relacionales. De la misma manera la base de datos responde a la consulta/pregunta en lenguaje SQL el cual, a través de un "informe (amigable)", es mostrado al/a la usuario/a.

2) ENCARGO A REALIZAR

Un/a traductor/a profesional recibe un doble encargo de traducción: un texto literario y un texto especializado:
En lo referente al “texto literario”, las 2 obras literarias son anteriores a la segunda mitad del siglo XIX. Sus mayores problemas traductológicos radican en que el/la traductor/a no conoce ni al autor ni la obra en cuestión; y, al no ser de autores coetáneos, desconoce también el significado específico y/o traducción de muchas de las palabras que en ellas aparecen (son “palabras arcaicas”). Es por ello que deberá analizar el texto a traducir y preparar toda la documentación al respecto que pueda para facilitar la traducción.
En lo referente al “texto especializado”, deberá mejorar la traducción de la interfaz de un programa informático y la plataforma/consola en que se va a ejecutar, traducida ya previamente, pero con graves errores de traducción. Sus mayores problemas traductológicos radican en que no domina el tema o área de especialización; y, por ello, desconoce el significado y traducción de muchos de los términos. Es por ello que deberá hacer uso de bases de datos terminológicas especializadas del ámbito del software/plataformas para optimizar el resultado final, de manera que se asegure la calidad última de la traducción (Quality Assurance o QA). Es el caso, por ejemplo, de las bases de datos de terminología del software de Microsoft® y de las consolas de PlayStation®.
Todos los materiales de este encargo debes guardarlos en una única carpeta que debes llamar “APELLIDO1-APELLIDO2-NOMBRE” y que deberás comprimir y mandar a través de FaiTIC con el nombre de “APELLIDO1-APELLIDO2-NOMBRE.zip”. Son, en total 17 archivos y 2 carpetas que debes copiar en una carpeta, comprimir y “subir” a MooVi.

1) Tenéis que guardar todos los archivos generados en el PRIMER APARTADO (texto literario) en una subcarpeta denominada “texto-literario”.

Este apartado lo podéis realizar al inicio del apartado del encargo o al final, al acabar el mismo. En nuestro caso lo realizaremos al final, y solo guardaremos en dicha carpeta los archivos que proceda guardar.

2) Tenéis que guardar todos los archivos generados en el SEGUNDO APARTADO (texto especializado) en una subcarpeta denominada “texto-especializado”.

Este apartado lo podéis realizar al inicio del apartado del encargo o al final, al acabar el mismo. En nuestro caso lo realizaremos al final, y solo guardaremos en dicha carpeta los archivos que proceda guardar.

3) PRIMER APARTADO: “TEXTO LITERARIO”

Un/a traductor/a profesional recibe el encargo de traducir dos textos literarios. Sus mayores problemas traductológicos al respecto radican en que, al ser autores y obras anteriores a la 2ª mitad del s. XIX, no conoce ni los autores ni las obras en cuestión. Al no ser autores coetáneo, además, desconoce el significado específico y traducción de muchas de las palabras que aparecen en las obras (por ser “palabras arcaicas” o en desuso). El/la alumno/a-traductor/a debe realizar el encargo con dos autores y obras diferentes: (1) TEXTO-1: la obra literaria “El Quijote” (s. XVII) del autor “Miguel de Cervantes Saavedra”; y (2) TEXTO-2: otra obra literaria y autor que le será asignada de manera personalizada (ver el enlace de asignaciones anterior)

SUBAPARTADO "1.1)" Busca en la Base de datos del ISBN (acrónimo inglés de International Standard Book Number; que en español vendría a ser "Número Estándar Internacional de Libros" o "Número Internacional Normalizado del Libro"), en línea, el listado abreviado de títulos que de las ediciones que de dichas obras y autores se han publicado en España; usa la “opción de búsqueda” (sencilla o avanzada) que consideres más adecuada. Guarda los resultados obtenidos para cada obra (en Internet Explorer con la opción de guardado tipo “página web, sólo HTM/HTML (en el enunciado del encargo se detalla solo HTM, pero, según el navegador usado, a veces lo guarda en formato HTML; da lo mismo); en Mozilla Firefox o Google Chrome con la opción de guardado tipo “página web completa”) en un archivo HTM/HTML denominado “ediciones1.htm” o "ediciones.html" y “ediciones2.htm” o "ediciones2.html", respectivamente. Una vez descargados los archivos verifica con tu navegador que puedes ver el contenido de las páginas web descargadas.

La "traducción literaria" es uno de los ámbitos dentro de la traducción que cuenta con una mayor tradición desde tiempo inmemoriales. Cuando un/a traductor/a quiere traducir una obra literaria, lo primero que debería tener en cuenta es si dicha obra tiene "derecho de autor" (en inglés "copyright") o no (https://es.wikipedia.org/wiki/Derecho_de_autor); y, si lo tiene, debería ponerse en contacto con el autor/a o con quien tenga sus derechos (herederos, editor, empresa, etc.). Como en esta materia pretendemos ser siempre profesionales y legales, para no incumplir con esta premisa, vamos a trabajar/traducir obras que no tengan derechos de autor. La implantación del derecho de autor en el mundo ha sido muy diferente y dispar a lo largo de la historia. Podemos considerar, a groso modo, la segunda mitad del siglo XIX como una fecha común para la mayoría de los países (por los menos en Europa); así, en en la legislación española, el Real Decreto Legislativo 1/1996, de 12 de abril, aprueba el texto refundido de la Ley de la Propiedad Intelectual que regula en su art. 146 los símbolos o indicaciones de reserva de derechos. Es por ello que el alumnado de esta materia tiene asignados para su traducción dos obras literarias anteriores a la segunda mitad del siglo XIX.

Es por ello que, lo más seguro, es que el alumnado no conozca ni los autores ni las obras en cuestión. Al no ser autores coetáneo, además, lo más seguro es que desconozca el significado específico y traducción de muchas de las palabras que aparecen en las obras (por ser “palabras arcaicas” o en desuso en el español actual). Así, el/la alumno/a-traductor/a debe realizar el encargo con dos autores y obras diferentes: (1) TEXTO-1: la obra literaria “El Quijote” (s. XVII) del autor “Miguel de Cervantes Saavedra”; y (2) TEXTO-2: otra obra literaria y autor que le será asignada de manera personalizada (ver el enlace de asignaciones anterior, al inicio de la entrada del blog para esta segunda clase).

Una vez sabemos las obras que debemos traducir, el segundo paso es conocer las diferentes ediciones que se han publicado de la misma. En el ámbito de la edición literaria es muy común que una misma obra se haya publicado en diferentes ediciones, con algunas (pequeñas o grandes) diferencias entre las misma, según el tipo de público para el que estén asignadas. Así, por ejemplo, aunque la obra "El ingenioso hidalgo don Quijote de la Mancha" de Miguel de Cervantes Saavedra sea, a priori (no vamos a entrar en detalles sobre el posible hecho de que una obra literaria nos llegue a nosotros/as a partir de su manuscrito original o bien a través de una o varias posibles copias de la misma), al publicarlas para un determinado público (especialistas en Cervantes, alumnado de universidad, alumnado de bachillerato, público infantil, etc.) la obra puede sufrir múltiples variaciones. Por ello nos interesa saber cuáles son las posibles diferentes ediciones de un a misma obra original que se han publicado, antes de proceder a su traducción. Por suerte, a partir del 1966, los libros publicados cuentan con un identificador único, el ISBN ("International Standard Book Number", en inglés; "Número Estándar Internacional de Libros" o "Número Internacional Normalizado del Libro," en español). Es un identificador único para libros, previsto para uso comercial. Fue creado en el Reino Unido en 1966 por las librerías y papelerías británicas W. H. Smith y llamado originalmente "Standard Book Numbering"(en español, ‘numeración estándar de libros’), abreviado SBN. Fue adoptado como estándar internacional ISO 2108 en 1970.

Por lo tanto, el número ISBN (https://es.wikipedia.org/wiki/ISBN) es único para cada libro publicado en el mundo; y, por lo tanto, identifica unívocamente a cada uno de ellos (viene a ser lo mismo que la matrícula para los coches). Cada país guarda en una base de datos (la conocida como "base de datos del ISBN) el listado de los libros publicados en dicho país (independientemente de en qué lengua hayan sido publicados). Empezamos usando el buscador Google para buscar "ISBN", ya que es de suponer que no conocemos la URL de la base de datos en cuestión. hay que tener en cuenta que nuestro buscador buscará, por defecto (no se le indicamos el país), "la base de datos del ISBN de España".

Seleccionamos la opción "Base de datos de libros" del menú de la izquierda.

Seleccionamos la opción central "Base de datos de libros editados en España".

Nos aparece el formulario del buscador de consultas/preguntas de la base de datos.

Dicho buscador dispone de una opción de "búsqueda sencilla o básica", que permite normalmente la búsqueda en un pequeño número de campos de la base de datos y en un solo campo a la vez (es este caso "autor" o "fecha de edición" o "título").

Ello hace que, al igual que ocurrió con el buscador Google en el encargo-2 y la búsqueda del texto "bandera de España", si buscamos el texto "quijote" en el campo "TÍTULO", el buscador nos da muchísimas respuestas/resultados; ya que no sólo busca la obra cuyo título contenga la palabra "quijote" del autor "Cervantes", sino cualquier obra (sea de Cervantes o no) que contenga el texto "quijote". Por eso da un error de búsqueda (demasiados resultados hallados).

Para solucionar este problema la mayoría de buscadores disponen también de una opción de "búsqueda avanzada o especializada" que permite la búsqueda en un mayor número de campos y, también, usando más de un campo a la vez. Para ello, en este caso, hemos de seleccionar la opción "Búsqueda avanzada de títulos". Nos detendremos en la opción de buscar por más de un filtro de búsqueda (por defecto aparecen sólo 2 filtros de búsqueda, pero podemos añadir más pulsando el botón "más filtros"), que combina la posibilidad de buscar de manera combinada en más de un campo, usando para ello diferentes "operadores" ("Y", en español, o "AND", en inglés; "O" en español o "OR" en inglés; y "NO" en español o "NOT" en inglés). Usaremos los campos "TITULO" y "AUTOR" y el operador "Y" entre ambos campos; y como textos de búsqueda en los dos campos usaremos "quijote" para "TITULO" y "cervantes" para "AUTOR". A diferencia de lo que uno pueda pensar es conveniente no usar "demasiado texto" en el texto de búsqueda de los campos, ya que uno/a no sabe a priori cómo estará entrado el texto en los respectivos campos; por ello es mejor escribir "poco texto" en los campos de búsqueda, pero que el mismo sea significativo (por ejemplo, en vez de escribir "Miguel de Cervantes Saavedra" en el campo "AUTOR", es mejor escribir "cervantes"; notad también que, en la mayoría de los casos, los buscadores son "insensibles" a las mayúsculas, los acentos, etc.).

Obtenemos 811 resultados/respuestas (libros impresos de "El Quijote" de "Cervantes") a nuestra consulta.

Si queremos guardar la información que el navegador nos muestra en pantalla para, de una manera tranquila y sosegada seleccionar "en casa" cuál es la edición de la obra que vamos a traducir, es suficiente con pulsar "botón derecho del ratón" y seleccionar la opción "guardar como".

Como siempre, no guardaremos nuestros archivos directamente en el escritorio sino en una carpeta del mismo. Podemos salir al escritorio y crear la carpeta o usar la opción de "crear carpeta" de la opción "guardar como". Creamos una carpeta de trabajo en el escritorio del ordenador con un nombre que cumpla con las reglas que ya hemos nombrado (EN EL ENUNCIADO DEL ENCARGO SE ESPECIFICA "PRIMERAPELLIDO-SEGUNDOAPELLIDO-NOMBRE") más de una vez (caracteres sólo ingleses, sin tildes, sin mayúsculas, sin espacios, etc.)

Guardaremos la información en nuestra carpeta, con el nombre de "ediciones1" (como extensión dejaremos la que nos propone el navegador; esto es, ".html" o "htm"). Y, como formato usaremos "página web (completas)" o "página web (solo HTML)" (una guarda sólo el formulario de consulta, sin los datos; y otra guarda el formulario de consulta y todos los datos). Queremos guardar el formulario de consulta y todos los datos. El formato dependerá del navegador que usemos. Para Internet Explorer usaremos la opción "página web (sólo HTM/HTML)"; mientras que para todos los demás navegadores usaremos la opción "página web (completa)". En cualquier caso, una vez guardada la página web, es mejor abrir la versión guardad y comprobar que, efectivamente, se guardó el formulario y todos los datos.

Cabe observar que, al guardarse la página web con el nombre de "ediciones1.html" (o "ediciones1.htm"), aparece también una carpeta con el nombre de "ediciones1_files". Esta carpeta contiene los elementos de la página web que no son texto. Si usamos la opción de "vista detallada" y clasificamos los archivos por "tipo/clase" veremos que los archivos de la carpeta son del tipo imagen (GIF o PNG), estilos de texto en cascada (CSS) o programas o scripts en lenguaje JavaScript (JS). Las imágenes se corresponden con las banderas, fotos o gifs animados del encargo-2; los estilos de texto en cascada serían los estilos que dijimos no haríamos en el encargo-2, que permiten fijar el formato del texto de la página web; y, los programas o scripts serían, por ejemplo, el calendario que aparece en el margen inferior izquierdo de mi página web de horarios (http://jmv.webs.uvigo.es/horario.htm). El archivo de la página web está directamente asociado a la carpeta, de manera que si movemos, copiamos o borramos dicho archivo, a la carpeta le sucede la misma acción. Y, si borramos o cambiamos el nombre de la carpeta, las imágenes, estilos, y programas de la página web no se visualizarán/activarán.

Con ello tendremos parcialmente acabado el apartado "1.1)" del encargo, en cuanto a la primera obra (la común para todos/as: "El Quijote"). Sólo os faltará realizar los mismos pasos con la segunda obra que tenéis asignada cada uno/a de vosotros/as. Con ello podemos dar por rematado la totalidad del apartado "1.1)" del encargo-3.

SUBAPARTADO "1.2)" Busca en el Project Gutenberg las dos obras literarias en (http://www.gutenberg.org/browse/languages/es). Descarga las versiones en formato HTM/HTML (da igual que sea HTM o HTML; guárdalo en el formato que tenga de origen) en un archivo con el nombre de “obra1.htm” y “obra2.htm”, respectivamente. Puedes descargar la “obra1.htm”, directamente, de http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/obra1.htm.

Observación: la disposición en “falsa red” del aula Newton-9 hace que, aunque cada ordenador tenga a priori su propia IP (o “matrícula), en realidad, cuando sale al servidor central de la UVIGO y de ahí a Internet, sale con “una sola IP común para TODOS LOS ordenadores del aula”. Esto hace que el servicio web gratuito del "Proyecto Gutenberg" lo cataloguen como un “abuso de servicio”, ejecuta una “denegación de servicio” y se bloquea la página web en cuestión. Por eso deberás descargar la segunda obra desde un ordenador que no esté en el aula Newton-9 o desde un ordenador portátil.

Después de habernos cerciorado de si la obra que queremos traducir tiene derechos de autor o no ("no", en nuestro caso), haber buscado las diferentes ediciones que de dicha obra se han publicado, y haber seleccionado una de ellas; el siguiente paso a llevar a cabo es buscar el texto de la obra para poder traducirlo. Si la obra tiene derechos de autor parece evidente que la obra no estará (o no debería estar "legalmente") en Internet; mientras que, si la obra no tiene derechos de autor, seguramente sí estará en Internet. Igual que sucedió con el encargo-2 cuando buscamos la "bandera de España", es muy mala política buscar cosas en Internet usando directamente el buscador (en nuestro caso el buscador Google) porque la información encontrada, además de ser mucha, no ofrece muchas veces la calidad esperada. Por ello, siempre es mejor usar "portales web" donde la información está agrupada por ámbitos y donde la información está explicada y, por ello, cuenta con unos mínimos de garantía de calidad. La cuestión es, por tanto, saber si existen portales de libros en Internet. La respuesta, obviamente, es que sí; y muchos. Veremos 3 de los más significativos por lo que en sí representan:
El portal de libros "Project Gutenberg" o "Proyecto Gutenberg". Este portal de libros, creado en el 1971, es el más antiguo de los tres; fue creado en una época en que Internet acababa de surgir (cuando no existía el lenguaje HTM o HTML; y el uso de escáneres y programas de OCR era muy escaso, por no decir prácticamente nulo). Por tanto, todo se hacía manualmente (se entraban los textos de las obras directamente desde el teclado) con la ayuda inapreciable de "voluntarios/as". Buscamos con Google "Proyecto Gutenberg" y accedemos al buscador de libros de la base de datos de dicha base de datos de libros. Podemos buscar por el apellido del autor, el nombre de la obra, por lengua de la obra, o, directamente, usar el buscador que aparece en la esquina superior izquierda de la página web. Si usamos esta última opción, buscaremos el texto "quijote". Navegamos por las opciones encontradas hasta acceder a la "ficha bibliográfica del libro" en cuestión y seleccionamos la pestaña "download o descargar" de la misma. A la izquierda de la tabla nos aparecen los diferentes formatos del libro existentes y, a la derecha de la tabla, los lugares donde están guardados en Internet (Dropbox. Google Drive y OneDrive). El formato "UTF-8" es el formato inicial, de "sin formato o solo texto" en que se entraron (a través del teclado, sin ayuda de escáneres ni ocr) inicialmente los textos; el formato "HTM o HTML" apareció cuando se introdujeron las etiquetas HTM o HTML al texto UTF-8 con lo que, automáticamente, se dotó a los textos de formato; y, los formatos EPUB y Kindle son formatos de libros electrónicos ("ebooks", en inglés) abierto y cerrado (de Amazon), respectivamente. Procederemos a descargar la versión en HTM o HTML (con o sin imágenes de ser el caso, como queramos) usando el "botón izquierdo del ratón" y "guardar como". Guardamos con el nombre (como extensión dejamos la que nos aparece por defecto) de "obra1.htm". Notad que para las explicaciones de este encargo-3 estoy usando el MacOS, para variar, por lo que las imágenes que véis en esta entrada del blog pueden diferir un poco de las obtenidas por vosotros/as al realizar el encargo con el SO Windows. Salimos a la carpeta de trabajo de nuestro escritorio y abrimos con el navegador por defecto el archivo "obra1.htm" u "obra1.html" (dependiendo del sistema operativo y/o del navegador que uséis, puede ser que el formato de etiquetas se guarde en formato HTM o HTML; vosotros/as dejad los archivos en el formato por defecto en que se guarde, da igual si es HTM o HTML. Yo he usado MacOS y lo ha guardado en HTML; Windows lo guardará normalmente como HTM) anteriormente descargada para comprobar que se descargó perfectamente y que podemos leer perfectamente el texto de "El Quijote". Nos fijamos que, al principio y al final de la obra, aparecen (en letra "Courier", muy diferente al tipo de letra empleado para el texto de la obra, para que se vea, que no forma parte de la obra y es un añadido a posteriori) sendos comentarios del "Proyecto Gutenberg". Notad que se especifican las personas que han colaborado en la elaboración del texto ("voluntarios anónimos" para su introducción inicial en formato UTF-8 y un "voluntario identificado" para la ulterior inserción de las etiquetas HTM o HTML). Y, notas también, porque es muy importante para la fase de análisis del texto con el programa lexicográfico TextSTAT, que la codificación del texto es "ISO-8859-1" (cuando analicemos dicho texto con dicho programa, nos aseguraremos que la codificación usada para el análisis en el programa lexicográfico sea la misma usada para introducir el texto). Con ello podemos dar por rematado la totalidad del apartado "1.2)" del encargo-3.

SUBAPARTADO "1.3)" Busca Elimina cualquier comentario ajeno a las obras literarias “obra1.htm” y “obra2.htm” (previo o posterior al texto de la obra en cuestión), así como cualquier tipo de introducción, dedicatoria y/o prólogo incluido en las obras por el propio autor. Con la ayuda del programa lexicográfico TextSTAT v. 2.9 crea un corpus (o “nueva unidad de análisis”) con el nombre de “corpus1.crp” y “corpus2.crp” y elabora un listado de las palabras o formas (con sus correspondientes frecuencias) que aparecen en las obras literarias en cuestión (ordenado alfabéticamente y sin distinción de mayúsculas o minúsculas). Guarda (exporta) el listado (de frecuencias) en el formato abierto CSV (comma-separated values o “valores separados por comas”) con el nombre de “listado1.csv” y “listado2.csv”, respectivamente.

Observación: Antes de usar TextSTAT lee las observaciones a tener en cuenta al respecto del uso de dicho programa en http://webs.uvigo.es/jmv/docs/practicas/practica1/observaciones-textstat.pdf. Así, por ejemplo, es muy importante que [sic] “Antes de añadir documentos al corpus hay que seleccionar la codificación ISO-8859-1 (Latin-1) o bien ISO-8859- 2 (Latin-2) para que reconozca correctamente los caracteres con tilde [p. 2]”. Si con esta codificación te siguen saliendo “símbolos raros” en la acentuación puedes probar con el formato de codificación “UTF-8 (Unicode)”.

Antes de poder analizar con el programa lexicográfico TextSTAT las obras descargadas en formato HTM es necesario eliminar de las mismas los comentarios que los promotores del "Proyecto Gutenberg" han insertado al principio y al final de los documentos. Dichos comentarios se distinguen fácilmente porque están en un tipo de letra muy diferente ("Courier") al texto de las obras. Para eliminar dichos comentarios usaremos el programa Kompozer que usamos para la creación de las páginas webs en el encargo-2 anterior.

En el caso de la obra "El Quijote", común para todos/as vosotros/as, si pretendéis descargarla en el aula informática Newton-9, recordad que no podéis hacerlo por la falsa configuración de la red de dicha aula. Por ello os he dejado un enlace en la web del encargo-2 (http://jmv.webs.uvigo.es/docs/practicas/practica1/encargo3/p1-e3.htm) para que descarguéis de la misma dicha "obra1.htm"; concretamente en el enlace web http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/obra1.htm.

Una vez abierta las obras literarias en KompoZer procedemos a seleccionar y borrar las anotaciones iniciales y finales de dicha obras. Salimos y guardamos los cambios. Por último, comprobamos abriendo el archivo guardado con un navegador que los comentarios han sido efectivamente borrados.

El siguiente paso a realizar es descargar de la página web de la materia el programa lexicográfico TextSTAT. Para ello lo descargamos del enlace correspondiente (http://jmv.webs.uvigo.es/docs/practicas/practica1/textSTAT-2.9.zip) en nuestra carpeta de trabajo, lo descomprimimos (con 7-zip con la opción "extraer aquí") y verificamos que en la carpeta resultante "TextSTAT" está ele ejecutable del programa "TextSTAT.exe" (con un icono amarillo muy característico y las letras "TS")

Activamos el programa "TextSTAT" haciendo "doble clic" con el botón izquierdo del ratón encima del archivo "TextSTAT.exe". Se abrirá el programa lexicográfico. Es de suponer que se abra la versión en español del mismo. Dicha interfaz está "muy mal traducida/localizada" (lo cual nos servirá de ejemplo y acicate en la segunda parte de este encargo para "animarnos" a traducir/localizar correctamente la interfaz original de este programa, que está en inglés, al español).

Para darnos cuenta de ello abriremos nuevamente el programa pero con su interfaz (original) en inglés. Para ello seleccionaremos la opción "Lenguaje > English" del menú del programa, aceptaremos el cambio, saldremos del programa, y volveremos a entrar. Nos aparecerá ahora la interfaz en inglés del programa. Nos fijamos especialmente en las diferentes opciones del menú "corpus" en inglés.

Volvemos a cambiar a la interfaz en español. El siguiente paso a llevar a cabo es, según consta en el enunciado del encargo-3, "elaborar un listado de las palabras o formas (con sus correspondientes frecuencias) que aparecen en las obras literarias en cuestión (ordenado alfabéticamente y sin distinción de mayúsculas o minúsculas)."

Para ello, los pasos a seguir son los siguientes:

1) En primer lugar, crear un "nuevo corpus" con la opción "Corpus > Nuevo corpus ("Nueva unidad de análisis")", con el nombre de "corpus1.crp" para la "obra1.htm" y "corpus2.crp" para la "obra2.htm" (aquí sólo mostraremos los pasos para la "obra1.htm"). Estos archivos creados son simples receptáculos para la información que crearemos después; por ello, de hecho, no están asociados a ningún programa en concreto.

2) A continuación cargar el "archivo guardado en el ordenador a analizar" ("obra1.htm" u "obra2.htm", según corresponda) a través de la opción "Corpus ("Unidad de análisis") > Añadir archivo local ("Adicionar archivo local")". Notad al respecto que la opción "Añadir archivo local ("Adicionar archivo local")" del menú "corpus ("Unidad de análisis")" permite analizar archivos o páginas web en línea, sin necesidad de descargarlos previamente. Y, la ventana final resultante después de cargar el archivo en cuestión, nos da idea de que el programa permite cargar otros nuevos archivos (por ejemplo, todas las obras de un mismo autor) y analizar todos ellos, al unísono. Por cierto, si observáis que el tamaño de la obra es de 1 Kb (en este caso o siempre que descarguéis algún archivo de Internet) ello indica normalmente que el archivo en cuestión se ha descargado mal. Debéis borrarlo y volverlo a descargar.

¡OJO, si en vez de una sucesión de carpetas acabadas en el archivo "obra1.html" u "obra2.html", el programa muestra una "p inversa o q" o da un mensaje de error; ello indica que en algunas de las subcarpetas tiene un espacio, un acento, una "ñ", etc. (algún carácter "no inglés", vaya), o que la obra en cuestión se ha descargado mal (como comentamos antes, igual tiene un tamaña de 1 Kb). Debes cambiar el nombre a dichas carpetas para que la obra literaria se cargue y/o volver a descargar la obra!

Para proceder al listado de las palabras por frecuencias, listadas alfabéticamente y sin distinción de mayúsculas y minúsculas, procedemos a seleccionar la pestaña "Formas" y las opciones "ordenar alfabéticamente" y "ordenar sin distinción de tipo (letras mayúsculas o minúsculas)". Por último pulsamos el botón "lista de frecuencia(s)". En cuestión de segundos obtenemos el listado solicitado. Tened en cuenta que, con anterioridad a la existencia de los programas lexicográficos, este proceso, con la obra "El Quijote", por ejemplo, requería de 6 meses de trabajo por parte de 3 personas; ya que requería la elaboración de 22.942 fichas de trabajo (que es el número de palabras diferentes de la obra), previo análisis de 383.552 palabras, y la anotación en las mismas de los contextos en las cuales aparecían. Ahora, con el programa lexicográfico, este proceso tarda ¡2 segundos!

En el supuesto caso de que no aparezcan o aparezcan mal los acentos de las palabras, ello se debe a la diferente codificación entre el texto analizado y la configuración del programa TextSTAT. Debemos asegurarnos que la codificación que aparece en la obra a analizar (que aparece en la obra en el comentario superior del "Proyecto Gutenberg", antes de limpiar dichos comentarios) coincide con la opción seleccionada a través de "Codificación". ¡Ojo; la codificación del programa TextSTAT, por defecto, está en consonancia con la lengua de la propia interfaz del programa! Si usáis la interfaz en español la codificación será "ISO-8859-1", y si esta codificación coincide con la codificación de las obras a analizar, se verán los acentos. Por contra, si usáis la interfaz del programa en inglés, la codificación del programa será "UTF-8 (Unicode)" y probablemente no se verán los acentos de las obras literarias si están en la codificación "ISO-8859-1".

Observación: uso del programa lexicográfico TextSTAT para la localización de "candidatos a términos" en un texto especializado. Aunque aquí no vamos a hacerlo por tratarse de un texto literario, TextSTAT también puede usarse para la "localización de candidatos a términos" en textos especializados (por ejemplo, para la realización del trabajo de terminología de la materia del mismo nombre del grado, si es el caso). Para ello basta con usar las opciones "ordenar por frecuencia", "frecuencia mínima" y "frecuencia máxima". La idea básica es que, en un texto especializado, de un determinado ámbito X, una palabra candidata a ser un buen término de dicho ámbito X sería, por ejemplo, una palabra que aparezca un mínimo de ¿10 veces en el texto y un máximo de 15 veces en el texto? (los parámetros me los he inventado yo; vosotros/as podríais usar los parámetros que creyeseis más ajustados). Por debajo del umbral de 10 veces es de suponer que dicha palabra no sería del ámbito X; y, por encima del umbral de 15 veces, es de suponer que la palabra sería ya demasiado genérica para ser un término especializado y formaría parte ya del lenguaje general. Hemos hecho la prueba con nuestra obra1 (aunque, repito, es un texto literario y no un texto especializado) y el resultado ha sido el que aparece a continuación. Serían 982 palabras "candidatas a términos"; todavía demasiadas (es "normal" que esto suceda en un texto de tipo literario, ya que en dicho texto no hay términos por no tratarse de un texto especializado; en un texto especializado el número de palabras obtenidas a buen seguro sería muchísimo menor), por lo que (de tratarse de un texto especializado; cosa que repito no ocurre en este caso) deberíamos seguir especulando con los intervalos mínimo y máximo de las palabras en función del número de candidatos que quisiéramos obtener.

Por último, solo nos falta guarda (exporta) el listado (de frecuencias) en el formato abierto CSV (comma-separated values o “valores separados por comas”) con el nombre de “listado1.csv” y “listado2.csv”, respectivamente.

El programa TextSTAT permite exportar las "listas de frecuencias" en formato CSV (formato abierto) o bien en formato XLS o XSLX (formato cerrado, propietario, de Microsoft Excel).

El formato CSV, del inglés "Comma Separated Values" o "valores separados por comas" (https://es.wikipedia.org/wiki/Valores_separados_por_comas), es un formato de archivo, de formato abierto, muy sencillo, para representar datos en forma de tabla, en las que las columnas se separan por comas y las filas por saltos de línea (o <Enters>). Como sea que las comas pueden forman parte del texto de los datos, los datos se incluyen entre comillas ("") o bien se usan otros delimitadores para separar las columnas (como puedan ser, por ejemplo, los tabuladores); manteniéndose para estos casos el nombre de "formato CSV", aun no siendo las comas los delimitadores de dichos archivos.

Exportar el listado de frecuencias a formato CSV mediante la opción "Exportar > Lista de frecuencias: Archivo CSV". Guardamos el archivo generado con el nombre de "listado1.csv" (en el caso de la "obra1.htm") o de "listado2.csv" (en el caso de la "obra2.htm"). Para abrir el archivo ".csv" basta saber que dicho formato es un formato de "solo texto" y, por tanto, basta seleccionarlo con el botón izquierdo del ratón, pulsar el botón derecho del ratón, seleccionar la opción "Abrir con", y elegir el programa "bloc de notas " (o cualquier otro editor de textos). Con ello podemos dar por rematado la totalidad del apartado "1.3)" del encargo-3.

SUBAPARTADO "1.4)" Con la ayuda del programa lexicográfico TextSTAT v. 2.9 busca el listado de contextos o concordancias de las obras literarias en las cuales aparezca la palabra “hombre”, con las opciones: coincidir solamente con una palabra entera, no diferenciar letras mayúsculas y minúsculas, y ordenar alfabéticamente. Procura también que la palabra “hombre” aparezca destacada EN MAYÚSCULAS en cada uno de los contextos (con la opción “destacar de la palabra consultada”). Guarda (exporta) la lista de concordancias a un archivo de texto en formato abierto TXT llamado “concordancias1.txt” y “concordancias2.txt”, respectivamente (0,40 puntos; 0,20 puntos por cada autor/obra).

El problema del listado de palabras es que, si bien a priori nos debería ayudarnos a poder traducir las palabras (o los términos) de los cuales desconocemos su traducción; en la práctica, resulta que muchas veces no es posible conocer su traducción porque el hecho de no conocer el contexto en el cual se insiere dificulta poder conocer su traducción. Para poder ir un poco más allá en estos casos, el programa lexicográfico TextSTAT incorpora la posibilidad de ver las palabras en su contexto. Para ello basta con hacer "doble clic" sobre la palabra que queremos ver en su contexto (en la pestaña "formas"); o bien usar la pestaña "concordancias" y ahí buscar el contexto de la palabra que queramos. Por ejemplo, podemos probar con las palabras "abindarráez" o "agora" que aparecen diversas veces en "El Quijote". El contexto nos ayuda a "deducir" fácilmente que "abindarráez" es, en realidad, el "moro Abindarráez" y, por tanto, no debería traducirse por ser un nombre propio. El contexto nos ayuda también a "deducir" fácilmente que "agora" es "ahora" en el español actual. Como "contexto a izquierda" y "contexto a la derecha" podéis dejar el número de caracteres que el programa os deje por defecto (40 o 50, normalmente).

Se nos pide buscar el listado de contextos o concordancias de las obras literarias en las cuales aparezca la palabra “hombre”, con las opciones: coincidir solamente con una palabra entera, no diferenciar letras mayúsculas y minúsculas, y ordenar alfabéticamente. Procura también que la palabra “hombre” aparezca destacada EN MAYÚSCULAS en cada uno de los contextos (con la opción “destacar de la palabra consultada”). Guarda (exporta) la lista de concordancias a un archivo de texto en formato abierto TXT llamado “concordancias1.txt” y “concordancias2.txt”, respectivamente.

Podríamos hacerlo desde la pestaña "Formas" y desplazarnos en el listado hasta encontrar la palabra "hombre"; pero, lo más rápido, es usar la pestaña "concordancias" y el buscador de palabras que dicha pestaña contiene. No debemos olvidar modificar las "opciones" de búsqueda, si es el caso, para que cumplan con las condiciones de: 1) No diferenciar letras mayúsculas y minúsculas; 2) Ordenar alfabéticamente; y, 3) Que la palabra “hombre” aparezca destacada EN MAYÚSCULAS en cada uno de los contextos (con la opción “destacar de la palabra consultada”)

Nos falta solo guardar (exportar) la lista de concordancias a un archivo de texto en formato abierto TXT llamado “concordancias1.txt” y “concordancias2.txt”, respectivamente. TextSTAT permite exportar las concordancias a archivos de formato TXT (formato abierto; denominado coloquialmente como "sin formato") y a archivos de formato DOC o DOCX (formato cerrado, propietario, de Microsoft Word). Usaremos la opción "Exportar > Lista de concordancias: Archivo TXT". Guardamos el archivo generado con el nombre de "concordancias1.txt" (en el caso de la "obra1.htm") o de "concordancias2.txt" (en el caso de la "obra2.htm"). Para abrir el archivo ".txt" basta saber que dicho formato es un formato de "solo texto" y, por tanto, basta seleccionarlo con el botón izquierdo del ratón, pulsar el botón derecho del ratón, seleccionar la opción "Abrir con", y elegir el programa "bloc de notas " (o cualquier otro editor de textos). Con ello podemos dar por rematado la totalidad del apartado "1.4)" del encargo-3.

Recuerda que tenéis que guardar todos los archivos generados en este PRIMER APARTADO (texto literario) en una subcarpeta denominada “texto-literario”.

* * *

A continuación procedimos con la segunda parte del ENCARGO-3 relacionado con el "texto especializado":

2) Tenéis que guardar todos los archivos generados en el SEGUNDO APARTADO (texto especializado) en una subcarpeta denominada “texto-especializado”.

Como hemos visto en el apartado anterior, la traducción/localización del inglés al español del menú "corpus" (en inglés) del programa TextSTAT al español deja mucho que desear. Por ello, como ejemplo a traducir la para el texto especializado abordaremos la traducción/localización de dicha opción de menú de dicho programa informático.

Un/a traductor/a profesional recibe el encargo de traducir/localizar un texto especializado, relacionado con la interfaz de un programa informático (TextSTAT) y la plataforma en que se va a ejecutar (PlayStation® 3). Debe, entre otras cosas, traducir/localizar del inglés al español de 4 términos informáticos (2 relacionados con el propio programa y 2 relacionados con la plataforma/consola en que se va a ejecutar), de entre 8 posibles: (1) 4 términos posibles relacionados con el propio programa TextSTAT que son: “add”, “save”, “delete” y “remove”. Dichos términos aparecen en la opción del menú “Corpus” de la interfaz del programa (que ya ha sido traducida/localizada previamente al español, pero con graves errores de traducción):

Y, (ii) 4 términos posibles relacionados con la plataforma PlayStation^®3 que son: “settings”, “network”, “remote play” y “system”, que aparecen “a mayores” al usar dicho programa en dicha consola:

En http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/asignacion.pdf encontraréis los 4 términos que os han sido asignados/as a cada uno/a de vosotros/as.

SUBAPARTADO "1.a)". Consulta en el “Portal Lingüístico de Microsoft®” la traducción al español de los términos 2 términos que te han sido asignados relacionados con “Windows®”. Para ello, en primer lugar, buscamos con Google® "portal lingüístico de Microsoft" y accedemos al apartado de "Terminology". Recordad que el "Portal Lingüístico de Microsoft" se actualizó el fin de semana del 14-15/10/23: se mejoró el buscador de la base de datos y se dividió la base de datos TBX multilingüe única con todas las lenguas de llegada en múltiples bases de datos bilingües con el par de lenguas "English-US, otra lengua" juntas todas ellas en un único archivo comprimido ZIP. Ello facilita el acceso a la base de datos en línea y la descarga de dichas bases de datos en formato TBX.

Para acceder al buscador de Microsoft seleccionamos el enlace "Microsoft Terminology Search".

A continuación Buscamos la traducción del inglés-us (de los EEUU) al español-es (de España) de los 2 términos que tenemos asignados. Yo, por ejemplo, buscaré la traducción de los dos primeros términos de Windows® "add" y "save" (vosotros/as debéis buscar la traducción de "vuestros/as" dos términos). Cada alumno/a tiene asignados dos términos diferentes de Windows; y los términos que aparecen reflejados aquí no tienen porque coincidir con los usados en la grabación de la clase. Lo mostrado en esta entrada del blog y en la grabación ss solo a "modo orientativo".

Para ello, en primer lugar, en la ventana superior debéis seleccionar con "Select Locale(s)" el idioma "Spanish" y como "Search source term" vuestro primer término en inglés de los EEUU que tengáis asignado (en mi caso será "add").

A continuación, debéis seleccionar aquél "Source term" cuyo "Concept" se ajuste más al término y a la definición del término que tengáis asociado en primer lugar. En mi caso optaré por "Add" y "A button...", respectivamente.

Con un editor de textos (por ejemplo, el “Bloc de notas” de Windows®) debes crear un archivo de texto denominado “terminologia-mia-windows_us-es.txt” donde, por filas, aparezcan los 2 términos que te han sido asignados, en minúsculas, separados por tabuladores (“Tab-delimited Text File”), de manera que, para cada término, aparezca en cada fila: el término en inglés de la interfaz a traducir, un tabulador, y la propuesta de traducción al español de dicho término que propone Microsoft®; en total deberían ser 2 filas.

El formato CSV ("Comma-Separated Values") se aplicaba inicialmente para la "separación con comas" pero, al confundirse muchas veces las comas-separador con las comas-del-texto, se acostumbra a usar las comillas ("") para designar los términos/textos que contienen comas, o bien, se usa el tabulador como elemento separador. En nuestro caso usaremos el TABULADOR como separador (en cuyo caso de sigue hablando de formato CSV, aunque se usen tabuladores y no comas; o bien se habla de "Tab-delimited Text File” o "texto separado por tabuladores").

(¡OJO! Entre los términos en inglés y en español hay un solo TABULADOR)

Ojo: Puede ser que uséis otra versión del "Bloc de notas" más actualizada que la detallada aquí. En cualquier caso, abajo a la derecha aparece siempre la codificación usada para los caracteres. En mi caso, por defecto, el "Bloc de notas" a usado ANSI; pero, en vuestro caso, puede ser que el ordenador del aula N9 o el vuestro haya usado "UTF-8". Si, después en el apartado de "ApSIC Xbench" tenéis algún problema con los acentos o las "ñ"; debéis editar de nuevo el archivo y guardarlo con la codificación ANSI.

SUBAPARTADO "1.b)". Descarga del "Portal Lingüístico de Microsoft®" la (base de datos de) terminología (por defecto en formato TBX , el formato estándar de las bases de datos terminológicas) que contiene los términos relacionados con Microsoft®, en general, para el par de lenguas “inglés de los EEUU o en-US” y“español de España o es-es”. Cambia el nombre del archivo que por defecto asigna Microsoft al archivo descargado por “terminologia-microsoft_us-es.tbx”. Consulta con Virtaal dicha base de datos terminológica.

Para ello debes volver al apartado "terminology" del "Portal Lingüístico de Microsoft" y seleccionar el enlace ".tbx format".

Descarga el archivo "MicrosoftTermCollection.zip" que contiene todas las bases de datos terminológicas TBX de los pares de lenguas "US-otra_lengua" (entre las cuales está la base de fdatos terminológica "Spanish.tbx" que contiene el par lingüístico "US-ES", que es el que nos interesa). El sistema tardará un poco en descargar el archivo porque el mismo contiene, en total, más 100 bases de datos terminológicas y más de de 29 000 términos. Al final de la descarga (tened en cuenta que cada navegador puede guardar el archivo de manera diferente: pidiéndonos dónde queremos guardarlo o guardando por defecto en "Descargas" o "Downloads" u otro directorio que hayamos configurado),

De entre todas las bases de datos TBX del archivo ZIP descargado, el nombre por defecto del archivo terminológico de Microsoft® del par lingüístico "US-ES" será siempre el de "Spanish.tbx", por lo que le cambiaremos el nombre (en este caso concreto) a "terminologia-microsoft_us-es.tbx". El formato TBX es el formato estándar de las bases de datos terminológicas, por lo que cualquier programa relacionado con estas (TAO, gestor de bases terminológicas, etc.) reconocerá dicho formato.

Para descomprimir dicho archivo con el sistema operativo Windows recordad que basta con abrir el archivo ZIp (con "doble clic") y arrastrar el archivo "Spanish.tbx" fuera de dicho archivo ZIP a nuestra carpeta "texto-especializado".

El formato TBX es un formato que, como el HTML, está basado en etiquetas. Es, por tanto, un formato de texto; y, por ello, podemos abrirlo con un editor como el "Bloc de notas de Windows®".

Igual que ocurrió en el encargo-2 con las páginas web, el formato HTML y los navegadores. Los archivos HTML pueden visualizarse con un editor de textos; pero el mismo solo ve (no interpreta las etiquetas). Si queremos que el programa "interprete" las etiquetas debemos usar un navegador web. En este caso, si queremos usar un programa que interprete las etiquetas de las bases de datos TBX "terminologia-microsoft_us-es.tbx" podemos usar un programa como Virtaal (que tenéis accesible en la web de material de este encargo).

Si usamos el "Modo de navegación: Buscar", podemos usar el programa a modo de buscador y buscar las traducciones de los términos que queramos.

SUBAPARTADO "2.a)". Descarga primero la terminología relacionada con las plataformas, AQUÍ y abre después, la hoja de cálculo de Calc “terminologia-plataformas.ods”. Para el caso de la terminología de la PlayStation® no podemos acudir a un Portal Lingüístico, por lo que hacemos uso de una colección de terminología, de diferentes plataformas, que nos proporcionan en una hoja de cálculo en formato ODS (del programa "Calc" de OpenOffice").

(Esta captura de pantalla es, en realidad de la PlayStation4)

Descargamos el archivo “terminologia-plataformas.ods”, lo abrimos, y de las 12 pestañas inferiores que designan las diferentes consolas seleccionamos la "PlayStation®3".

Buscamos la traducción de los términos “settings”, “network”, “remote play” y “system” (solo los dos que te han sido asignados), propios de las consolas PlayStation® 3. Buscamos en la tabla correspondiente de "PlayStation®3" la traducción de los dos términos que tenemos asignados. Por ejemplo, en el caso de "settings" tendríamos:

Creamos con un editor de textos (por ejemplo, el “Bloc de notas” de Windows®) un archivo de texto denominado “terminologia-mia-playstation_us-es.txt” donde, por filas, aparezcan los 2 términos que te han sido asignados, en minúsculas, separados por tabuladores (“Tab-delimited Text File”), de manera que, para cada término, aparezca en cada fila: el término en inglés de la interfaz a traducir, un tabulador, y la propuesta de traducción al español de dicho término se propone. En total deberían ser 2 filas. Nos interesa tener los términos en formato “texto separados por tabuladores” (“Tab-delimited Text File”) porque este es el único formato de texto soportado por ApSic Xbench v. 2.9; el programa de gestión terminológica “fuera de línea” que usaremos más adelante.

(¡OJO! Entre los términos en inglés y en español hay un solo TABULADOR)

* * *

SEGUNDA CLASE (resumen)

VIDEOCLASE: https://cutt.ly/xr8EkclX

¡OJO, ESTA GRABACIÓN FUE ACTUALIZADA EL 21/10/2025 PARA INCLUIR EL APARTADO "3" DEL "TEXTO ESPECIALIZADO" QUE EXPLICA EL USO DE LA FUNCIÓN "LARGO()". ESTE APARTADO NO SE INCLUYÓ EN LA PRIMERA DE LAS GRABACIONES EFECTUADAS (DEL GRUPO P2). RUEGO DISCULPÉIS LAS MOLESTIAS! EL 21/10/2025 SE ENVIARON SENDOS CORREOS A TRAVÉS DEL FORO DEL MOOVI DE LA MATERIA EXPLICANDO LO SUCEDIDO Y DANDO LAS SOLUCIONES AL PROBLEMA CREADO.

VIDEOCLASE DE LA FUNCIÓN "LARGO()": https://cutt.ly/zr8EXsWK

¡AQUÍ TENÉIS LOS APROXIMADAMENTE 10' DE GRABACIÓN DE LA CLASE RELACIONADOS CON EL USO DE LA FUNCIÓN "LARGO()" DEL APARTADO "3" DEL "TEXTO ESPECIALIZADO" CDEL ENCARGO-3 DE LA PRÁCTICA-1.

EMPEZAMOS LA CLASE REPASANDO TODO LO HECHO EN LA CLASE ANTERIOR RELACIONADO CON EL APARTADO DEL "TEXTO ESPECIALIZADO". ESTÁ EXPLICADO EN LA CLASE ANTERIOR PERO EL RESUMEN APARECE EN LA GRABACIÓN DE LA CLASE.

SEGUIMOS CON LOS APARTADOS PENDIENTES.

SUBAPARTADO "2.b)". Guarda a formato de “Texto CSV (Comma-Separated Values o texto separado por comas)” la hoja que lleva por nombre “PlayStation®3” (¡Sólo esta! No las demás del Libro de Calc) con el nombre de “terminología-playstation3.csv” (es ya el nombre que le asignará por defecto Calc después de la exportación).

Para ello seleccionaremos primero la pestaña inferior “PlayStation®3” de la hoja de cálculo y, después, la opción "Archivo > Guardar como".

En primer lugar, cambiaremos el nombre del archivo a guardar por "terminología-playstation3" y el emplazamiento, si es el caso (que tiene que ser nuestra carpeta de trabajo).

En segundo lugar, debemos cambiar el "tipo" (formato) del archivo a guardar, del actual que es "Hoja de cálculo ODF (.ods), a "Texto CSV (.csv)".

En tercer lugar, debemos seleccionar la opción "Editar configuración de filtros"; ya que, si no lo hacemos, el programa guardará la base de datos separada por comas y no separada por tabuladores, como queremos. También debéis seleccionar la opción "extensión de archivo automática" si no está seleccionada, para que el programa añada la extensión ".csv" al nombre cuando guarde el archivo .

Por último, cuando le demos a "Guardar", nos pedirá que confirmemos que queremos "mantener el formato actual" (pulsando dicha opción); y que configuremos el texto a exportar a formato CSV. En este último caso debemos seleccionar como "delimitador de campos > {Tabuladores} (o {Tab}, según la versión de Calc que usemos)". Y, como "delimitador de texto > NADA (dejadlo en blanco)". Verificad también la opción "Conjunto de caracteres" para que muestre "Europa occidental (Windows-1252/WinLatin 1)" (es la opción por defecto pero en los ordenadores del aula todo el mundo cambia las opciones por defecto). Finalmente le dais a "aceptar"; y el programa os pedirá que confirméis que sabéis que solo se va a guardar la pestaña "PlayStation3" en el archivo destino (confirmais). Si abrís el fichero con el "Bloc de notas de Windows" podréis ver el resultado.

(¡OJO! Entre los términos en inglés y en español hay un solo TABULADOR)

SUBAPARTADO "3)". Abre el archivo anterior “terminología-playstation3.csv” con Calc y guárdalo en formato nativo ODS de las hojas de cálculo con el nombre de “terminología-playstation3.ods”. Entramos en Calc y con "Archivo > Abrir" abrimos el archivo “terminología-playstation3.csv”. Lo que pretendemos aquí es, simplemente, aprender a realizar el proceso inverso al anterior; pasar de CSV a ODS.

El programa, para importar el archivo, nos solicita los mismos datos que insertamos para el proceso inverso. Esto es: debemos seleccionar como "Separado por : tabulador". Y, como "delimitador de texto > NADA (dejadlo en blanco)". Verificad también la opción "Conjunto de caracteres" para que muestre "Europa occidental (Windows-1252/WinLatin 1)" (es la opción por defecto pero en los ordenadores del aula todo el mundo cambia las opciones por defecto). Debajo muestra el resultado final de como va a quedar (si no salen los acentos es una prueba de que algo está mal). Aceptáis.

Recordad que los programas ofimáticos actuales permiten trabajar con formatos ajenos al del programa usado y guardarlos también en dicho formato ajeno. Si verificáis la barra superior azul del programa veréis que el programa nos está indicando que está trabajando en el formato CSV.

Para guardar el archivo en formato ODS (de hoja de cálculo de Calc) debemos usar la opción "Archivo > Guardar como" y como "Tipo > Hoja de cálculo ODF (.ods)". Dejamos el mismo nombre y nos aseguramos que se va a guardar en nuestra carpeta de trabajo.

Sabemos que ha habido un cambio de formato de CSV a ODS porque el programa nos lo indica en la barra superior azul, en la extensión del nombre.

Ahora solo nos falta crear en el archivo "terminologia-playstation3-ods", en cada una de las celdas a la derecha de los términos en castellano, una fórmula para que calcule la longitud (el “largo”) del término en cuestión. Recordad que en la “localización” de software y de videojuegos es muy importante este aspecto ya que muchas veces la anchura del menú, ventana, cuadro, etc. condiciona la posible traducción del término.

Si abrimos la opción "Asistente: funciones" observaremos que las hojas de cálculo llevan ya creadas en el programa multitud de funciones. Una de ellas es "LARGO(X)", que calcula la longitud de la cadena o texto X. Cancelamos la vista del asistente de funciones.

Nos situamos en la celda C1 y creamos la función LARGO(X) para el valor de X = B1. Para ello, primero insertamos el signo igual ("="), después la función "LARGO" y, finalmente, entre comillas insertamos la celta de la cual queremos calcular su longitud (en nuestro caso la celda B1, el primer término traducido al español de la lista. Recordad que para introducir la designación de la celta podéis escribirlo manualmente o tocar con el botón izquierdo del ratón la celta en cuestión.

Esta acción debéis repetirla para cada celda de la columna "C", para cada término traducido al español de la columna "B". Podéis volver a realizar la fórmula, una por una (¡lentísimo!); copiarla en cada celda (también muy lento); o bien, seleccionar la primera celda donde está la fórmula, y arrastrar el borde inferior derecho con el botón derecho del ratón hacia abajo, hasta llegar a la última celda donde queremos copiar la fórmula (rapidísimo).

Si, por ejemplo, el/la cliente nos dijese que todos los términos traducidos no pueden tener una longitud más grande de 20 caracteres, entonces deberíamos "sacrificar la calidad de dicha traducción en aras a adaptar su longitud a su emplazamiento (ventana, botón, menú, etc.). Por eso este trabajo de "traducir + adaptar", propio de la traducción de páginas web, programas informáticos y videojuegos, se denomina "localizar".

Finalmente salimos y guardamos los cambios.

Llegados a este punto nuestro problema es que tenemos 4 bases de datos, de diferentes formatos y una sola de ellas tiene más de 29 000 términos (la base de datos terminológica en formato TBX de Microsoft). Para un/a traductor/a, consultar dichas bases de datos "manualmente" le conlleva muchísimo tiempo; tiempo del que no dispone o que debería destinar a traducir. Por ello se hace imprescindible usar programas informáticos y máquinas para estas tareas. Para nuestro caso usaremos el programa de control de calidad ApSIC Xbench; que actúa a modo de "cajón de sastre", almacenado material multi-formato y multi-lingüe, y permite la búsqueda rápida de traducciones a términos. Además permite etiquetar las entradas en "niveles de calidad". Este apartado LO DEJAMOS PARA LA SIGUIENTE CLASE, UNA VEZ REPASEMOS TODO LO HECHO en esta primera clase para crear las diferentes bases de datos; aunque en esta primera clase realicé una pequeña demostración de como proceder al respecto con el programa ApSic Xbench v. 2.9 (aparece también en la grabación de la clase).

SUBAPARTADO "4)". Crea un “Proyecto” en ApSic Xbench v. 2.9.

Instalamos ApSIC Xbench, si no está instalado en nuestro ordenador y lo abrimos

Se supone que el/la traductor/a está traduciendo (por ejemplo en su procesador de texto) su texto especializado y, en el momento en que tiene alguna duda sobre la traducción de un determinado término, consulta con el programa ApSIC Xbench la traducción del mismo. Es por ello que el programa ApSIC Xbench se queda "residente" en Windows (aparece en la barra inferior izquierda del sistema operativo) y "desaparece" de la pantalla principal), a la espera que el/la traductor/a solicite de nuevo su presencia. Si queremos salir del programa (y que este no se quede residente hasta que apagamos el ordenador), debemos tocar el icono del programa de la barra de programas residentes con el "botón derecho del ratón" y seleccionar "Shutdown Xbench".

Lo que haremos a continuación será insertar las cuatro bases de datos que hemos elaborado (2 relacionadas con Windows y 2 relacionadas con la PlayStation3) en el programa ApSIC Xbench; de manera que después podamos hacerle consultas a modo de buscador.

4.1. Añadimos la base de datos terminológica “terminologia-mia-windows_us-es.txt” al proyecto de ApSic Xbench v. 2.9 con el nivel de calidad o prioridad “baja” (“Low priority”), ya que “no nos fiamos” de la calidad de dicha traducción por ser nosotros/as mismos/as quienes hemos creado el archivo. El programa indicará dicho nivel bajo de calidad con el color azul (por defecto).

Empezamos seleccionando "Project > Properties".

A continuación seleccionamos "Add (Files to Project)" y el tipo de formato "Tab-delimited Text File" (ya que el archivo terminológico en cuestión es un archivo de texto donde el separador de los términos original y traducido es un tabulador), y "Next".

Seleccionamos "Add File" y cargamos de nuestra carpeta de trabajo el archivo "termimnologia-mia-windows_us-es.txt". Pulsamos "Next".

Seleccionamos la calidad de la fuente (o nivel de prioridad) con la opción "Priority". Le asignamos el valor "Low" (bajo), porque desconfiamos de nosotros/as mismos/as, y el programa le asignará por defecto el color azul.

4.2. Añadimos la base de datos terminológica “terminologia-mia-playstation_us-es.txt” al proyecto de ApSic Xbench v. 2.9 con el nivel de calidad o prioridad “baja” (“Low priority”), ya que “no nos fiamos” de la calidad de dicha traducción por ser nosotros/as mismos/as quienes hemos creado el archivo. El programa indicará dicho nivel bajo de calidad con el color azul (por defecto). Para ello repetimos los mismos procesos del archivo anterior, excepto en el momento de seleccionar el archivo a cargar que, en este caso, será el “terminologia-mia-playstation_us-es.txt”

4.3. Añadimos la base de datos terminológica “terminologia-playstation3.csv” al proyecto de ApSic Xbench v. 2.9 con el nivel de calidad o prioridad “Medium” (“Medium priority”), ya que nos “fiamos a medias” de la calidad de la traducción que nos ha facilitado el cliente “terminología-playstation3.csv”. Tened en cuenta que, aunque la extensión del archivo sea CSV, este tipo de archivo es, en realidad un “archivo de texto CSV” (en otras palabras, es equivalente a la extensión TXT).

A priori debemos proceder de igual manera que en los dos ejemplos anteriores; pero, al llegar el momento de cargar el archivo "terminologia-playstation3.csv", el programa no muestra dicho archivo para cargar. Ello se debe a que el programa ApSIC Xbench contiene un "error" (bug, en inglés) de programación; ya que muestra como formatos de texto solo el TXT, cuando debería mostrar también otros formatos de texto como el CSV.

Este "error" es más común de lo que uno/a desearía en los programas. Para solucionarlo basta con abrir la opción de "Tipos" (formatos) y pedirle al programa que muestre todos los archivos de la carpeta de trabajo ("All Files (*.*)"). De esta manera aparecen TODOS los archivos de la carpeta y podemos seleccionar "terminologia-playstation3.csv". El programa lo procesará sin problema alguno ya que, a pesar de no tener la extensión TXT, se trata de un archivo con el mismo formato de los dos anteriores.

La única diferencia con los dos ejemplos anteriores es que, el nivel de calidad o prioridad que le otorgaremos será el de “Medium” (“Medium priority”), ya que nos “fiamos a medias” de la calidad de la traducción que nos ha facilitado el cliente “terminología-playstation3.csv”. El programa le asignará el color marrón.

4.3. Por último, añadimos la base de datos terminológica “terminologia-microsoft_us-es.tbx” al proyecto de ApSic Xbench v. 2.9 con el nivel de calidad o prioridad “alta” (“High priority”), ya que nos “fiamos completamente” de la calidad de la traducción de Microsoft®.

Procederemos, a priori, de manera análoga a los 3 ejemplos anteriores, pero: en el caso del formato del archivo le diremos que es "TBX"; y, en el caso del nivel de calidad o de prioridad le diremos "High" (y el programa le asignará el color verde).

Otra diferencia respecto a los 3 ejemplos anteriores es que, antes de añadir el archivo al proyecto, al tratarse de un archivo TBX de etiquetas, el programa nos da la oportunidad de elegir cuál queremos que sea la lengua fuente u origen (source, en inglés) y cuál queremos que sea la lengua meta o destino (target, en inglés); seleccionando las etiquetas "en-US" o "es-es", en función de si queremos que sea el inglés (de los EEUU) o el español (de España). Este proceso permite "girar" la memoria terminológica (hablaríamos de traducción directa o de traducción inversa). Seleccionaremos "en-US" como lengua fuente y "es-es" como lengua meta. Pulsaremos "OK".

Una vez tengamos los 4 archivos terminológicos insertados en el programa ApSIC Xbench confirmaremos la inserción con "OK". El programa procederá a cargar todos los registros de las 4 bases de datos. Una vez finalizado el proceso podemos hacer consultas terminológicas respecto al texto fuente (source text) o al texto meta (target text).

Observaciones sobre ApSICXbench:

Si con posterioridad a la primera adición de archivos modificamos la configuración de los mismos y/o añadimos nuevos archivos, hay que ACTUALIZAR la información contenida en ApSIC Xbench pulsando la tecla <F5>. Más información sobre el programa en http://www.apsic.com/download/ApSIC.Xbench.2.9.UserGuide.ES.pdf

ApSIC Xbench es una aplicación que, una vez iniciada, se debe cerrar de manera explícita si ya no es necesaria. Por lo general, se carga el proyecto de referencia para buscar terminología mientras se traduce y queda en un segundo plano hasta que se termina el trabajo de traducción. Cerrar la ventana de ApSIC Xbench no implica quitar el programa de la memoria porque sigue esperando la próxima búsqueda mediante la secuencia de teclas <Ctrl+Alt+Ins> en cualquier otro programa (p.ej., en tu procesador de texto) o la secuencia que tú establezcas por defecto en "Tools > Settings" del programa ApSIC Xbench. Observación: Si bien con la combinación de teclas Word o Writer debería conectar con ApSIC Xbench, en la práctica, NO FUNCIONA con Writer (sí con Word). Seguramente porque Writer no está "depurado" o porque la versión de ApSIc Xbench no está actualizada (recordad que la última versión es de pago).

Para cerrar ApSIC Xbench, se tienen las siguientes opciones: Hacer clic derecho en el icono de ApSIC Xbench (una gema rosa) ubicado en la bandeja del sistema y hacer clic en "Shutdown Xbench". O, en el menú "Project", hacer clic en "Shutdown Xbench".

Por ejemplo, en mi caso, si en mi caso consulto el "término fuente" ("source text", en inglés) "add" que se supone fue uno de los que me fue asignado para este encargo; el resultado de la consulta sería.

Observamos que el programa devuelve las posibles traducciones de dicho término, indicándonos con colores la prioridad o nivel de calidad que le hemos otorgado y la fuente original de las mismas. Además, en el caso de Microsoft, nos da también la definición del término (que es una de las etiquetas "a mayores" que tenía la base de datos TBX).

Para acabar, guardamos el archivo de ApSIC Xbench con el nombre de "texto-especializado.xbp".

Recordad que todos los materiales de este encargo debes guardarlos en una única carpeta que debes llamar “PRIMERAPELLIDO-SEGUNDOAPELLIDO-NOMBRE” y que deberás comprimir y mandar a través del MooVi de la materia con el nombre de “PRIMERAPELLIDO-SEGUNDOAPELLIDO-NOMBRE.zip”. Son, en total 17 archivos y 2 carpetas que debes copiar en una carpeta, comprimir y “subir” al MooVi.

1) Tenéis que guardar todos los archivos generados en el PRIMER APARTADO (texto literario) en una subcarpeta denominada “texto-literario”.

2) Tenéis que guardar todos los archivos generados en el SEGUNDO APARTADO (texto especializado) en una subcarpeta denominada “texto-especializado”.

Para saber exactamente cuáles son los archivos a entregar podéis consultar el final del enunciado del encargo-3.

Solo nos faltaría comprimir LA CARPETA "PRIMERAPELLIDO-SEGUNDOAPELLIDO-NOMBRE", en Windows-10, seleccionándola, y, con el botón derecho del ratón seleccionar "Enviar a > Carpeta comprimida (en zip)".

Solo faltaría subir el archivo "PRIMERAPELLIDO-SEGUNDOAPELLIDO-NOMBRE.zip" al MOOVI DE LA MATERIA en el supuesto de que tengáis que entregar este encargo. Como ya entregáis el encargo directamente en la tarea del MooVi NO HACE FALTA subir con posterioridad ningún archivo PDF de confirmación de la realización del encargo.

***

CON ELLO ACABAMOS EL ENCARGO-3 DE LA PRÁCTICA-1

***

Blog de Joan Miquel-Vergés Curso 2025-2026

jueves, 16 de octubre de 2025

Semana 6 del 13/10/2025 al 19/10/2025

SEMANA NÚMERO 06 (S-06)

No hay comentarios:

Publicar un comentario