¿Qué es?
Durante los años 2017 y 2020, se llevó a cabo el Proyecto FONDECyT Regular 11710 23 (Agencia Nacional de Investigación y Desarrollo, Chile) una metodología para la Traducción Automática del Conocimiento Médico (TACM). Esta consiste en tareas de simplificación textual mediante el procesamiento de información lingüística. A continuación, se presenta el resumen de dicho proyecto.
Desde hace tiempo, se han venido desarrollando numerosos trabajos que abordan la compleja relación entre la producción del conocimiento científico y su utilización y aprovechamiento por parte de la sociedad (García Godoy, 2014). Uno de los aspectos cruciales de este fenómeno es la comunicación que se debe establecer entre la comunidad científica y el público interesado, los cuales se rigen por tiempos, prioridades y, fundamentalmente, lenguajes diferentes (Báscolo, Yavich, Ponce, Bailey, D’Àvila, Viana, Cardona y Saldarriaga, 2011). En el caso puntual del área médica, se han desarrollado diversas actividades orientadas a la interpretación de la información, y, en el año 2000, el Canadian Institutes of Healt Research (CIHR) acuñó el concepto de Traducción del Conocimiento (TC) (Knowledge Translation) para referirse al intercambio, síntesis y aplicación ética del conocimiento médico, mediante un complejo sistema de interacción entre investigadores y usuarios (CIHR, 2005). Ahora bien, una cuestión crucial en esta área es la que se deriva de que los textos que vehiculicen el conocimiento producido sean presentados en un lenguaje claro y accesible para el público lego. En relación con esto último, se han realizado diversos estudios centrados en las particularidades de los textos médicos de divulgación científica (Nwogu, 1991; Gallardo, 2005; Hang, 2013) y de la interacción médico-paciente (Rodríguez, 2008; Moore, Gómez, Kurtz & Vargas, 2010). No obstante, no se han encontrado trabajos que se focalicen en la traducción del conocimiento médico desde una perspectiva de la traducción automática que posibilita la lingüística computacional. A tales efectos, en la investigación aquí propuesta, se desarrolla una metodología que explore las posibilidades de traducción automática del conocimiento médico (TACM) en relación con la explicitación, entendida esta como la técnica de traducción que consiste en evidenciar en un texto meta información implícita en un texto de origen (Herrezuelo, 2008; Alcántara, 2013; Soto, 2013) y reglas transformacionales de reescritura (M. Gross, 1975; Messina & Langella, 2015; Silberztein, 2016); todo esto, a partir del análisis automático de la estructura argumental que desarrollan las unidades léxicas del dominio médico, según sus posibilidades de significado.
A fin de lograr dicho objetivo, se consideró la polisemia de las unidades léxicas, llevando a cabo una descripción formal de estas, a partir de los planteos teóricos propuestos por la Teoría del Lexicón Generativo (TLG) (Pustejovsky, 1995; 2006; 2011) y la Léxico-Gramática (LG) (M. Gross, 1975, 1998). Dicha información es implantada computacionalmente para detectar las estructuras argumentales proyectadas por las unidades léxicas de acuerdo con los significados que activen y, posteriormente, a partir de ellas, generar estructuras parafraseadas mediante explicitación y reestructuraciones sintácticas.
Para las labores informáticas, se recurrió al software libre NooJ, desarrollado por Silberztein (2005; 2016), que cuenta con diversas utilidades para el tratamiento de lenguaje natural: (i) Gramáticas morfológicas y derivacionales (archivos .nof): gramáticas que compilan modelos de flexión y derivación; (ii) Diccionarios (archivos .dic): listas de palabras con diversos tipos de información lingüística; (iii) Gramáticas productivas (archivos .nom): sistemas regulares o gráficos útiles para el tratamiento cadenas de caracteres con determinadas propiedades formales (por ejemplo, se podría hacer una gramática productiva para reconocer toda nominalización terminada en ‘-ción’ mediante la regla ‘Letra<>1+ción’), y (iv) Gramáticas sintácticas (archivos .nog): sistemas regulares o gráficos útiles para el tratamiento de cadenas de caracteres formadas por dos o más unidades léxicas, generalmente, separadas por espacios en blanco.
Concretamente, se requieren tres tareas computacionales específicas. En primer lugar, es necesario elaborar un diccionario electrónico que contenga la traducción de términos especializados en expresiones simplificadas. En segundo lugar, se deben desarrollar gramáticas informáticas que permitan detectar la estructura argumental de los predicados de las unidades léxicas en textos de lenguaje natural. Finalmente, en tercer lugar, deben aplicarse reglas de reescritura que permitan generar expresiones parafraseadas y con explicitación del significado.
Integrantes del equipo
Walter Koza
Investigador Responsable del Proyecto FONDECyT 1171033.
Ninoska Godoy Estay
Es Profesora de Lenguaje y Comunicación, Licenciada en Lengua y Literatura Hispánica de la Pontificia Universidad Católica de Valparaíso.
Becaria Proyecto FONDECyT 1130469 Tesis para obtención de grado de Licenciada en Lengua y Literatura Hispánica. El Sintagma Negación en las expresiones de opinión: formalización de estructuras negativas para reconocimiento automático en un corpus de comentarios de libros, presentada como ponencia en 2016, en IX Encuentro Nacional de Estudios del Discurso ALED Chile y en 2017 mejorando la propuesta inicial con la elaboración de una escala de graduación con la propuesta El sintagma negación. Gradación de polaridad en la minería de opinión en un corpus de comentarios de libros en español en XXII Congreso Internacional de la Sociedad Chilena de Lingüística El Lenguaje en el Siglo XXI.
En Fondecyt 1171033: Traducción automática del conocimiento médico. Propuesta basada en explicitación y reglas transformacionales, ha participado como personal técnico participando en diversas publicaciones.
Natalia Rivas Folch
Natalia Rivas Folch es Magíster en Evaluación Educacional de la Universidad de Playa Ancha de Ciencias de la Educación y profesora de Castellano y Comunicación, licenciada en Lengua y Literatura Hispánica, egresada de la Pontificia Universidad Católica de Valparaíso (Chile). Ha participado en el Proyecto FONDECyT 1171033 como becaria y personal técnico. Cuenta con diversas participaciones en congresos de lingüística y artículos publicados en revistas de la especialidad.
Constanza Suy
Docente de Castellano y Comunicación. Licenciada en Lengua y Literatura Hispánica. Ambos títulos obtenidos en la Pontificia Universidad Católica de Valparaíso (Chile) Actualmente, ejerce la docencia en establecimientos de educación secundaria y superior. Forma parte del personal técnico en el Proyecto FONDECyT 1171033 (Comisión Nacional de Investigación Científica y Tecnológica, Chile) dirigido a la traducción automática del conocimiento médico. Sus áreas de investigación son la sintaxis del español y la lingüística computacional.
Hazel Barahona Gamboa
Candidata a Doctora en Lingüística por la Pontificia Universidad Católica de Valparaíso. Magíster en Lingüística en la Universidad de Costa Rica y Licenciada en Literatura y Lingüística con énfasis en español en la Universidad Nacional de Costa Rica. Personal técnico en el Proyecto FONDECyT 1171033 (Comisión Nacional de Investigación Científica y Tecnológica, Chile) dirigido a la traducción automática del conocimiento médico. Áreas de interés en lingüística computacional, gramática del español, gramática generativa.
Javiera Jacobsen Mínguez
Estudiante de Pedagogía en Castellano y Comunicación de la Pontificia Universidad Católica de Valparaíso.
Participa como personal técnico en FONDECyT 1171033 de Traducción automática del conocimiento médico. Propuesta basada en explicitación de reglas transformacionales.
Becaria proyecto FONDECyT 1171033, Tesis para obtención de grado de Licenciada en Lengua y Literatura Hispánica (mención en Lingüística Aplicada). “Análisis de los predicados de hallazgo del español desde el marco de la léxico-gramática”.
Romanet Contreras Escobar
Estudiante de Pedagogía en Castellano y Comunicación y Tesista de Licenciatura en Lingüística y Literatura mención Lingüística Aplicada de la Pontificia Universidad Católica de Valparaíso.
Personal técnico en el Proyecto FONDECyT 1171033 de Traducción automática del conocimiento médico. Propuesta basada en explicitación de reglas transformacionales.
Ayudante del curso Introducción a los Estudios Gramaticales en las carreras Pedagogía en Castellano y Comunicación y de Licenciatura en Lingüística y Literatura de la Pontificia Universidad Católica de Valparaíso.
Francisca Saiz Navarro
Es estudiante de Pedagogía en Castellano y Comunicación con mención en lingüística aplicada de la Pontificia Universidad Católica de Valparaíso.
Participa como personal técnico en FONDECyT 1171033 de Traducción automática del
conocimiento médico. Propuesta basada en explicitación de reglas transformacionales.
Becaria proyecto FONDECyT 1171033, Tesis para obtención de grado de Licenciada en Lengua y Literatura Hispánica (mención en Lingüística Aplicada). “Polisemia preposicional: identificación de significados en las preposiciones ‘con’, ‘en’ y ‘por’ desde el marco de la teoría del lexicón generativo”.
Mirian Araya
Licenciada en Lengua Inglesa y Traductora Inglés – Español con experiencia en transcripción, traducción y edición de textos físicos y digitales, así como subtitulaje y doblaje. Miembro activo en proyectos de investigación del Dr. Walter Koza de la PUCV en el marco de la Lingüística Computacional.
Recursos
Aquí se puede descargar parte de los recursos desarrollados para la TACM. Se incluyen diccionarios electrónicos y gramáticas informáticas para análisis automático de textos médicos del español.
Enlace de descarga (archivo .ZIP)
Para el manejo de la herramienta NooJ, visitar: http://www.nooj-association.org/