MESINESP2: Medical Semantic Indexing in Spanish

La BNCS participa en la organización de una competición de indexación semántica de literatura científica, ensayos clínicos y patentes, en español. Es un proyecto incluido en el Plan de Impulso de las Tecnologías del Lenguaje (Plan TL), que organiza tareas colaborativas o competitivas conocidas como shared tasks o challenge tasks/tracks.

Estas tareas, permiten evaluar de forma independiente, con métodos científicos y usando conjuntos de datos bien definidos, la calidad de los resultados obtenidos por los sistemas y algoritmos predictivos que participan en ellas.

En estos momentos la campaña de evaluación en marcha en la que colabora la BNCS es MESINESP2 (Medical Semantic Indexing in Spanish Shared Task).

MESINESP2 es una competición para desarrollar herramientas automáticas de indexación semántica en español de literatura científica, ensayos clínicos y patentes, que se organiza  dentro del proyecto BioASQ de indización de literatura biomédica.

MESINESP2 (Medical Semantic Indexing in Spanish Shared Task) pertenece al proyecto BioASQ de indización de literatura biomédica Clic para tuitear

La tarea de indización de literatura científica, es una tarea documental, altamente especializada y compleja, requiere la lectura del documento y seleccionar los términos que describen ese contenido, por lo que también es costosa en tiempo y recursos. Esa es la motivación principal de MESINESP2, construir una herramienta, basada en PLN, que realice esta indización de forma automática.

El objetivo de MESINESP2 es construir una herramienta basada en el Procesamiento del Lenguaje Natural que realice la indización de literatura biomédica, ensayos clínicos y patentes de forma automática Clic para tuitear

Los sistemas de PLN, basados en inteligencia artificial, requieren para su desarrollo, de un “entrenamiento” de la máquina, que tiene que “aprender” a leer los textos y a extraer los contenidos. Para ello, se necesita un corpus de documentos. MESINESP2 obtiene este corpus de la base de datos IBECS gestionada por la BNCS, y la base de datos LILACS gestionada por BIREME, ambas incluidas en la BVS (Biblioteca Virtual en Salud) (https://bvsalud.org/es/  https://bvsalud.isciii.es/)

MESINESP2 utilizar el corpus de las bases de datos IBECS y LILACS de la BVS indizadas con los descriptores DeCS Clic para tuitear

Además de facilitarle los textos, la máquina necesita contenidos ya indizados para poder “aprender” a ejecutar la tarea. En este caso, la herramienta de indización, el DeCS, también procede de IBECS y LILACS,  únicas bases de datos con literatura científica, en español indizada con este tesauro, desarrollado por BIREME y en el que colabora también la BNCS.

Se puede acceder a los conjuntos de datos que se van a utilizar en  la tarea competitiva en Zenodo y a información complementaria del proyecto en: https://temu.bsc.es/mesinesp2/

Cuando la tarea ahora en marcha este completada y evaluada, informaremos de los resultados y de las posibles aplicaciones prácticas.

 


Autoras: Elena Primo Peña y Cristina Bojo Canales. Biblioteca Nacional de Ciencias de la Salud. Instituto de Salud Carlos III. Contacto: bncs@isciii.es

 

Marcar como favorito enlace permanente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *