La IA como ayuda para aprovechar al máximo la información médica presente en grandes cantidades de documentos

5 de marzo de 2021

La catedrática Lourdes Araujo mostró en Ourense el trabajo científico que se realiza en este campo desde el Departamento de Lenguajes y Servicios Informáticos de la UNED

OURENSE, 5 de marzo de 2021.- La catedrática de la UNED, Lourdes Araujo expuso esta mañana en Ourense la extracción de información en documentos del dominio médico. Lo hizo desde el Centro de Intelixencia Artificial del Concello de Ourense. Se trata, dijo, de hacer que la comunicación con los ordenadores sea lo más cómoda posible para los profesionales del sector, así como de aprovechar todo lo posible la información que se encuentra en las enormes cantidades de documentos existentes. Se parte de documentos en formato electrónico, pasando de una información no estructurada a otra estructurada mediante el procesamiento de la primera. La ponente puso el ejemplo de un informe médico que dice: “Paciente varón de 86 años con antecedentes de TBC pulmonar, refiere F no cuantificada desde hace dos semanas, así como tos esporádica productiva y pérdida de peso”. De aquí se procesa la información para quedar estructurada del siguiente modo:

Documento: Informe de urgencias

Sexo: Hombre
Edad: 86
Antecedentes: tuberculosis pulmonar
Síntomas:

Fiebre no cuantificada

Tos esporádica productiva

Pérdida de peso

Tiempo: dos semanas

La notación de conceptos y la asignación de códigos se hace en la mayor parte de los casos manualmente en hospitales, por los propios médicos o por expertos en la anotación. Estas codificaciones son fundamentales para disponer de un lenguaje común entre el hospital, las instituciones, la investigación, el centro de salud y el paciente.

Lourdes Araujo citó algunas terminologías médicas y codificación tales como: Snomed, Mesh, ICD o UML. Las técnicas de extracción de información pueden ser de gran ayuda para facilitar los procesos de codificación que a su vez son fundamentales para cruzar información y explotarla adecuadamente.

Sistema internacional de clasificación de enfermedades y problemas de salud. Usado por sistemas de salud

En cuanto a las dificultades específicas que presenta el procesamiento de textos en el dominio médico, figuran:

Ambigüedad léxica,
Acrónimos y abreviaturas, por ejemplo AAC que puede ser acrónimo de äcido aminocaproico, o de Actividad anticomplementaria, o de alopecia areata circunscrita; incluso puede ser acrónimo de Angiopatía aminloidea cerebral, de Anticuerpos anticardiolípidicos, etc.
Erratas en la escritura
Negación y su ámbito:

Especulación:

Conceptos expresados en lenguaje libre: síntomas, discapacidades, etc.

En cuanto a la extracción de información, la ponente mencionada conceptos (entidades): enfermedades, medicamentos, síntomas, procedimientos, etc. También relaciones entre conceptos: cura, produce, coaparece, etc; identificación de la negación y su ámbito, además de expresiones y relaciones temporales.

Entre los principales enfoques para la extracción de información, están las técnicas clásicas de procesamiento del lenguaje natural (PNL) y el aprendizaje, ya sea supervisado o no. Con objeto de ilustrar el funcionamiento y las diferencias entre los distintos enfoques, la ponente presentó dos problemas, uno de identificación de conceptos y otro de extracción de relaciones.

La identificación de menciones a discapacidades en textos es un problema que no se ha tratado hasta hace poco tiempo y que tiene mucha relevancia, ya que hay una gran parte de la población afectada. Estos conceptos se pueden expresar en un lenguaje muy libre:

- Sordera

- Capacidad auditiva limitada

- Problemas de audición

- No oye de una fuente de sonido cercana

- Limitaciones de movilidad

- Necesita ayuda para andar

- etc.

Para abordar la anotación con un enfoque clásico, lan con un enfoque clásico, la doctora Araujo menciona la obtención de cada oración, identificación de los sintagmas nominales (SN) (análisis sintáctico), identificación de palabras de discapacidad, de función corporal o mental, y de impedimento; obtención de variantes a partir de los SNs (varios niveles), variantes derivacionales (Wordnet), sinónimos (Wordnet) y negación, cuantificadores, especulación.

Así mismo presentó un problema de identificación de relaciones entre efectos adversos y medicamentos, en este caso abordado con técnicas basadas en grafos. En ambos ejemplos, la doctora Araujo puso el énfasis en la facilidad con la que se interpretan las predicciones de los modelos presentados.

Antes de pasar a ilustrar la aplicación de métodos de aprendizaje automático a los ejemplos anteriores, se refirió a aspectos relacionados con la evaluación y los datos, que no sólo son necesarios para la evaluación, sino también para el entrenamiento de sistemas en aprendizaje automático.

Lourdes Araujo citó las medidas de evaluación más usuales que son:

Precisión: fracción de predicciones del modelo propuesto acertadas (coinciden con los datos de referencia).
Cobertura (recall): fracción de los datos de referencia que han sido propuestas por el modelo evaluado.
Medida-F: media armónica de precisión y cobertura.
Otras medidas específicas de problemas concretos.

Habló la ponente de la importancia de las campañas de evaluación y de las colecciones de datos de referencia o corpus, que permiten evaluar los sistemas y compararlos de forma justa, lo que es fundamental para el avance del área. Citó varias campañas de evaluación:

IberEval 2018: DIANN (anotacion de discapacidades en inglés y español).
IberLef 2019: Ehealth (identificación de frases claves en documentos médicos y detección de relaciones semánticas).
Social Media Mining for Health Applications 2019 (detección de efectos adversos en tuits).

Habló de la compilación de textos en formato electrónico para evaluar sistemas, como marco común para comparar técnicas alternativas y para entrenar los sistemas de aprendizaje automático supervisados.

La ponente ilustró los métodos supervisados como la tabla de pacientes, con atributos o rasgos (temperatura, tos, dolor de garganta, sinusitis) y clase, para ver los que tienen o no gripe, por ejemplo. También citó el árbol de decisión para la gripe estructurado del siguiente modo mostrado en la imagen:

Presentó también ejemplo de cómo se podrían abordar los casos considerados de detección de discapacidades y de relaciones como los efectos adversos a medicamentos con redes neuronales profundas y utilizando vectores de baja dimensión que permiten el aprendizaje por transferencia. La ponente señaló ventajas como la poca ingeniería de diseño que requieren estos sistemas y sus buenos resultados.

Lourdes Araujo señaló que DL supera los resultados de otros modelos en muchas aplicaciones. En algunos casos se dan resultados espectaculares, incluso superando a los humanos y apenas necesita ingeniería de diseño del sistema. Sin embargo, en el dominio médico, las predicciones de los sistemas tienen que justificarse, lo que no es posible con los modelos de caja negra como el de DL. Pero, añade, tiene sus limitaciones, por ejemplo, el sesgo de datos o una falta de robustez, es decir, pequeñas perturbaciones que pueden cambiar el resultado de forma notable.

Para buscar las explicabilidades de las predicciones de este tipo de sistemas, la doctora Araujo habla de aproximaciones, mediante sistemas transparentes y explicaciones post-hoc, analizando la relación entre la entrada y la salida ya obtenida, con técnicas post-hoc agnósticas, aplicables a cualquier modelo no transparente sin importar su estructura interna mediante modelos aproximados: lineales, árboles de decisión, sistemas de reglas; y técnicas post-hoc específicas para un modelo concreto analizando detalles de ese modelo.

Entre los retos en este campo de la extracción de datos de la documentación médica mencionó disponer de sistemas de ayuda al diagnóstico fiables, explicativos (deben explicar en qué se basan sus recomendaciones); generalizables, eficientes en tiempo real y fáciles de actualizar. Esos sistemas requieren, según expuso la catedrática de la UNED: sistemas de extracción de información precisos, sistemas de anonimización y sistemas que manejen eficientemente grandes volúmenes de datos. También mencionó sistemas para hacer la información accesible, es decir, información clara para los pacientes. De igual modo el problema de la detección de noticias falsas, que puede ser muy grave en el dominio médico. Por último, disponer de sistemas de ayuda a la codificación de informes médicos mediante propuesta de códigos a asignar e un informe y asignación de códigos a conceptos.

Este seminario de IA de la UNED cuenta con el patrocinio del Vicerrectorado de Investigación y Transferencia del Conocimiento y Divulgación Cientifica de la Universidad. La próxima cita será el viernes, 12 de marzo, con el profesor de la UNED, doctor David Moreno Salinas, que hablará de IA y ciencia de datos para identificar y modelar vehículos autónomos.

Ver la conferencia de Lourdes Araujo pinchando aquí.

UNED Ourense