No han pasado ni dos meses desde el lanzamiento del fabuloso ChatGPT, el bot de inteligencia artificial creado por OpenAI, y las opiniones sobre sus potenciales beneficios y consecuencias oscilan entre el máximo optimismo de automatizar gran parte de las actividades digitales y la perspectiva de perder enorme terreno frente al poder generador de este bot que puede escribir ensayos académicos o hacer planes de negocios y rutinas de dieta saludable para preparar una maratón.
El alcance de esta tecnología, que recién está en su fase de prueba, es enorme y desconocido. Pero ya hay quienes están haciendo lo que mejor se puede hacer con una tecnología revolucionaria: probar las formas en que podría beneficiar a quienes más lo necesitan. Y es con esto en mente que un grupo de investigadores descubrió que la tecnología subyacente a ChatGPT también podría ayudar a detectar los primeros signos de la enfermedad de Alzheimer, lo que permitiría diagnosticar antes esta devastadora enfermedad neurodegenerativa.
La detección precoz del Alzheimer puede mejorar significativamente las opciones de tratamiento y dar tiempo a los pacientes para introducir cambios en su estilo de vida que ralenticen su progresión. Sin embargo, el diagnóstico de la enfermedad suele requerir imágenes cerebrales o largas evaluaciones cognitivas, que pueden resultar caras y lentas, por lo que no son adecuadas para un cribado generalizado, afirma Hualou Liang, catedrático de Ingeniería Biomédica de la Universidad Drexel de Filadelfia.
Una vía prometedora para la detección precoz del Alzheimer es el análisis automatizado del habla. Uno de los síntomas más comunes y evidentes de la enfermedad son los problemas con el lenguaje, como errores gramaticales, pausas, repeticiones u olvidos del significado de las palabras, afirma Liang. Esto ha suscitado un creciente interés por el uso del aprendizaje automático para detectar los primeros signos de la enfermedad en la forma de hablar de las personas.
Pero Liang y sus colegas querían ver si podían reutilizar la tecnología de ChatGPT, el gran modelo lingüístico GPT-3 de OpenAI, para detectar los signos reveladores del Alzheimer. Descubrieron que podía discriminar entre transcripciones del habla de pacientes con Alzheimer y de voluntarios sanos lo suficientemente bien como para predecir la enfermedad con una precisión del 80%, lo que representa el rendimiento más avanzado. "Estos grandes modelos lingüísticos como el GPT-3 son tan potentes que pueden detectar este tipo de diferencias sutiles", afirma Liang. "Si el sujeto tiene algún tipo de problema [relacionado con] el Alzheimer, y eso ya se refleja en el lenguaje, la esperanza es que podamos utilizar el aprendizaje automático para captar este tipo de señales que nos permitan hacer diagnósticos tempranos".
Los investigadores probaron su método con una colección de 237 grabaciones de audio tomadas de voluntarios sanos y enfermos de Alzheimer, que se convirtieron en texto utilizando un modelo de reconocimiento del habla previamente entrenado. Para conseguir la ayuda de GPT-3, los investigadores utilizaron una de sus funciones menos conocidas. Su API permite introducir un fragmento de texto en el modelo y obtener lo que se conoce como "incrustación", una representación numérica de un fragmento de texto que codifica su significado y puede utilizarse para evaluar su similitud con otro texto.
Aunque la mayoría de los modelos de aprendizaje automático trabajan con incrustaciones de palabras, una de las novedades de GPT-3, según Liang, es que es lo bastante potente como para producir incrustaciones de párrafos enteros. Y debido al gran tamaño del modelo y a la enorme cantidad de datos utilizados para entrenarlo, es capaz de producir representaciones muy ricas del texto.
Los investigadores utilizaron esta capacidad para crear incrustaciones de todas las transcripciones de pacientes de Alzheimer y de personas sanas. A continuación, tomaron una selección de estas incrustaciones, combinadas con etiquetas que indicaban de qué grupo procedían, y las utilizaron para entrenar clasificadores de aprendizaje automático que distinguieran entre los dos grupos. Cuando se probó con transcripciones que no se habían visto, el mejor clasificador alcanzó una precisión del 80,3%, según un artículo publicado en PLOS Digital Health.
Esta cifra es significativamente mejor que el 74,6 por ciento que obtuvieron los investigadores cuando aplicaron a los datos del habla un método más convencional, basado en características acústicas que deben ser minuciosamente identificadas por expertos. También compararon su técnica con varios métodos avanzados de aprendizaje automático que también utilizan grandes modelos lingüísticos, pero incluyen un paso adicional en el que el modelo se ajusta laboriosamente utilizando algunas de las transcripciones de los datos de entrenamiento. Igualaron el rendimiento del modelo superior y superaron a los otros dos.
Curiosamente, cuando los investigadores probaron el ajuste fino, el rendimiento del modelo GPT-3 disminuyó. Esto puede parecer contraintuitivo, pero Liang señala que probablemente se deba al desajuste de tamaño entre la gran cantidad de datos utilizados para entrenar GPT-3 y la pequeña cantidad de datos de entrenamiento específicos del dominio disponibles para el ajuste fino.
Aunque el equipo consigue resultados punteros, Frank Rudzicz, profesor asociado de informática en la Universidad de Toronto, afirma que depender de modelos privados para llevar a cabo este tipo de investigación plantea algunos problemas. "En parte, la limitación que suponen estas API cerradas es que tampoco podemos inspeccionar o modificar en profundidad el funcionamiento interno de esos modelos ni realizar un conjunto más completo de experimentos que nos ayuden a dilucidar posibles fuentes de error que debamos evitar o corregir", afirma.
Liang también es sincero sobre las limitaciones del método. El modelo no es ni de lejos lo bastante preciso para diagnosticar correctamente el Alzheimer, afirma, y cualquier aplicación de este tipo de tecnología en el mundo real sería un paso inicial de cribado diseñado para dirigir a las personas hacia un especialista para una evaluación médica completa. Como ocurre con muchos enfoques basados en IA, también es difícil saber exactamente qué detecta el modelo cuando detecta Alzheimer, lo que puede suponer un problema para el personal médico. "El médico, de forma muy natural, preguntaría por qué se obtienen estos resultados", dice Liang. "Quieren saber qué característica es realmente importante".
No obstante, Liang cree que el método es muy prometedor y él y sus colegas planean crear una aplicación que pueda utilizarse en casa o en la consulta del médico para simplificar la detección de la enfermedad.


