La velocidad a la que podemos hablar de modo común y corriente es de unas 150 a 160 palabras por minuto aproximadamente. Es una vara que en un principio podemos considerar alta, pero, aun así, supone un límite para nuestra habilidad comunicativa y nuestro aprendizaje. Esa vara ha sido una meta elusiva para las interfaces neuronales enfocadas en traducir los pensamientos, especialmente de personas parapléjicas, en texto o voz. Pero eso parece estar a punto de cambiar.
Los implantes de voz, que llevan décadas desarrollándose, utilizan minúsculos conjuntos de electrodos insertados en el cerebro para medir la actividad neuronal y transformar los pensamientos en texto o sonido. Tienen un valor incalculable para las personas que pierden la capacidad de hablar por parálisis, enfermedad u otras lesiones. Pero también son increíblemente lentos: multiplican por diez el número de palabras por minuto. Al igual que una página web o un archivo de audio de carga lenta, el retraso puede resultar frustrante en las conversaciones cotidianas.
Un equipo dirigido por los doctores Krishna Shenoy y Jaimie Henderson, de la Universidad de Stanford, está cerrando esa brecha de velocidad.
El trabajo que sirve como hito en este campo, cuyo artículo correspondiente publicado en el servidor de preimpresiones bioRxiv, ha ayudado a una mujer de 67 años a recuperar la capacidad de comunicarse con el mundo exterior mediante implantes cerebrales a una velocidad récord. Conocida como "T12", la mujer fue perdiendo gradualmente el habla a causa de la esclerosis lateral amiotrófica (ELA) o enfermedad de Lou Gehrig, que va privando progresivamente al cerebro de la capacidad de controlar los músculos del cuerpo. T12 aún podía vocalizar sonidos cuando intentaba hablar, pero las palabras le salían ininteligibles. Con su implante, los intentos de habla de T12 se descodifican ahora en tiempo real como texto en una pantalla y se pronuncian en voz alta con una voz computerizada, incluyendo frases como "es que es duro" o "me gusta que vengan". Las palabras llegaron rápidas y furiosas, a 62 por minuto, más del triple de velocidad que los récords anteriores.
No se trata sólo de una necesidad de velocidad. El estudio también recurrió a la mayor biblioteca de vocabulario utilizada para descodificar el habla mediante un implante -unas 125.000 palabras- en una primera demostración a esa escala. Para que quede claro, aunque se trata de un "gran avance" y, según los expertos, ha alcanzado "nuevos e impresionantes niveles de rendimiento", el estudio aún no ha sido revisado por expertos y los resultados se limitan a un único participante.
Dicho esto, la tecnología subyacente no se limita a la ELA. La mejora del reconocimiento del habla se debe a la unión de las redes neuronales recurrentes (RNN), un algoritmo de aprendizaje automático muy eficaz para descodificar señales neuronales, y los modelos lingüísticos. Cuando se pruebe más a fondo, la configuración podría allanar el camino para que las personas con parálisis grave, ictus o síndrome de enclaustramiento puedan charlar casualmente con sus seres queridos utilizando sólo sus pensamientos.
Solo para comenzar a desglosar los logros del estudio los autores parten afirmando que han demostrado “el primer BCI de habla a texto que registra la actividad de pico de conjuntos de microelectrodos intracorticales. Gracias a estas grabaciones de alta resolución, nuestro participante en el estudio, que ya no puede hablar de forma inteligible debido a la esclerosis lateral amiotrófica (ELA), logró una tasa de error de palabras del 9,1% en un vocabulario de 50 palabras (2,7 veces menos errores que el anterior BCI2 de habla de última generación) y una tasa de error de palabras del 23,8% en un vocabulario de 125.000 palabras (la primera demostración satisfactoria de descodificación de vocabulario amplio).”
Estamos empezando a "acercarnos a la velocidad de una conversación natural", reafirmaron los autores.
Desde la mudez al habla
El equipo no es ajeno a la tarea de devolver el habla a las personas. Como parte de BrainGate, una colaboración mundial pionera para restablecer las comunicaciones mediante implantes cerebrales, el equipo imaginó -y luego hizo realidad- la posibilidad de restablecer las comunicaciones utilizando señales neuronales del cerebro.
En 2021, diseñaron una interfaz cerebro-ordenador (BCI) que ayudó a una persona con lesión medular y parálisis a escribir con la mente. Con un conjunto de 96 microelectrodos insertados en las áreas motoras del cerebro del paciente, el equipo fue capaz de descodificar las señales cerebrales de las distintas letras mientras imaginaba los movimientos para escribir cada carácter, logrando una especie de "mindtexting" con más del 94% de precisión.
¿El problema? La velocidad era de unos 90 caracteres por minuto como máximo. Aunque suponía una gran mejora respecto a configuraciones anteriores, seguía siendo dolorosamente lenta para el uso diario.
Entonces, ¿por qué no aprovechar directamente los centros del habla del cerebro? Independientemente del idioma, descodificar el habla es una pesadilla. Pequeños movimientos, a menudo inconscientes, de la lengua y los músculos circundantes pueden desencadenar grupos de sonidos muy diferentes, también conocidos como fonemas. Intentar relacionar la actividad cerebral de cada movimiento de un músculo facial o de la lengua con un sonido es una tarea titánica. No olvidemos que la lengua es el músculo más fuerte de nuestro cuerpo, asimismo uno de lo más sensibles, lo que hace que la cantidad de neuronas involucradas en los distintos movimientos que realiza son muchas más que en la mayoría del resto de nuestros músculos.
El gran desafío: hackear el habla
El nuevo estudio, que forma parte del ensayo del sistema de interfaz neural BrainGate2, utilizó una ingeniosa solución.
En primer lugar, el equipo colocó cuatro microarrays de electrodos estratégicamente situados en la capa externa del cerebro de T12. Dos se insertaron en zonas que controlan los movimientos de los músculos faciales que rodean la boca. Los otros dos se introdujeron directamente en el "centro del lenguaje" del cerebro, la zona de Broca. En teoría, la colocación era un genial dos en uno: captaba tanto lo que la persona quería decir como la ejecución real del habla a través de los movimientos musculares.
Pero también era una propuesta arriesgada: aún no sabemos si el habla se limita a una pequeña zona del cerebro que controla los músculos de la boca y la cara, o si el lenguaje se codifica a una escala más global dentro del cerebro.
Aquí entran las RNN. Este algoritmo, un tipo de aprendizaje profundo, ya ha traducido en texto señales neuronales de las áreas motoras del cerebro. En una primera prueba, el equipo descubrió que separaba fácilmente distintos tipos de movimientos faciales para el habla (por ejemplo, fruncir las cejas, fruncir los labios o mover la lengua) basándose únicamente en señales neuronales con una precisión superior al 92%. A continuación, se enseñó a la RNN a sugerir fonemas en tiempo real, por ejemplo, "huh", "ah" y "tze". Los fonemas ayudan a distinguir una palabra de otra; en esencia, son el elemento básico del habla.
El entrenamiento requirió trabajo: cada día, T12 intentaba pronunciar entre 260 y 480 frases a su propio ritmo para enseñar al algoritmo la actividad neuronal concreta subyacente a sus patrones de habla. En total, la RNN se entrenó con casi 11.000 frases. Al disponer de un descodificador de su mente, el equipo vinculó la interfaz de la RNN con dos modelos lingüísticos. Uno de ellos tenía un vocabulario especialmente amplio, de 125.000 palabras. El otro era una biblioteca más pequeña, con 50 palabras, que se utiliza para frases sencillas en la vida cotidiana.
Tras cinco días de intentos de hablar, ambos modelos lingüísticos podían descodificar las palabras de T12. El sistema tenía errores: alrededor del 10 por ciento en la biblioteca pequeña y casi el 24 por ciento en la más grande. Sin embargo, cuando se le pidió que repitiera frases en una pantalla, el sistema tradujo su actividad neuronal en frases tres veces más rápido que los modelos anteriores. El implante funcionaba tanto si intentaba hablar como si se limitaba a pronunciar las frases en silencio (prefería esta última opción, ya que requería menos energía).
Al analizar las señales neuronales de T12, el equipo descubrió que ciertas regiones del cerebro conservaban patrones de señalización neuronal para codificar vocales y otros fonemas. En otras palabras, incluso tras años de parálisis del habla, el cerebro conserva un "código articulatorio detallado" -es decir, un diccionario de fonemas integrado en las señales neuronales- que puede descodificarse mediante implantes cerebrales. Di lo que piensas
El estudio se basa en muchos otros que utilizan un implante cerebral para recuperar el habla, a menudo décadas después de lesiones graves o parálisis de propagación lenta por trastornos neurodegenerativos. El hardware es bien conocido: la guía de microelectrodos Blackrock, que consta de 64 canales para escuchar las señales eléctricas del cerebro.
Lo que es diferente es su funcionamiento, es decir, cómo transforma el software el ruidoso parloteo neuronal en significados o intenciones cohesionados. Los modelos anteriores se basaban principalmente en la descodificación de datos obtenidos directamente de grabaciones neuronales del cerebro.
En este caso, el equipo ha recurrido a un nuevo recurso: los modelos lingüísticos, o algoritmos de inteligencia artificial similares a la función de autocompletar de Gmail o los mensajes de texto. El tándem tecnológico es especialmente prometedor con el auge del GPT-3 y otros grandes modelos de lenguaje emergentes. Esta tecnología, excelente para generar patrones de habla a partir de sencillas instrucciones, combinada con las señales neuronales del propio paciente, podría "autocompletar" sus pensamientos sin necesidad de horas de entrenamiento.
Un indicio de lo que podría ser el mejor escenario de colaboración entre la inteligencia artificial y la inteligencia biológica de nuestras redes neuronales, precisamente el objetivo de una fusión positiva entre humanos y máquinas que busca Neuralink, la compañía de interfaces neuronales de Elon Musk, que también está trabajando en diseñar y producir una BCI multipropósito de última generación, capaz de devolverle la libertad digital a personas parapléjicas y devolverle la vista a personas ciegas. Y eso recién sería el comienzo. Las interfaces neuronales aliadas a la inteligencia artificial de estos modelos lingüísticos podrían generar resultados asombrosos.
Pese a que este es un escenario que parece ciencia ficción positiva no hay que olvidar que también viene acompañada de cierta cautela. GPT-3 y otros modelos de IA similares pueden generar un discurso convincente por sí solos basándose en datos de entrenamiento previos. En el caso de una persona con parálisis incapaz de hablar, necesitaríamos guardarraíles mientras la IA genera lo que la persona intenta decir.
Los autores coinciden en que, por ahora, su trabajo es una prueba de concepto. Aunque prometedor, "aún no es un sistema completo y clínicamente viable" para descodificar el habla. En primer lugar, hay que entrenar el descodificador con menos tiempo y hacerlo más flexible para que se adapte a los cambios constantes de la actividad cerebral. Por otro, la tasa de error de aproximadamente el 24% es demasiado alta para el uso cotidiano, aunque aumentar el número de canales del implante podría aumentar la precisión.
Los investigadores y desarrolladores están conscientes de que esto es un hito, pero es solo el primer paso en un largo proceso de pruebas y errores para lograr el objetivo de devolver el habla a personas enclaustradas en la oscuridad de un cerebro que no les permite comunicarse con sus pares y seres queridos. Concluyen el trabajo resaltando los que creen son sus principales contribuciones: “Por último, destacamos dos aspectos del código neuronal del habla que resultan alentadores para los BCI del habla: una sintonización espacialmente entremezclada con los articuladores del habla que hace posible una descodificación precisa a partir de sólo una pequeña región del córtex, y una representación articulatoria detallada de los fonemas que persiste años después de la parálisis. Estos resultados muestran un camino factible hacia el uso de BCI intracorticales del habla para restaurar la comunicación rápida en personas con parálisis que ya no pueden hablar.”


