Son pocos los nativos digitales que recuerdan haber tomadouna enciclopedia en sus manos para buscar la descripción más concisa y precisaposible sobre la distinción entre una célula animal y una vegetal o para resolveruna tarea de historia sobre la revolución francesa. Las enciclopedias llevan unpar de siglos entre nosotros desde que Diderot y sus colaboradores franceses,en la época de la ilustración, abordaran la titánica tarea de compendiar elconocimiento humano en una serie de libros que tuviera las definiciones ydescripciones de cada temática, personaje o período histórico, escrita por losexpertos en cada una de ellas.
Reconozcámoslo: nosotros nos acostumbramos desde el colegio,en la primera década del siglo en curso, a rebuscar los datos y resolver lasdudas que teníamos principalmente en Wikipedia, la enciclopedia digital másgrande del mundo, escrita en conjunto por los internautas del mundo. No sonpocos los que tomaron párrafos enteros y los copiaron para disertar sobreHonduras, los descubrimientos astronómicos de Galileo o los leopardos.
Ahora, con más años y cultura en el cuerpo, nos podemos darcuenta que no siempre nuestra confianza en los artículos de Wikipedia estabajustificada, precisamente porque el corpus de citas que avalan los distintosartículos suele tener muchos baches, estar respaldados en evidencia científicadescontinuada o lisa y llanamente tener errores groseros o rellenosincoherentes.
Esto es bastante problemático, sobre todo considerando elcolosal tráfico de visitas que tiene el sitio. A principios de 2020, la versióninglesa del sitio tenía una media de 255 millones de visitas diarias, lo que loconvertía en el octavo sitio web más visitado de Internet. Actualmente ya ocupa el séptimo lugar,y la versión inglesa cuenta actualmente con más de 6,5 millones de artículos.
Es por esto precisamente que META, el gigante tecnológico,se propuso resolver este problema de enrome complejidad, y para hacerlo no haymejor forma que desarrollar una inteligencia artificial, pues solo un programade este tipo puede determinar si una fuente respalda realmente una afirmación.Nosotros carecemos del poder de análisis y procesamiento de datos necesariopara seguirle el ritmo a los 17 mil de artículos que se suben mensualmente alsitio. La IA sí puede hacerlo.

Así describen su proyecto en una entradade blog de la compañía:
“Basándonos en la investigación y los avances de Meta AI, hemos desarrollado elprimer modelo capaz de escanear automáticamente cientos de miles de citas a lavez para comprobar si realmente respaldan las afirmaciones correspondientes. Elmodelo es de código abierto, y puedes ver una demostración de nuestro verificadoraquí. Como fuente de conocimiento para nuestro modelo, creamos un nuevoconjunto de datos de 134 millones de páginas web públicas, un orden de magnitudmayor y significativamente más intrincado de lo que nunca se ha utilizado paraeste tipo de investigación. Llama la atención sobre las citas dudosas, lo quepermite a los editores humanos evaluar los casos con más probabilidades de serdefectuosos sin tener que escudriñar entre miles de declaraciones correctamentecitadas. Si una cita parece irrelevante, nuestro modelo sugerirá una fuente másaplicable, incluso señalando el pasaje específico que apoya la afirmación. Conel tiempo, nuestro objetivo es construir una plataforma para ayudar a loseditores de Wikipedia a detectar sistemáticamente los problemas de citación ycorregir rápidamente la cita o el contenido del artículo correspondiente aescala.”
Shani Evenstein Sigalov, investigador de la Universidad de Tel Aviv ywikimedista de larga data, piensa los siguiente sobre el proyecto: "Estees un poderoso ejemplo de herramientas de aprendizaje automático que puedenayudar a escalar el trabajo de los voluntarios recomendando de forma eficientecitas y fuentes precisas. La mejora de estos procesos nos permitirá atraer anuevos editores a Wikipedia y proporcionar una información mejor y más fiable amiles de millones de personas en todo el mundo. Espero que se sigan produciendomejoras en este ámbito, especialmente cuando las herramientas de aprendizajeautomático sean capaces de proporcionar citas más personalizadas y opcionesmultilingües para servir a nuestras comunidades de Wikimedia en más de 300idiomas."
Ahora bien, pese al avance de este tipo de tecnología, eldesafío más grande que presenta este proyecto es que la IA de Meta tendrá que"entender" el contenido de las fuentes citadas (aunque"entender" es un término erróneo, como diría la investigadora de lateoría de la complejidad Melanie Mitchell, porque la IA todavía está en la fase"estrecha", es decir, es una herramienta para el reconocimiento depatrones muy sofisticados, mientras que "entender" es una palabra quese utiliza para la cognición humana, que sigue siendo una cosa muy diferente).
El modelo de Meta "entenderá" el contenido no comparando cadenas detexto y asegurándose de que contienen las mismas palabras, sino comparandorepresentaciones matemáticas de bloques de texto, a las que llega utilizandotécnicas de comprensión del lenguaje natural (NLU).
"Lo que hemos hecho es construir un índice de todas estas páginas webdividiéndolas en pasajes y proporcionando una representación precisa de cadauno de ellos", explicaa Digital Trends Fabio Petroni, director técnico de InvestigaciónFundamental de IA de Meta. "No se trata de representar el pasaje palabrapor palabra, sino el significado del mismo. Eso significa que dos trozos detexto con significados similares se representarán en una posición muy cercanaen el espacio n-dimensional resultante donde se almacenan todos estos pasajes."

Con el propósito de rendir eficazmente el modelo de Meta seestá entrenando con un conjunto de cuatro millones de citas de Wikipedia. Y sibien el primer objetivo del modelo es detectar las citas defectuosas en elsitio, los creadores quieren llegar más allá y eventualmente lograr que seacapaz de sugerir fuentes precisas para ocupar el lugar de la información errónea,a partir de un índice masivo de datos que se actualiza continuamente. Algo asícomo un sistema orgánico de inteligencia que se va corroborando a sí mismo conla información de calidad disponible en el internet.
Precisamente ese es una de las grandes incógnitas, el cómo avalar la información.Para eso es necesario generar un sistema jerárquico sobre la fidelidad de lasfuentes citadas. Un artículo de una revista científica, por ejemplo, recibiríauna calificación más alta que el post en el blog de tu vecino. A esta alturatodos sabemos que el volumen de contenido en línea es tan amplio y diverso quese pueden encontrar "fuentes" para apoyar casi cualquier afirmación,pero distinguir cosas tan sutiles como la información equivocada de ladesinformación (la primera incorrecta, mientras que la segunda esdeliberadamente engañosa), y lo revisado por pares de lo no revisado por pares,lo verificado por los hechos de lo apresurado, no es una tarea pequeña, sinouna muy importante cuando se trata de la confianza. Es por esto mismo queactualmente enciclopedias clásicas, en papel o en línea, como la enciclopediaBritannica, siguen siendo un cuerpo de conocimiento mucho más fiable queWikipedia.
Si bien el proyecto está recién en sus comienzos el equipopretende ir añadiendo facultades al programa a medida que vaya avanzando: “Loideal sería que los modelos entendieran varios idiomas y fueran capaces deprocesar varios tipos de medios, como vídeos, imágenes y tablas de datos. Estascapacidades se encuentran entre los nuevos objetivos de Meta AI para ayudar aenseñar a la tecnología a entender nuestro mundo.”
Precisamente esto último, lograr que la inteligenciaartificial, sea la que sea, entiendanuestro mundo, es una pretensión mayúscula, mucho más difícil, aunque similar,a que un analfabeto comprenda las complejas dinámicas informáticas queestructuran a uno de estos algoritmos. Esto porque la única vía que tienenestos modelos para lograrlo es el corpus de lenguaje disponible en la web conque son entrenados. Si bien muchas cosas se pueden aprender leyendo (la fechade nacimiento de Albert Einstein o los principios mecánicos necesarios paraconstruir un puente) hay muchos otros que no, como el karate o las claves noverbales que se usan para comunicarse en las distintas culturas. ¿Llegará undía en que la inteligencia artificial comprenda mejor nuestro mundo de lo quenosotros la comprendemos a ella? Es una posibilidad a tomar en cuenta, una queconlleva muchas promesas pero también grandes riesgos.


