Entrenan la IA con datos hispanos

El folclor chileno acompañó la presentación de Latam-GPT, ayer

BUENOS AIRES (AP).— Chile lanzó ayer el primer gran modelo lingüístico de inteligencia artificial entrenado con culturas y dialectos de América Latina, con el objetivo de reflejar las realidades regionales y fortalecer la presencia hispana en la carrera global por la IA.

El proyecto de código abierto, basado en un conjunto titánico de datos de la región que han pasado inadvertidos, busca aumentar la accesibilidad a los modelos de inteligencia artificial y garantizar que reflejen mejor las realidades latinoamericanas en un mundo donde Estados Unidos, China y la Unión Europea siguen siendo los mayores beneficiarios de la carrera tecnológica.

Latam-GPT fue desarrollado por el Centro Nacional de Inteligencia Artificial de Chile (Cenia) en los últimos dos años, en colaboración con 30 instituciones de países de toda la región, incluidos México, Argentina, Brasil, Colombia, Ecuador, Perú y Uruguay.

“La inteligencia artificial es la mayor revolución tecnológica del último tiempo y desde Latinoamérica y el Caribe es estratégico y urgente que tengamos un rol”, declaró el presidente de Chile, Gabriel Boric, en el lanzamiento del proyecto.

Agregó que será clave para incorporar datos e identidad latinoamericanas a la IA. “Soberanía tecnológica y cultural para que nuestra región pueda ser parte de esta conversación global”.

El proyecto, anunciado en la Cumbre de Acción sobre Inteligencia Artificial en París el año pasado, comenzó en enero de 2023 con el objetivo de abordar las imprecisiones de los modelos de IA entrenados en gran medida con datos en inglés. Latam-GPT funciona como una herramienta para el desarrollo de futuras aplicaciones, en lugar de ser un competidor directo de productos orientados al consumidor ya existentes, como ChatGPT y Gemini de Google.

“Latam-GPT está entrenado con una proporción de datos latinoamericanos que no existía en internet y que no estaba incluida en modelos previos. Esto permite un desempeño más preciso, correcto y eficiente cuando se trata de América Latina y el Caribe”, afirmó Rodrigo Durán, director ejecutivo de CENIA.

Fuentes de datos

Latam-GPT utiliza datos de fuentes privadas obtenidos mediante alianzas estratégicas en toda la región, así como datos sintéticos para abordar áreas subrepresentadas, explicó Gabriela Arriagada, investigadora de Cenia y jefa del equipo de ética del proyecto.

El desarrollo de Latam-GPT requirió la recopilación de más de ocho terabytes de información, lo que equivale a millones de libros.

“Cuando hablamos de incorporar la cultura latinoamericana, hablamos de una visión de entrenamiento que permite hacerse cargo de datos que representen realidades culturales, entender dónde están los vacíos en otros modelos, en qué fallan e ir ganando conocimiento para mejorar esa representación”, agregó Arriagada.

Por ahora, el proyecto operará principalmente en español y portugués, y se planea incorporar posteriormente lenguas indígenas.

El desarrollo de Latam-GPT significa que la región ahora cuenta con la capacidad técnica para desarrollar modelos de IA, según Rodrigo Durán. “El hecho de que América Latina se haya unido para formar un grupo colaborativo es una señal muy positiva”, consideró.

“Demuestra que América Latina puede desarrollar y comprender cómo crear esta tecnología, lo que también tiene importantes implicaciones para la regulación, porque no se puede regular algo que no se entiende”.

La carrera por el liderazgo en IA ha llevado a los países a replantear sus políticas e iniciativas para desarrollar tecnologías en el ramo. Estados Unidos, China y la Unión Europea concentran más de la mitad de los centros de datos más importantes del mundo para desarrollar sistemas de IA, según datos publicados por la Universidad de Oxford.

África y América del Sur casi no cuentan con centros de IA, según el informe.

Peligro de rezago

En los últimos años, Chile ha acelerado sus esfuerzos para ampliar su papel en el auge de la IA, atrayendo nuevo talento y construyendo centros de datos. En junio del año pasado, el presidente Boric dijo que el país debe comenzar a adoptar la IA, añadiendo que “un país que no invierte en inteligencia artificial hoy corre el riesgo de quedar rezagado en el escenario global del mañana”.

La creación de Latam-GPT “es un hito muy importante para Latinoamérica” al incorporar datos de todos los países de la región, según Luis Chiruzzo, profesor de la Facultad de Ingeniería de la Universidad de la República en Uruguay.

Sin embargo, el académico advirtió que será difícil que el modelo compita directamente con las grandes corporaciones tecnológicas, que cuentan con muchos más recursos. “Aun así, es un avance significativo y permitirá que la región empiece a posicionarse en el desarrollo de modelos de lenguaje con una voz propia”, agregó.

Latam-GPT fue desarrollado con solo 550,000 dólares de financiamiento, provenientes del Cenia y del Banco de Desarrollo de América Latina (CAF). El equipo utilizó la nube de Amazon Web Services para desarrollar su primera versión, que se lanzará a finales de este mes.

Las versiones posteriores se entrenarán en una supercomputadora de la Universidad de Tarapacá, en el norte de Chile, cuyo costo es de aproximadamente 4.5 millones de dólares, a partir del primer semestre de este año.

Latam-GPT es el primer modelo de origen regional

Agregó que será clave para incorporar datos e identidad latinoamericanas a la IA. “Soberanía tecnológica y cultural para que nuestra región pueda ser parte de esta conversación global”.

Fuentes de datos

El desarrollo de Latam-GPT requirió la recopilación de más de ocho terabytes de información, lo que equivale a millones de libros.