CecilIA prevalece en 2025 como un modelo de lenguaje cubano para inteligencia artificial (IA), y al propio tiempo, como ejemplo de soberanía tecnológica en un tema de actualidad. Su primer entrenamiento concluyó en los últimos días del mes de mayo, mientras acontecía en La Habana la Convención Saber UH. En ese contexto se anunció la noticia, y se ofrecieron los pormenores del proyecto que constituye ruta crítica para el cumplimiento del compromiso constitucional con el desarrollo de la sociedad de la información y el conocimiento, y que inspira la Agenda para la Transformación Digital y la Estrategia de Inteligencia Artificial aprobadas desde hace un año en el país.
Entre sus creadores: el Dr. C. Yudivián Almeida Cruz, director del Grupo de Inteligencia Artificial y Ciencia de Datos de la Facultad de Matemática y Computación (Matcom) de la de la Universidad de La Habana (UH); la Dra. C. Suilán Estévez Velarde, decana de la Facultad de Matcom; profesores como el Dr. C. Alejandro Piad Morffis; y un grupo estudiantes muy comprometidos con los avances de este modelo que aunque todavía requiere procesos de entrenamiento y ajustes para su optimización y pleno desarrollo, desde ahora tiene méritos que no poseen sus similares en el resto del mundo.
Es que CecilIA es tan cubana como el personaje de igual nombre que se hizo popular a través de una novela de Cirilo Villaverde. Mas pretende ser cubanísima. Su sistema computacional recibió entrenamiento con alrededor de 400 obras literarias cubanas de relevancia, información de la prensa del país de los últimos 10 años, además de enciclopedias, diferentes discursos y la Gaceta Oficial disponible digitalmente. Todo ello permitió alcanzar un volumen de 2.7gb de información y se emplearon tres días de duro entrenamiento.
Un objetivo actual es ampliar esa base de datos tomando otras referencias como guiones de productos audiovisuales, donde hay intenciones de sumar los diálogos de recursos tan criollos como las Aventuras de Elpido Valdés. Todo ello hace posible que el modelo basado en técnicas y algoritmos de inteligencia artificial interprete y genere texto en idioma español, pero con palabras o frases más cercanas a identidad de los cubanos.
Elevar el éxito de una aspiración así, será posible también en la medida en que toda la sociedad y sus instituciones apoyen el proceso de digitalización de documentos y colaboren para que la información que les compete sea pública y accesible. A propósito, la Sociedad Cubana de Derecho e Informática convocó este 4 de julio a los miembros del Capítulo de La Habana, y a profesionales de diferentes áreas. El encuentro en la sede de la Unión Nacional de Juristas de Cuba (UNJC) reunió a un centenar de personas interesadas en el tema. Más de dos horas de intercambio permitió la reflexión y el compromiso para aportar desde sus diferentes áreas de actuación.
Tecnología de base
Entre las primeras enseñanzas compartidas por el profesor Yudivián Almeida Cruz está la reflexión sobre los modelos de lenguaje pequeño (SLM) que se han tomado como base para CecilIA. Se trata de una variante accesible para países en vías de desarrollo, porque requieren menos recursos de hardware, energía eléctrica, tiempo de entrenamiento y los datos de entrenamiento pueden estar más ajustados al entorno de utilización. También refiere que los grandes modelos y su entrenamiento no han sido preparados para tener matices culturales de comunidades.
Gracias a su intervención se conoció sobre los elementos que se tuvieron en cuenta para crear el modelo de lenguaje cubano. A saber:
- Construir un corpus textual cubano
- Tomar un SLM como base
- Hacer continual pre-training, a partir del modelo
- Base con el corpus cubano
- Cuantizar a diferentes tamaños
- Hacer fine-tuning a instrucciones
- Diseñar un benchmark para validar la cubanía del modelo
- Validar el modelo
Es importante saber que se tomó como base el modelo Salamandra, pre-entrenado para el idioma español. Para la validación se tuvieron en cuenta varios experimentos y se alcanzó, en el modelo CecilIA, un comportamiento similar al modelo Salamandra 2b, aunque al personalizarse en nuevo conocimiento, algunas tareas específicas disminuyeron su rendimiento respecto a Salamandra 2b, lo cual era un resultado esperado, si se tiene en cuenta lo planteado en el teorema Non-Free-Lunch.
A diferencia de la primera presentación del modelo en el evento académico Saber UH 2025, en esta ocasión, fue posible mostrar algunos avances, porque desde entonces el trabajo ha sido intenso. Actualmente, los esfuerzos se concentran en mejorar el corpus de entrenamiento, hacer ajustes finos y perfeccionar el corpus de instrucciones empleado con mayor cantidad de elementos personalizados.
De acuerdo con el Dr. C. Yudivián Almeida, el objetivo es crear un corpus cubano de instrucciones, que cuente con alrededor de 10 000 instrucciones esperadas. Para ello, se abre la posibilidad de que haya una participación abierta en la creación de instrucciones, en formato json. Cualquiera que desee participar puede proponer instrucciones para el nuevo entrenamiento modelo. En próximos entrenamientos se debe llegar a modelos de 7B y luego continuar.
“Hoy, con la existencia de la primera versión del modelo de lenguaje cubano (#CecilIA) se trabaja en el desarrollo del primer ecosistema para darle mayor valor de uso”, dijo el especialista.
Comprometidos con el desarrollo
El modelo cuenta con el aporte cubano de tesis doctorales de los doctores Suilán Estévez y Alejandro Piad; además, en estos momentos otros doctorandos cubanos y cotutorados por estos profesores, trabajan en sus estudios de investigación y apuestan al desarrollo, tanto de Salamandra como de CecilIA.
Como mismo sucedió en la Convención Saber UH, en la sede de la UNJC se abrió una sesión de intercambio. Entre las preguntas formuladas por el público destacó por su transcendencia la referida al tema de la Lengua de Señas Cubana y las perspectivas de desarrollo de modelos, considerando esta temática.
En las respuestas se aborda el tema de la propiedad intelectual en la literatura y la importancia de ampliar la comunidad de interesados en el desarrollo del modelo cubano. Unido a ello se aborda la importancia de contar con una estrategia para que en cada caso haya un intercambio de documentos del patrimonio en soporte digital, frases sueltas y letras de canciones, con el concurso de todas las organizaciones involucradas en gestionar información.
A partir del entrenamiento de los modelos, se reflexiona sobre la influencia de estos en la transformación de las sociedades, las formas de hablar y las culturas. Por ejemplo, modelos como chatgpt hacen una interpretación de EcuRed y traducen o dan respuestas manipuladas, de acuerdo con su ideología y con formas lejanas a la fuente original de información.
Se pudo conocer, asimismo, que desde el equipo de desarrollo de CecilIA se le presta atención a la importancia del balance de los datos de entrenamiento, el tratamiento de prevención de los sesgos y la explicabilidad, acogiéndose a protocolos, buenas prácticas y uso de estándares promovidos por la UNESCO, a partir de adopción de la Recomendación para le Ética de la IA.
- Consulte además: Ética y normativas para la IA en Cuba, ¿cuán importante son?
Los expositores compartieron la preocupación por la ética que es tarea de todos y de todas las áreas de conocimiento: filósofos, lingüistas, sociólogos… Las ciencias sociales tienen que participar de forma activa, tanto en la construcción de los modelos como en su explotación.
También se pregunta y aborda el tema de la ambigüedad y la importancia del trabajo, con la incertidumbre de la información, o la certeza en la gestión de las respuestas. No obstante, ante el tema de la alucinación, que fue otra pregunta del público, el Dr. C. Yudivián Almeida dijo: "la IA son máquinas de alucinar". Pero en ponderación de bondades y riesgos ante la alucinación, se apuesta por un buen equilibrio a la altura del estado del arte en estos temas.
Hubo consenso en reconocer que CelilIA aportará a la preservación de la cultura cubana, si logramos poner a su servicio noticias diarias, textos legales, guiones de cine, imágenes y sonidos, datos que ayuden a que “hable cubano”.
En términos de soberanía e identidad, desde CecilIA se defiende la idea que en el día de hoy no es suficiente tener una información online, porque la población cada día interactúa más con la IA a través de modelos de lenguaje (empleando aplicaciones como chatGPT, entre otros), por lo tanto, tener un modelo de lenguaje cubano aseguraría poder construir posteriormente aplicaciones de IA generativa y preservar nuestra cultura e ideología.
Como en otras ocasiones salió a relucir la necesidad de contar con los datos en soporte digital; sin embargo, sabemos que existen bibliotecas enteras de gran valía donde aún está todo en papel. Por eso, se insiste en la importancia de los datos, la normalización y su uso, con una política revolucionaria de transformación digital.
En ese sentido, se insiste en la importancia de contar con datos y la información en texto plano de la información. En el proceso de edición de los libros es esencial conservar la información original en formato digital, el texto plano, el formato editable debe ser a partir de ahora una salida de cualquier proceso de generación de contenido y una entrada para CecilIA.
Finalmente, mientras se enfrentan los procesos de digitalización masiva y ordenada, cual patrimonio digital, desde CecilIA MLS se convoca a todo el que desee colaborar para lograr desarrollos endógenos, desde dominios específicos como el derecho, la salud, el propio lenguaje cubano, las artes, la historia, todo lo que la creatividad del cubano pueda generar.
En este caso, el sector jurídico contribuye a la incorporación coherente, coordinada y organizada, y así tributa a una buena parte de ese corpus de lenguaje que se necesita para CecilIA y que nuestra población requiere para hablar en buen cubano sobre cualquier tema jurídico.
En el intercambio con el público predominaron las felicitaciones al equipo creador, la importancia de una política pública que garantice acceso a los datos para alimentar el modelo, la ética y la explicabilidad de la IA, y la formación de competencias en otras disciplinas para que desde sus campos de conocimientos contribuyan al desarrollo del modelo de lenguaje.
Concluida la conferencia de presentación, en el salón se respiraba orgullo, interés, gratitud, curiosidad y, muy importante, desde el mismo equipo de desarrollo se reconocieron los resultados de otros equipos en todo el país, para alcanzar herramientas y aplicaciones de IA. Crecimos en todo. Excelente presentación. Un buen debate. El trabajo del modelo CecilIA continúa.
Términos y condiciones
Este sitio se reserva el derecho de la publicación de los comentarios. No se harán visibles aquellos que sean denigrantes, ofensivos, difamatorios, que estén fuera de contexto o atenten contra la dignidad de una persona o grupo social. Recomendamos brevedad en sus planteamientos.