En medio del desarrollo de esta tecnología, y aún poco conscientes de su potencial, muchos expertos creen que los modelos TTT podrían ser la nueva frontera de la IA generativa. Pero, ¿por qué lo afirman tan rotundamente? Tras años de dominio de la forma de IA conocida como transformer, hay mucho que debemos saber sobre estas nuevas arquitecturas que intentan imponerse en el mercado y las características en las que están basadas.
Hasta ahora, los transformadores sustentan el modelo de generación de video Sora de OpenAI y están en el corazón mismo de modelos de generación de texto como Claude de Anthropic, Gemini de Google y GPT-4o. Pero está claro que lentamente se topan con obstáculos técnicos. Y en particular los obstáculos relacionados con la computación.
¿Por qué? Porque no son especialmente eficientes a la hora de procesar y analizar grandes cantidades de datos (sobre todo si nos detenemos en el hardware comercial, el que utilizamos la mayoría de los usuarios comunes). Básicamente, los transformadores están demandando demasiada energía para responder a la creciente demanda del público y las corporaciones. Y eso obliga a buscar una tecnología superadora a medio plazo.
Los nuevos modelos TTT entran en escena 🎬
Como si de la aparición de un protagonista en el cine se tratara, los modelos TTT han hecho su entrada en escena recientemente. Los modelos de «entrenamiento en tiempo de prueba» -de ahí la sigla TTT- han sido diseñados durante los meses recientes por los investigadores de Stanford, UC San Diego, UC Berkeley y Meta.
Su gran ventaja es que son capaces de procesar volúmenes mucho más grandes de datos que los transformadores. Eso significa, en la práctica, que consumen mucha menos energía para realizar el procesamiento de la información.
Del estado oculto al aprendizaje automático
Una de las claves de los transformadores es lo que se conoce como estado oculto, que es esencialmente una lista larga de datos que le recuerdan al transformador lo que acaba de procesar para contextualizar la información.
El estado oculto es, en parte, lo que hace que los transformadores sean tan poderosos. Pero también los limita. Actualmente, para decir una sola palabra un transformador tiene que revisar todos los datos que puede recordar. Mientras tanto, los investigadores sustituyeron el estado oculto con un modelo de aprendizaje automático.
Sí, incluyeron un modelo dentro de otro modelo. Lo interesante es que el aprendizaje automático de los modelos TTT no crece a medida que se le solicitan cosas. No le hace falta procesar datos adicionales ya que codifica los datos en variables representativas llamadas ponderaciones. Así reduce notablemente la cantidad de energía que usa. Si bien pueden ser exigidos como los transformadores, en ningún caso aumentará el tamaño del modelo ni su consumo.
Por eso se tiene la idea de que los futuros modelos TTT podrán procesar eficientemente miles de millones de datos, desde palabras hasta imágenes, sin olvidar las grabaciones de audio y ni siquiera las grabaciones de vídeos. Eso está muy por encima de las capacidades de los modelos actuales y supone la máxima esperanza en la industria.
¿A qué se debe el escepticismo en torno a los modelos TTT?
Debemos preguntarnos, en este punto, si los modelos TTT reemplazarán definitivamente a los transformadores. Lamentablemente, aún no estamos en condiciones de poder responder a esa pregunta. Habrá que esperar.
Lo que pasa es que los modelos TTT no son un sustituto directo de los transformadores. Y aunque los investigadores han avanzado en pocos meses más de lo que se había avanzado nunca, sólo desarrollaron dos modelos pequeños para el estudio. Lo que está en duda y produce esceptisimo es la capacidad de escalar los modelos TTT más allá.
Mike Cook, titular del departamento de informática del King’s College de Londres que no participó en la investigación pero siguió de cerca su evolución, comentó que «un antiguo profesor mío solía contar un chiste cuando yo era estudiante: ¿Cómo se resuelve cualquier problema en informática? Añadiendo otra capa de abstracción».
Y eso es lo que han hecho los investigadores: añadir una red neuronal dentro de una red neuronal.
Necesitamos un «avance revolucionario»… cuanto antes
Con la duda aún de si serán estos modelos TTT la siguiente tecnología predominante en la IA generativa, hay unanimidad en cuanto a que necesitamos un «avance revolucionario» por la adopción de la Inteligencia Artificial.
Hace pocos días, la startup de IA Mistral presentó un modelo, Codestral Mamba, que se basa en otra alternativa al transformador denominada «modelos de espacio de estados» o SSM. Su objetivo es igual que el de los modelos TTT: escalar la eficiencia computacional de los transformadores para que revisen más datos consumiendo menos energía.