Podstawy AI

¿Cómo funciona ChatGPT? El misterio del transformer

ChatGPT puede escribir, traducir y explicar, pero ¿qué ocurre realmente «bajo el capó»? En este texto desglosamos el tema en partes sencillas: desde las redes neuronales y los tokens hasta el attention y la arquitectura del transformer. Sin humo matemático, pero con ejemplos que se entienden tomando un café.

ChatGPT da la impresión de que entiende el lenguaje casi como una persona. Responde preguntas, resume textos, escribe correos, corrige código y, a veces, incluso bromea mejor que parte de tus amigos en el chat de la empresa. No es de extrañar que mucha gente se pregunte: ¿cómo funciona realmente?

La buena noticia es que no hace falta terminar informática ni pelearse con fórmulas para entender lo básico. Bastan unos pocos conceptos sencillos y comparaciones sensatas. Empecemos por el principio.

La respuesta más corta: ChatGPT predice la siguiente palabra

Suena sospechosamente modesto, pero en esencia ahí está el núcleo del funcionamiento de los grandes modelos de lenguaje, es decir, los LLM (Large Language Models).

ChatGPT toma el texto que escribes, lo divide en elementos más pequeños y, a partir de una enorme cantidad de ejemplos del entrenamiento, predice qué debería aparecer después. Luego lo hace otra vez. Y otra vez. Palabra por palabra, o más exactamente: elemento por elemento.

Si escribes:

«La capital de Francia es…»

el modelo considerará que una siguiente palabra muy probable es «París».

Si escribes:

«Escribe un correo amable pidiendo posponer la reunión»

en ese caso el modelo no «piensa» como una persona en el calendario, las relaciones y la etiqueta. En su lugar, predice una secuencia de palabras que encaja mejor con esa petición, basándose en patrones aprendidos antes.

Puede parecer poco romántico, pero precisamente de este mecanismo tan simple surge una sorprendente cantidad de comportamientos «inteligentes».

Antes del transformer: ¿qué es una red neuronal?

Para entender ChatGPT, conviene primero familiarizarse con el concepto de red neuronal.

El nombre suena biológico, pero no se trata de una copia digital del cerebro humano. Es más bien un sistema matemático para detectar patrones. Ese sistema recibe datos de entrada, los procesa a través de muchas capas y al final produce un resultado.

Se puede comparar con el trabajo de varios filtros colocados uno detrás de otro:

el primer filtro detecta rasgos simples,
el siguiente combina esos rasgos en patrones más complejos,
el siguiente reconoce un nivel de significado aún más alto.

En imágenes, una red puede detectar primero bordes, luego formas y, al final, concluir: «esto parece un gato».

En el lenguaje funciona de otra manera, pero la idea es parecida: el modelo aprende relaciones entre elementos del texto. Por ejemplo, que después de la palabra «buen» suele aparecer «día», y que después de «un cordial saludo» normalmente termina un correo.

LLM, es decir, un gran modelo de lenguaje

ChatGPT pertenece a la familia de los grandes modelos de lenguaje. «Grande» significa aquí varias cosas a la vez:

el modelo tiene muchísimos parámetros,
se entrenó con enormes conjuntos de texto,
puede realizar muchas tareas relacionadas con el lenguaje.

Los parámetros son, en pocas palabras, números dentro del modelo que determinan cuánto influyen entre sí los distintos elementos. Durante el entrenamiento, el modelo ajusta esos números para predecir cada vez mejor los fragmentos siguientes del texto.

No hace falta conocer la matemática exacta para captar la idea: el modelo lee cantidades enormes de texto y, poco a poco, se vuelve cada vez mejor adivinando cómo suele funcionar el lenguaje.

Sin embargo, no aprende como un estudiante que memoriza una definición del libro. Más bien se parece a alguien que ha leído una cantidad inimaginable de cosas y, gracias a eso, percibe el estilo, la estructura, las relaciones y las respuestas típicas.

Para el modelo, el texto no son palabras, sino tokens

Aquí aparece el primer detalle importante. ChatGPT no trabaja directamente con «palabras» tal como las vemos nosotros. En su lugar usa tokens.

Un token es un fragmento de texto. A veces es una palabra completa, a veces una parte de una palabra, y a veces un solo carácter o un signo de puntuación.

Por ejemplo, la frase:

«Me gusta el café con leche.»

puede dividirse en partes más pequeñas. Así, el modelo no mira el texto como una persona leyendo una frase, sino como un sistema que opera sobre una secuencia de elementos.

¿Para qué sirve todo esto? Porque el lenguaje es demasiado complejo como para tratar cada palabra posible como un bloque rígido e independiente. Gracias a los tokens, el modelo maneja mejor:

palabras nuevas,
flexión y conjugación,
errores tipográficos,
distintos idiomas,
nombres propios y vocabulario especializado.

Es un poco como con las piezas de LEGO: con partes más pequeñas se puede construir mucho más que con bloques ya hechos e indivisibles.

¿Cómo «sabe» el modelo lo que significan las palabras?

No lo sabe de forma humana. En lugar de significados de diccionario, el modelo construye representaciones numéricas de palabras y tokens. En la práctica, cada token se convierte en un conjunto de números que refleja sus relaciones con otros tokens.

Suena seco, pero el efecto es interesante. Los tokens usados en contextos parecidos empiezan a tener representaciones similares. Gracias a eso, el modelo «percibe» que palabras como «perro» y «gato» se parecen más entre sí que «perro» y «microondas». Por suerte.

Por eso un LLM puede:

reconocer el sentido de una frase,
parafrasear oraciones,
traducir entre idiomas,
responder preguntas en distintos estilos.

No porque tenga una enciclopedia en la cabeza en forma clásica, sino porque ha aprendido dependencias estadísticas del lenguaje a una escala enorme.

El problema de los modelos antiguos: la memoria era demasiado corta

Antes de que aparecieran los transformers, se usaban otras arquitecturas para trabajar con texto, especialmente modelos secuenciales como RNN o LSTM. Su principal problema era bastante humano: perdían el contexto, sobre todo cuando el texto se hacía largo.

Imagina la frase:

«El gato, que ayer vi en casa de la vecina, a pesar de la lluvia y de todo el lío, corrió al jardín porque se asustó del perro.»

Para entender bien el final, hay que recordar quién corría realmente y de qué se asustó. Los modelos antiguos procesaban el texto más paso a paso, por lo que les costaba mantener las relaciones entre fragmentos lejanos.

Y entonces entra en escena el protagonista de este texto.

¿Qué es un transformer?

Transformer es una arquitectura de red neuronal diseñada específicamente para trabajar con secuencias, como el texto. Fue descrita en 2017 en el famoso artículo de investigación «Attention Is All You Need».

Su mayor avance fue que el modelo no tiene que leer el texto solo palabra por palabra, como alguien que pasa el dedo por una línea. En su lugar puede mirar muchos elementos a la vez y evaluar qué fragmentos son importantes entre sí.

El mecanismo clave aquí es el attention, es decir, en español, normalmente el «mecanismo de atención».

Attention, o en qué se fija el modelo

Esta es la parte más importante de toda la historia.

Cuando una persona lee una frase, no trata todas las palabras por igual. Si ves la frase:

«Ala no fue al trabajo porque estaba enferma.»

en tu cabeza la palabra «enferma» se relaciona con Ala, no con el trabajo. Para nosotros eso es obvio. Para el modelo había que crear un mecanismo que ayudara a captar esas relaciones.

El mecanismo de attention permite al modelo evaluar a qué tokens anteriores debe mirar cuando procesa el fragmento actual.

Dicho de otro modo: el modelo se pregunta a sí mismo,

qué palabras de esta frase son ahora las más importantes,
con qué está relacionado este token,
dónde está el contexto necesario.

Gracias a eso, ChatGPT entiende mejor relaciones como:

quién es el sujeto de la frase,
a qué se refiere un pronombre,
qué palabra cambia el significado de otra,
cuál era el tema unas frases antes.

Un ejemplo sencillo del funcionamiento del attention

Tomemos la frase:

«María le devolvió el libro a Ana porque ya lo había leído.»

Una persona suele entender que «lo» se refiere al libro, no a Ana. El modelo tiene que llegar de alguna manera a la misma conclusión.

El mecanismo de attention hace que, al analizar la palabra «lo» y «había leído», el modelo pueda dar más peso a la palabra «libro» que a otros elementos de la frase.

No lo hace mediante una «comprensión» en sentido filosófico, sino calculando qué elementos son más relevantes en ese contexto.

Es un poco como leer con un subrayador que te sugiere automáticamente a qué conviene volver a mirar.

Por qué el transformer fue un avance tan grande

Hay varias razones.

En primer lugar, el transformer captura mejor las dependencias a larga distancia. Si una palabra importante apareció mucho antes, el modelo todavía puede «volver a ella».

En segundo lugar, el transformer permite un procesamiento más paralelo de los datos. Esto es importante técnicamente porque acelera el entrenamiento con enormes conjuntos de texto.

En tercer lugar, la arquitectura resultó ser extraordinariamente escalable. Cuando se aumentaban:

la cantidad de datos,
la potencia de cálculo,
el número de parámetros,

los modelos empezaban a hacer cosas que antes parecían sorprendentemente difíciles: conversaciones coherentes, resúmenes, traducciones, generación de código o respuestas a preguntas de distintas áreas.

En resumen: el transformer no fue solo una pequeña mejora. Fue un cambio de reglas del juego.

¿Cómo se entrena ChatGPT?

En gran simplificación, se puede dividir en dos etapas.

1. Entrenamiento inicial con una enorme cantidad de textos

Primero, el modelo recibe muchísimo texto y aprende a predecir los siguientes tokens. Es decir, otra vez: ve un fragmento e intenta adivinar qué debería venir después.

Si se equivoca, sus parámetros se corrigen ligeramente. Este proceso se repite una cantidad inimaginable de veces.

Es precisamente en esta etapa cuando el modelo aprende:

gramática,
estilos de escritura,
hechos básicos sobre el mundo,
estructuras típicas de las frases,
relaciones entre conceptos.

2. Ajuste fino para la conversación

Un modelo que solo predice los siguientes tokens todavía no es suficiente. Para que sea útil en forma de chat, hay que ajustarlo más.

En la práctica, eso significa enseñar al modelo a responder:

de forma más útil,
más segura,
más clara,
de acuerdo con la intención del usuario.

Aquí se utilizan, entre otras cosas, ejemplos preparados por personas e información de retroalimentación sobre qué respuestas son mejores.

Gracias a eso, ChatGPT no solo «continúa texto», sino que lo hace en una forma que se parece a una conversación con un asistente.

¿ChatGPT entiende lo que dice?

Esta es una de las preguntas más interesantes, y la respuesta honesta es: depende de lo que entendamos por «entender».

Si por entender nos referimos a la conciencia humana, las intenciones, la experiencia del mundo, las emociones y el sentido común construido a lo largo de la vida, entonces no. ChatGPT no tiene esas cosas.

Pero si por entender nos referimos a la capacidad de:

captar el sentido de una frase,
reconocer relaciones entre conceptos,
generar una respuesta adecuada,
aplicar conocimientos en nuevos contextos,

entonces, en un sentido práctico, el modelo puede hacer muchísimo.

Por eso a veces parece casi «pensante», aunque su mecanismo de funcionamiento se basa en la predicción y en patrones estadísticos, no en la experiencia humana.

¿De dónde salen los errores y las alucinaciones?

Si el modelo es tan bueno, ¿por qué a veces da información falsa con una seguridad admirable?

Porque ChatGPT no tiene un contador de verdad incorporado. Su objetivo es generar una respuesta que encaje con el contexto y parezca creíble. Eso no es lo mismo que una respuesta siempre fiel a la realidad.

Los errores pueden deberse a varias razones:

el modelo vio información contradictoria o incompleta durante el entrenamiento,
la pregunta es ambigua,
el tema requiere datos actualizados que el modelo quizá no tenga,
el modelo «ensambla» una respuesta a partir de elementos probables que juntos suenan bien, pero no son correctos.

A esto se le suele llamar alucinación del modelo.

En la práctica, conviene tratar a ChatGPT como un asistente muy competente para pensar y escribir, pero no como una fuente infalible de verdad revelada.

¿Por qué ChatGPT suena tan natural?

Porque se entrenó con enormes cantidades de texto escrito por personas. Gracias a eso aprendió:

el ritmo del lenguaje,
construcciones de frases típicas,
distintos estilos de expresión,
formas de explicar,
fórmulas de cortesía y convenciones de conversación.

El modelo no «tiene personalidad» en sentido humano, pero puede imitar muy bien la forma en que las personas formulan respuestas. Eso da sensación de naturalidad.

A veces incluso demasiada. Por eso es fácil olvidar que al otro lado no hay alguien con una taza de café, sino un sistema que predice los siguientes tokens con una eficacia impresionante.

¿Y dónde encajan los prompts en todo esto?

Un prompt es simplemente una instrucción de entrada, es decir, lo que escribes al modelo. La calidad del prompt influye muchísimo, porque el modelo responde al contexto que le das.

Si escribes:

«Cuéntame sobre los transformers»

tendrás una respuesta general.

Si escribes:

«Explícame cómo funciona la arquitectura del transformer a una persona sin formación técnica, usa ejemplos sencillos y no emplees matemáticas»

la respuesta normalmente estará mucho mejor adaptada.

Es un poco como hacer preguntas a un experto. Cuanto más claramente indiques qué quieres, para quién y en qué formato, mayor será la probabilidad de obtener una buena respuesta.

Si quieres profundizar un nivel más

Si después de este texto sientes que «por fin esto tiene sentido», pero quieres pasar de la comprensión general a la práctica, merece la pena seguir aprendiendo de forma ordenada. Un buen paso será un curso que muestre no solo qué son la IA y los LLM, sino también cómo usarlos con criterio en el trabajo y en el aprendizaje.

En la Academia AI encontrarás materiales explicados con un lenguaje sencillo, sin adornos técnicos innecesarios. Esto es especialmente útil para quienes quieren entender las bases y convertirlas enseguida en uso práctico, en lugar de hundirse en la teoría después del segundo párrafo.

Qué conviene recordar de toda esta historia

ChatGPT no funciona como una bola mágica ni como un humano digital encerrado en un centro de datos. Es un gran modelo de lenguaje basado en la arquitectura transformer, que aprendió a predecir los siguientes elementos del texto a partir de una enorme cantidad de ejemplos.

Las piezas más importantes del rompecabezas son:

red neuronal, es decir, un sistema que detecta patrones,
tokens, es decir, fragmentos de texto con los que trabaja el modelo,
entrenamiento, durante el cual el modelo aprende a predecir la continuación,
attention, es decir, el mecanismo para centrarse en los fragmentos relevantes del contexto,
transformer, que permitió procesar el lenguaje a gran escala de forma eficaz.

Y quizá eso sea lo más interesante de todo: detrás de una herramienta que parece una conversación hay un conjunto de ideas sorprendentemente simples en su esencia. Lo difícil es la escala, no el núcleo del concepto.

La próxima vez que ChatGPT te escriba un correo, te explique un concepto o te ayude a ordenar apuntes, puedes recordar una cosa: no «piensa» como una persona. Pero gracias al transformer puede predecir muy bien cómo debería ser una respuesta sensata. Y eso ya basta para hacer cosas que hasta hace poco parecían ciencia ficción.