En esta clase aprendimos sobre los tokens, que son las unidades básicas con las que los modelos de lenguaje como ChatGPT procesan el texto. Los tokens pueden ser palabras individuales, caracteres o incluso partes de palabras.
Vimos ejemplos de cómo se dividen las frases en tokens, tanto en inglés como en español, y cómo el proceso de tokenización puede variar según el idioma.
También aprendimos que los modelos asignan una representación a cada token, capturando información contextual y semántica. La semántica se refiere al significado e interpretación de las palabras y frases en un contexto específico.
Entender la información semántica permite que los modelos de lenguaje como ChatGPT puedan inferir el contexto y responder de manera más precisa.
Finalmente, se mencionó que el número de tokens de entrada está limitado para garantizar el buen rendimiento del modelo y controlar los costos computacionales.