2
respuestas

por Ester Mosquera

| 67.1k xp | 3 posts

Hola, en un curso de Microsoft Azure Open IA que realicé hace unos días, el instructor nos enseñó que cada 4 palabras es un token. Luego de ver este apartado en el que figura que cada palabra y/o caracter es un token me surgió la duda. Es como ví acá o cómo lo vi en el curso de Microsoft? Si alguien puede ayudarme se lo agradecería!!!

2 respuestas

por Victor Andre Ranilla Coaguila

| 62.7k xp | 1 posts

28/06/2024

Hola, por todas los temas que he podido leer respecto a la IA, estoy mas de acuerdo con lo que se enseñan aquí. Te doy un ejemplo usando una de las paginas oficiales de openAI https://platform.openai.com/tokenizer si colocas la palabra casita esta la divide en 2 tokens. CAS e ITA Esto se debe a que toma al diminutivo (osea ITA) como un token más, ya que no es lo miso decir casa que casita.

Es probable que el se haya confundido al momento de decirlo o lo escuchaste mal, porque si es 4, pero no 4 palabras, sino 4 caracteres. Para sacar un promedio de tokens puedes contar como token cada 4 caracteres, pero esto para el idioma ingles, y no es la cantidad exacta, solo es un promedio para saber aproximadamente cuantos tokens son.

Espero haberte ayudado.

por Ester Mosquera

| 67.1k xp | 3 posts

28/06/2024

Parece que es más complejo de lo que parece, tal vez, en el curso, el profesor se refería a lo que es Azure específicamente... Según chatgpt no tiene acceso a la librería para poder tokenizar directamente, pero me afirma que un token puede ser igual a un caracter o a una palabra entera, dependiento del texto y del idioma del texto. También le pregunté por la palabra que citaste "casita" y me devolvió que es 1 sólo token. Acá dejo el análisis con el que se respaldó en su respuesta from transformers import GPT2Tokenizer

Utilizar el tokenizador GPT-2 que es similar al utilizado por ChatGPT

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

Tokenizar la palabra "casita"

tokens = tokenizer.tokenize("casita") num_tokens = len(tokens) tokens, num_tokens

ModuleNotFoundError Traceback (most recent call last) Cell In[1], line 1 ----> 1 from transformers import GPT2Tokenizer 3 # Utilizar el tokenizador GPT-2 que es similar al utilizado por ChatGPT 4 tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

ModuleNotFoundError: No module named 'transformers'

Complicado el tema....