Parece que es más complejo de lo que parece, tal vez, en el curso, el profesor se refería a lo que es Azure específicamente... Según chatgpt no tiene acceso a la librería para poder tokenizar directamente, pero me afirma que un token puede ser igual a un caracter o a una palabra entera, dependiento del texto y del idioma del texto. También le pregunté por la palabra que citaste "casita" y me devolvió que es 1 sólo token. Acá dejo el análisis con el que se respaldó en su respuesta from transformers import GPT2Tokenizer
Utilizar el tokenizador GPT-2 que es similar al utilizado por ChatGPT
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
Tokenizar la palabra "casita"
tokens = tokenizer.tokenize("casita")
num_tokens = len(tokens)
tokens, num_tokens
ModuleNotFoundError Traceback (most recent call last)
Cell In[1], line 1
----> 1 from transformers import GPT2Tokenizer
3 # Utilizar el tokenizador GPT-2 que es similar al utilizado por ChatGPT
4 tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
ModuleNotFoundError: No module named 'transformers'
Complicado el tema....