[Proyecto] Reflexión sobre versiones de modelos de IA

¿Una versión más nueva siempre significa un mejor análisis? Durante una práctica del curso, realicé un ejercicio de análisis de imágenes con dos versiones distintas del modelo Gemini Flash (2.0 y 2.5) y observé un comportamiento curioso que quisiera compartir a modo de reflexión.

La consigna consistía en analizar una imagen que contenía 20 nombres de tipografías gratuitas con efecto pizarra, todas claramente visibles y organizadas en estilo cartel. Utilicé primero Gemini 2.5 Flash, esperando un análisis eficaz dado que se trata de una versión más nueva y veloz. Para mi sorpresa, la IA no solo no reconoció el texto, sino que ofreció una descripción completamente errónea: mencionó una "pared de ladrillos con un patrón de líneas irregulares de color blanco sobre un fondo rojo, como si fuera una pared de ladrillo con estuco o pintura descascarada" y afirmó que no había texto para transcribir.

En cambio, al repetir el análisis con Gemini 2.0 Flash, la IA sí logró reconocer perfectamente el contenido textual y devolvió la lista de las 20 tipografías tal como se presentaban.

Esto me llevó a plantearme algunas preguntas:

¿Puede una versión más nueva de un modelo sacrificar precisión en OCR o detalle visual a cambio de velocidad?
¿Qué tipo de ajustes o "regresiones de capacidad" pueden ocurrir entre versiones de un mismo modelo?
¿Qué importancia tiene el equilibrio entre velocidad y profundidad de análisis según el caso de uso?

Como usuaria también probé el mismo análisis con GPT-4o, que sí logró transcribir correctamente el contenido desde el principio, incluso con tipografías decorativas, lo que sugiere que las capacidades OCR en ese modelo están optimizadas para contextos visuales complejos o estilizados.

Este tipo de pruebas comparativas me hizo valorar aún más el criterio humano en la selección de herramientas. En ocasiones, un modelo más antiguo puede ser más adecuado para tareas específicas, como la lectura de texto en imágenes con diseño gráfico o lettering artístico.

¿Alguien más notó comportamientos similares al comparar versiones?

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Contenidos de Alura sobre el tema