Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

[Proyecto] Reflexión sobre versiones de modelos de IA

¿Una versión más nueva siempre significa un mejor análisis? Durante una práctica del curso, realicé un ejercicio de análisis de imágenes con dos versiones distintas del modelo Gemini Flash (2.0 y 2.5) y observé un comportamiento curioso que quisiera compartir a modo de reflexión.

La consigna consistía en analizar una imagen que contenía 20 nombres de tipografías gratuitas con efecto pizarra, todas claramente visibles y organizadas en estilo cartel. Utilicé primero Gemini 2.5 Flash, esperando un análisis eficaz dado que se trata de una versión más nueva y veloz. Para mi sorpresa, la IA no solo no reconoció el texto, sino que ofreció una descripción completamente errónea: mencionó una "pared de ladrillos con un patrón de líneas irregulares de color blanco sobre un fondo rojo, como si fuera una pared de ladrillo con estuco o pintura descascarada" y afirmó que no había texto para transcribir.

En cambio, al repetir el análisis con Gemini 2.0 Flash, la IA sí logró reconocer perfectamente el contenido textual y devolvió la lista de las 20 tipografías tal como se presentaban.

Esto me llevó a plantearme algunas preguntas:

  • ¿Puede una versión más nueva de un modelo sacrificar precisión en OCR o detalle visual a cambio de velocidad?
  • ¿Qué tipo de ajustes o "regresiones de capacidad" pueden ocurrir entre versiones de un mismo modelo?
  • ¿Qué importancia tiene el equilibrio entre velocidad y profundidad de análisis según el caso de uso?

Como usuaria también probé el mismo análisis con GPT-4o, que sí logró transcribir correctamente el contenido desde el principio, incluso con tipografías decorativas, lo que sugiere que las capacidades OCR en ese modelo están optimizadas para contextos visuales complejos o estilizados.

Este tipo de pruebas comparativas me hizo valorar aún más el criterio humano en la selección de herramientas. En ocasiones, un modelo más antiguo puede ser más adecuado para tareas específicas, como la lectura de texto en imágenes con diseño gráfico o lettering artístico.

¿Alguien más notó comportamientos similares al comparar versiones?

1 respuesta

Hola , espero que estés muy bien.

Felicitaciones por tu aprendizaje. Estamos priorizando el foro para postear dudas, así optimizamos el tiempo de respuesta para ustedes.

Para no dejar de compartir los códigos, actividades y ejercicios que realizas, creamos un canal en Discord (#compartatucodigo) donde puedes compartirlos, dar y sugerir mejoras con el resto de tus compañeros.

Un saludo.

Si este post te ayudó, por favor, marca como solucionado ✓. Continúa con tus estudios