Espejito, espejito…¿dónde está el Modelo Único?

He realizado con distintas versiones de ChatGPT 4 la prueba del espejo del cuento de Blancanieves: preguntar si hay alguien como yo más famoso que yo.

En la versión de aplicación móvil el resultado a la primera pregunta de «¿Quién es Pablo Haya?» es razonablemente bueno:

en la repregunta «Dime otros “Pablo Haya” más famoso que el anterior» lo clava:

Esta versión se llama ChatGPT Auto ya que selecciona el modelo más adecuado para cada solicitud. No he encontrado detalles de cómo lo hace. Supongo que las opciones son GPT-4 o GPT4-o. Si preguntas a la propia aplicación te indica que ha utilizado GPT-4, aunque no me parece una respuestas muy fiable ya que también dice que no conoce un modelo llamado GPT-4o. Para liarlo más, la aplicación tiene una opción de cambiar de modelo a GTP-4o pero no te dice cual es el modelo previo.

Si pruebo con la versión de escritorio, donde queda está claro qué modelo utilizar para generar la respuesta se obtienen resultados dispares. Si empleo GPT-4o, activa la búsqueda en internet y utiliza las páginas que descarga para componer la respuesta. En la primera iteración lo hace bien, pero en la segunda alucina de lo lindo.

Finalmente, si cambio el modelo a o1-preview después de más de 30 segundos me contesta que no tiene información al respecto de quien soy yo.

Este nuevo modelo ha sido entrenado con conjunto de datos específico para tareas de «cadena de pensamiento» (chain of thoughts) que sólo debe incluir páginas e instrucciones que se acomoden a este tipo de tareas de resolución de problemas. Es normal que de esta respuestas ya que destaca en casos de uso más específicos.

Actualmente, OpenAI tiene una batería de modelos que dan respuestas muy buenas si eliges la combinación correcta de modelo y caso de uso. Los nuevos modelos o1 superan a las versiones más generalistas GPT-4o / GPT-4 en tareas de resolución de problemas donde si descompones el problema en partes llegas a una mejor solución. Pero no son adecuados para tareas de búsqueda de información, traducción o resumen donde los modelos generalistas tienen un rendimiento excelente. Cuando estos últimos modelos buscan en internet, amplían considerablemente el campo de acción y pueden manejar información actualizada pero tienden a alucinar más. 

¿Encontrará OpenAI el Modelo Único que los gobierne a todos o tendremos una caja herramienta de modelos que incluyan generalistas y especializados?