Tecnología

Apple realizó el estudio de “La ilusión del pensamiento”: los resultados, nada favorables para la IA

Apple cuestiona las capacidades de razonamiento de la IA en un nuevo estudio.

10 de junio de 2025, 3:24 a. m.
Los chatbots muestran límites graves al identificar hechos, fuentes e imágenes reales.
La IA muestra limitaciones clave frente a la complejidad, según Apple. | Foto: SOPA Images/LightRocket via Gett

Apple ha dado un paso al frente en el debate sobre las capacidades reales de la inteligencia artificial (IA) con un estudio titulado “La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema”.

En el informe, publicado recientemente en su web, la compañía concluye que los llamados modelos de razonamiento a gran escala (LRM, por sus siglas en inglés) presentan deficiencias significativas al enfrentarse a tareas complejas, a pesar de estar diseñados precisamente para mejorar el razonamiento lógico.

Estos modelos, incorporados en herramientas populares como ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google) y DeepSeek, se desarrollaron con la promesa de resolver problemas mediante procesos de pensamiento más detallados que los grandes modelos de lenguaje (LLM), que se enfocan principalmente en generar texto coherente.

Sin embargo, los investigadores de Apple advierten que “se enfrentan a un colapso total de la precisión más allá de ciertas complejidades”.

Entornos controlados revelan fallas en el razonamiento interno

El equipo de investigación de Apple se valió de rompecabezas con estructuras lógicas bien definidas para poner a prueba los límites de estos modelos.

Entre ellos, destaca el uso de la clásica Torre de Hanói, que permite escalar progresivamente la dificultad de los problemas sin alterar su base lógica. Esta metodología permitió analizar no solo la respuesta final de los modelos, sino también los procesos internos de razonamiento que conducen a esa respuesta.

Chatbot powered by AI
Un informe de Apple revela que la IA colapsa ante tareas complejas. | Foto: Getty Images

Los resultados arrojaron que, ante desafíos cada vez más complejos, los LRM tienden a colapsar y optan por buscar atajos para resolver las tareas, comprometiendo la precisión.

Los LRM tienen limitaciones en el cómputo exacto”, señala el informe, al tiempo que advierte que estos modelos “razonan de manera inconsistente entre los acertijos”. Esto significa que, aunque disponen de un presupuesto de tokens adecuado, el razonamiento no escala proporcionalmente a la dificultad del problema.

Un colapso progresivo según la complejidad del reto

El experimento de Apple consistió en comparar el rendimiento de modelos LRM y LLM frente a desafíos de baja, media y alta complejidad. La conclusión fue clara: en tareas simples, los modelos estándar superan a los LRM. En las de complejidad media, los LRM obtienen ventaja gracias a su “pensamiento adicional”. Pero cuando el nivel se eleva a tareas de alta dificultad, “ambos modelos experimentan un colapso completo”.

A pesar del desarrollo de modelos como o3-mini de OpenAI, DeepSeek-R1, Gemini Thinking y Claude-3.7-Sonnet-Thinking, el documento advierte que sus propiedades de escala y limitaciones “siguen sin comprenderse lo suficiente”.

Inteligencia Artificial
Apple detecta fallas en el pensamiento lógico de modelos de inteligencia artificial. | Foto: Getty Images/iStockphoto

Parte del problema, según la tecnológica, radica en que las métricas actuales para evaluar estos modelos se enfocan en resultados finales —como puntuaciones en matemáticas o codificación— sin analizar cómo se llega a esas respuestas.

La advertencia final de Apple no es menor: aunque los avances en inteligencia artificial son significativos, la confianza ciega en el razonamiento de estos sistemas puede estar sustentada en una ilusión.

*Con información de Europa Press.

Noticias relacionadas