Piensa un momento en los modelos de inteligencia artificial que has utilizado en los últimos días. Puede que haya sido a través de ChatGPT, Gemini o Claude, o quizá mediante herramientas como Codex, Claude Code o Cursor AI. En la práctica, la elección suele ser sencilla: terminamos usando aquello que mejor encaja con lo que necesitamos en cada momento, casi sin detenernos a pensar en la tecnología que hay detrás.

Sin embargo, ese equilibrio cambia con frecuencia. Cada nuevo modelo que aparece promete mejoras, nuevas capacidades o formas distintas de trabajar, y con él vuelve una pregunta bastante directa: si merece la pena probarlo, si realmente puede ofrecernos algo mejor o si lo que ya usamos sigue siendo suficiente. Claude Sonnet 4.6 acaba de salir a la palestra, y así es cómo se posiciona frente a la competencia.

El punto de partida de Claude Sonnet 4.6. Aquí encontramos lo que Anthropic describe como una mejora transversal de capacidades, que incluye avances en codificación, uso del ordenador, razonamiento de contexto largo, planificación de agentes y tareas propias del trabajo intelectual y creativo. A ese conjunto se suma una ventana de contexto de hasta un millón de tokens en beta, pensada para procesar bases de código completas, contratos extensos o grandes colecciones de información sin fragmentación.

Tres niveles, un mismo mapa. Para entender dónde encaja Sonnet 4.6 conviene mirar cómo Anthropic suele ordenar su familia de modelos en distintos niveles con objetivos distintos. Haiku prioriza velocidad y eficiencia, Opus se reserva para las tareas que exigen el razonamiento más profundo y Sonnet ocupa el punto intermedio, pensado como equilibrio entre capacidad y coste operativo. En ese marco, la compañía sostiene que el nuevo Sonnet se acerca en algunos trabajos reales al rendimiento que antes quedaba asociado a Opus, una afirmación ambiciosa.

Cuando la IA empieza a usar el ordenador. Una de las mejoras que Anthropic subraya con más énfasis en Sonnet 4.6 es su progreso en lo que denomina computer use, es decir, la capacidad del modelo para interactuar con software de forma similar a una persona, sin depender de APIs diseñadas específicamente para automatización. Este avance se apoya en referencias como OSWorld-Verified, un entorno de pruebas con aplicaciones reales donde la familia Sonnet ha ido mejorando de forma sostenida a lo largo de varios meses. La compañía también reconoce límites y riesgos de los que hemos hablado antes, como los intentos de manipulación mediante prompt injection.

Buscando el ‘mejor’ modelo. Llegados a este punto, la pregunta relevante deja de ser cuánto ha mejorado Sonnet 4.6 en términos absolutos y pasa a centrarse en cómo se sitúa frente a los otros grandes modelos que hoy compiten por el mismo espacio de uso. La comparación no es sencilla ni admite un único ganador, porque cada sistema destaca en áreas distintas y responde a prioridades técnicas diferentes. Por eso conviene leer los benchmarks con una mirada práctica, identificando en qué tareas concretas aparecen las diferencias reales.

Dónde destaca cada modelo. La comparación directa con GPT-5.2 dibuja un reparto de fortalezas más que una victoria clara. Según la tabla publicada por Anthropic, Sonnet 4.6 destaca de forma especialmente amplia en el uso autónomo del ordenador medido en OSWorld-Verified, además de mostrar ventaja en tareas de oficina (GDPval-AA Elo) y en algunos escenarios de análisis o resolución de problemas (Finance Agent v1.1, ARC-AGI-2). GPT-5.2, por su parte, mantiene mejores resultados en razonamiento de nivel graduado (GPQA Diamond), comprensión visual (MMMU-Pro) y programación en terminal (Terminal-Bench 2.0), con matices como resultados marcados como Pro en algunas pruebas.

La comparación con Gemini 3 Pro introduce un matiz distinto, porque aquí las ventajas se concentran sobre todo en el terreno del razonamiento y el conocimiento general. El modelo de Google obtiene mejores resultados en pruebas de razonamiento de nivel graduado (GPQA Diamond) y en cuestionarios multilingües de amplio espectro (MMMLU), además de situarse por delante en razonamiento visual sin herramientas (MMMU-Pro). Sonnet 4.6, en cambio, conserva cierta ventaja cuando entran en juego herramientas externas o escenarios más cercanos al trabajo aplicado. La ausencia de algunos datos comparables en la propia tabla obliga, en cualquier caso, a interpretar ese duelo con cautela.

Dónde puede usarse Sonnet 4.6. El nuevo modelo está disponible en todos los planes de Claude, incluido el nivel gratuito, donde además pasa a convertirse en la opción por defecto dentro de claude.ai y Claude Cowork. También puede utilizarse a través de Claude Code, la API y las principales plataformas en la nube, manteniendo el mismo precio que la versión Sonnet 4.5.

Después de recorrer capacidades, límites y comparativas, la decisión real vuelve a situarse en el terreno cotidiano del usuario. Sonnet 4.6 apunta a resultar especialmente útil en tareas productivas, interacción directa con software y flujos de trabajo largos, mientras que GPT-5.2 y Gemini 3 Pro mantienen ventajas en razonamiento académico, comprensión visual o conocimiento general según la prueba considerada. Ninguno domina todos los frentes, y esa fragmentación habla mucho del momento actual de la IA.

