GPT-5.4: IA agéntica, uso del ordenador y contexto largo para la productividad europea

GPT-5.4

OpenAI ha dado otro giro de tuerca a su estrategia en inteligencia artificial con el lanzamiento de GPT-5.4, un modelo que no solo promete más potencia de cálculo o mejores puntuaciones en pruebas sintéticas, sino que da un paso claro hacia la automatización de trabajo real. La compañía presenta este sistema como su modelo más capaz y eficiente hasta la fecha, con el foco puesto en entornos profesionales, tareas largas y agentes capaces de operar como si fueran una persona sentada frente al ordenador.

El anuncio llega, además, en un momento delicado para la firma de Sam Altman, inmersa en una crisis de reputación asociada a sus acuerdos con el Departamento de Defensa de Estados Unidos y a campañas de boicot como #QuitGPT. La presentación de GPT-5.4, apenas días después de GPT-5.3 Instant, funciona así como movimiento técnico y también político: enseñar músculo tecnológico mientras se intenta recuperar la confianza de usuarios y grandes clientes.

Dos variantes para distintos perfiles: GPT-5.4 Thinking y GPT-5.4 Pro

OpenAI ha lanzado GPT-5.4 en dos sabores principales. Por un lado, GPT-5.4 Thinking, disponible en los planes de pago de ChatGPT (Plus, Team y Pro), orientado al razonamiento profundo y multietapa. Este modelo muestra al usuario un esquema previo de cómo va a abordar la tarea, lo que permite intervenir a mitad de respuesta para redirigir instrucciones sin tener que empezar desde cero. Esta capacidad de “cortar y reconducir el razonamiento”, que OpenAI denomina steerability, está pensada para problemas complejos en los que el usuario quiera tener algo más de control sobre el proceso.

Por otro lado aparece GPT-5.4 Pro, dirigido a empresas y desarrollos de gran escala donde prima el rendimiento sostenido. Esta variante está optimizada para tareas intensivas y flujos de trabajo complejos, con especial énfasis en agentes que trabajen durante periodos largos, procesen muchos documentos y tengan que tomar decisiones encadenadas. En la API, ambas versiones pueden utilizarse como motor para productos propios, integrándose también con la plataforma orientada al código, heredera de Codex.

Una IA que maneja el ordenador como un usuario humano

La característica que más titulares está generando es que GPT-5.4 es el primer modelo generalista de OpenAI con capacidades nativas de uso del ordenador. La compañía habla de “computer use” para referirse a un modo en el que el sistema no se limita a generar texto, sino que interpreta lo que ve en la pantalla (mediante capturas y visión de alta resolución) y emite acciones de ratón y teclado para completar tareas.

En la práctica, esto permite plantear escenarios que hasta hace poco sonaban a ciencia ficción cotidiana: pedir a la IA que abra el correo, descargue facturas, extraiga datos clave y los vuelque en una hoja de cálculo, o que navegue por diferentes aplicaciones empresariales para rellenar formularios, consultar bases de datos o generar informes. Según los benchmarks internos, en la prueba OSWorld-Verified, que mide precisamente esa capacidad de manejar un entorno de escritorio, GPT-5.4 logra un 75 % de éxito, por encima del 47,3 % de GPT-5.2 y también del rendimiento medio humano, fijado en 72,4 %.

Este tipo de habilidades encajan de lleno con la tendencia hacia la IA basada en agentes. Herramientas como el agente OpenClaw, orientado a “coger las riendas” del ordenador del usuario para automatizar tareas repetitivas, se benefician directamente de un modelo que ya viene preparado de serie para interpretar la pantalla y ejecutar secuencias completas de acciones. Para empresas europeas que están probando agentes en departamentos de administración, finanzas o soporte técnico, la diferencia entre un chatbot que solo responde y un modelo que realmente actúa es sustancial.

Ventana de contexto de hasta un millón de tokens

Otro de los grandes titulares de GPT-5.4 está en su capacidad de memoria a corto plazo. En la API y en su integración con Codex, el modelo soporta ventanas de contexto de hasta un millón de tokens. Esto multiplica por más de dos la memoria operativa asociada a GPT-5.2, que se situaba en torno a los 400.000 tokens, y supone un salto importante para quienes trabajan con información masiva: contratos de cientos de páginas, repositorios de código voluminosos, bases de datos de clientes o informes financieros anuales.

Para empresas y despachos europeos, acostumbrados a lidiar con regulación extensa, desde normativa bancaria hasta documentación de cumplimiento como el RGPD, esta ampliación de contexto permite tratar conjuntos de documentos completos sin tener que trocearlos de forma artificial. La consecuencia directa es que se pierde menos contexto, se reducen errores por omisión y se mantiene mejor la coherencia en tareas que requieren seguir instrucciones precisas durante muchos pasos.

Además de la memoria, GPT-5.4 introduce lo que algunas fuentes han descrito como un modo de “razonamiento extremo”. Este enfoque permite dedicar mucha más capacidad de cómputo a preguntas complejas, ejecutando procesos que pueden prolongarse durante horas en lugar de segundos. No se trata solo de responder rápido, sino de ser capaz de mantener un análisis prolongado con más profundidad y consistencia, algo especialmente relevante para consultoras, auditoras o equipos de investigación que operan en Europa con proyectos de largo recorrido.

Tool Search y eficiencia en el uso de herramientas

Para los desarrolladores que construyen sobre la API, una de las novedades más prácticas es Tool Search. Hasta ahora, los modelos necesitaban recibir en el contexto la definición de todas las herramientas disponibles, lo que disparaba el consumo de tokens en sistemas con muchas funciones. Con Tool Search, GPT-5.4 es capaz de buscar dinámicamente la herramienta que necesita en cada momento, consultando solo la información imprescindible.

En pruebas con 250 tareas del benchmark MCP Atlas, utilizando 36 servidores de herramientas distintas, esta forma de acceso dinámico logró reducir el consumo total de tokens en torno a un 47 %, manteniendo el mismo nivel de precisión. Para compañías europeas que están diseñando plataformas de agentes con decenas de microservicios, desde sistemas de facturación hasta CRMs y ERPs internos, esta mejora se traduce en costes operativos más bajos y tiempos de respuesta más rápidos, sin renunciar a la complejidad de los flujos de trabajo.

Rendimiento profesional: del despacho a la hoja de cálculo

Más allá de los titulares técnicos, GPT-5.4 está pensado explícitamente para tareas de conocimiento profesional. En el test GDPval, que mide la capacidad de agentes de IA para producir trabajo real en 44 ocupaciones diferentes, el nuevo modelo iguala o supera a profesionales humanos en el 83 % de las comparaciones. Este tipo de tareas van desde la preparación de presentaciones comerciales hasta el análisis financiero básico o la redacción de documentos jurídicos.

OpenAI destaca especialmente las mejoras en el trabajo con hojas de cálculo y presentaciones. En un benchmark interno de modelado financiero, GPT-5.4 logra un 87,3 % de puntuación, frente al 68,4 % de GPT-5.2. Para bancos, aseguradoras o fintech europeas, que manejan modelos complejos en Excel o en herramientas equivalentes, esta diferencia puede marcar el salto entre una herramienta de apoyo y un asistente capaz de realizar tareas de un analista junior con supervisión limitada.

En el ámbito de las presentaciones, evaluadores humanos prefirieron en torno al 68 % de las veces las diapositivas generadas por GPT-5.4 frente a las de su predecesor, tanto por estética como por variedad visual. Ese tipo de mejoras encaja de lleno en el día a día de equipos de ventas, marketing o consultoría en España, donde preparar una presentación clara y bien estructurada puede consumir muchas horas de trabajo.

Menos errores, más fiabilidad en respuestas largas

Uno de los reproches habituales a los modelos anteriores era su tendencia a “alucinar”, es decir, a inventarse datos o mezclar fuentes de forma poco fiable. OpenAI afirma que GPT-5.4 es un 33 % menos propenso a emitir afirmaciones falsas que GPT-5.2, y que sus respuestas completas tienen un 18 % menos de probabilidades de contener errores. Estas cifras, aunque proceden de pruebas internas, apuntan a una IA más adecuada para sectores regulados como el financiero o el sanitario, donde cualquier información incorrecta puede suponer un problema serio.

La combinación de una ventana de contexto mucho más amplia, un modo de razonamiento extendido y la posibilidad de interrumpir el proceso a mitad para corregir el rumbo contribuye a esa mayor fiabilidad. Para un despacho de abogados en Madrid o una consultora en Bruselas, poder revisar el “plan de ataque” del modelo antes de que termine de redactar un informe completo permite detectar desvíos o malos enfoques a tiempo, sin malgastar recursos ni tiempo de revisión posterior.

Programación y rendimiento en benchmarks técnicos

En el terreno del desarrollo de software, GPT-5.4 hereda las capacidades de GPT-5.3-Codex y, según OpenAI, las iguala o supera en pruebas exigentes como SWE-Bench Pro con menor latencia. Las mejoras en puntuación no son espectaculares (hablamos de un salto moderado en el porcentaje de incidencias resueltas), pero la combinación de código, razonamiento y uso de ordenador nativo en un único modelo plantea un escenario interesante: agentes que leen repositorios de código, modifican archivos y prueban cambios en entornos reales, todo dentro del mismo flujo.

Para desarrolladores europeos que integran GPT-5.4 a través de la API, quizá la clave no sea tanto la cifraExacta de un benchmark, sino el hecho de que el modelo resuelva tareas similares usando menos tokens. OpenAI insiste en que GPT-5.4 es su sistema de razonamiento más eficiente en consumo de tokens hasta ahora, lo que significa que puede llegar a la misma conclusión con menos “palabras internas”. Para empresas que pagan por token, esa eficiencia puede compensar con creces el incremento de tarifa por millón de tokens.

Navegación web y búsquedas complejas

Otro terreno donde GPT-5.4 avanza respecto a sus predecesores es la interacción con la web. En benchmarks como BrowseComp, centrados en tareas de búsqueda e investigación online, el nuevo modelo alcanza alrededor del 82,7 %, frente al 65,8 % de GPT-5.2. OpenAI sostiene que GPT-5.4 es especialmente bueno a la hora de identificar información relevante entre grandes cantidades de datos, lo que llaman consultas tipo “aguja en un pajar”.

Para periodistas, analistas de mercado o investigadores europeos, esta capacidad supone poder delegation parte del trabajo de cribado de información en la IA, manteniendo un papel de supervisión y verificación final. El modelo puede rastrear múltiples fuentes, seleccionar las que parecen más fiables y ofrecer un resumen razonado, reduciendo el tiempo dedicado a búsquedas repetitivas.

Precios más altos, pero también más eficiencia

En el apartado económico, GPT-5.4 llega con un incremento de precios respecto a GPT-5.2. El modelo estándar cuesta 2,50 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida, frente a los 1,75 y 14 dólares, respectivamente, de GPT-5.2. La versión GPT-5.4 Pro es bastante más cara: 30 dólares por millón de tokens de entrada y 180 dólares por millón de tokens de salida, cifras claramente orientadas a proyectos empresariales de alto valor añadido.

OpenAI defiende estas tarifas apoyándose en la mayor eficiencia en el consumo de tokens y en la reducción de errores. Si un modelo necesita muchos menos tokens para resolver la misma tarea y además comete menos fallos que requieran corrección manual, el coste total por proyecto puede ser menor incluso con un precio por token más elevado. Para grandes cuentas en Europa, desde bancos sistémicos hasta grandes grupos industriales, el debate ya no se centra tanto en el precio nominal por millón de tokens, sino en el coste global de automatizar procesos con garantías.

Un lanzamiento en medio de polémicas y competencia feroz

GPT-5.4 no aparece en el vacío. Llega en medio de una competencia muy reñida con Anthropic y Google, y en pleno ruido mediático por los acuerdos de OpenAI con el Pentágono. Mientras que Anthropic ha ganado terreno en el segmento empresarial con modelos como Claude Opus 4.6 y un discurso más centrado en la seguridad, Google compite con su familia Gemini y capacidades multimodales avanzadas. En este contexto, GPT-5.4 busca colocarse como modelo de referencia en capacidad agéntica, uso de ordenador y contexto largo.

Al mismo tiempo, el movimiento llega tras campañas como #CancelChatGPT y QuitGPT, que han impulsado a cientos de miles de personas a cancelar sus suscripciones o a anunciar un boicot en redes sociales. La percepción de que OpenAI habría aceptado un contrato militar sin suficientes salvaguardas, mientras Anthropic lo rechazaba, ha erosionado parte del capital reputacional de la compañía. Desde Europa, donde el debate sobre el uso ético de la IA y la regulación avanza con marcos como la futura Ley de IA, estos acuerdos se observan con especial atención.

Costes de infraestructura y presión por la rentabilidad

Detrás de cada nueva versión de GPT hay una realidad menos visible: el coste de operar modelos cada vez más grandes y con ventanas de contexto gigantescas. OpenAI maneja cifras multimillonarias en gasto de infraestructura y computación, con proyecciones de pérdidas abultadas en los próximos años a pesar de un crecimiento notable de ingresos. Un modelo como GPT-5.4, con capacidad de procesar hasta un millón de tokens y modos de razonamiento que pueden extenderse durante horas, exige una potencia de cálculo considerable por solicitud.

Para contener esos costes, la compañía está apostando por hardware propio o especializado y por acuerdos con grandes proveedores de nube. También está segmentando su catálogo en varias gamas (Instant, Thinking, Pro, Codex) para ajustar cuánta potencia destina a cada tipo de petición. La introducción de modos configurables en GPT-5.4, que permiten elegir entre respuestas más rápidas y baratas o análisis más profundos, encaja con este intento de equilibrar capacidad y rentabilidad. En Europa, donde los centros de datos y el consumo eléctrico están bajo lupa regulatoria, este tipo de modelos también reabre el debate sobre el impacto energético de la IA.

Hacia una nueva normalidad: agentes, seguridad y cambios constantes

Más allá de la ficha técnica, GPT-5.4 refuerza una tendencia que ya se venía dibujando: la transición de los chatbots a los agentes autónomos. La combinación de uso nativo del ordenador, contexto largo y herramientas dinámicas apunta a sistemas capaces de gestionar procesos completos con intervención humana puntual. Firmas de análisis prevén que, para finales de 2026, una parte importante de las grandes corporaciones utilicen arquitecturas basadas en agentes de la serie GPT-5.x para tareas críticas, desde la atención al cliente hasta la gestión documental interna.

Ese movimiento viene acompañado de preguntas incómodas sobre seguridad y control. Si un modelo puede trabajar durante horas, consultando datos sensibles y ejecutando acciones en sistemas internos, los mecanismos de supervisión y las barreras de seguridad tienen que ser mucho más robustos. Voces dentro y fuera de la industria, incluida la comunidad investigadora europea, llevan tiempo advirtiendo de que la carrera por lanzar modelos cada vez más potentes no puede ir por delante del desarrollo de salvaguardas efectivas.

Con GPT-5.4, OpenAI intenta demostrar que puede ofrecer más potencia, más autonomía y más eficiencia sin perder de vista la fiabilidad. El modelo mejora en benchmarks, reduce errores, usa menos tokens y es capaz de manejar el ordenador con soltura, pero también llega en medio de dilemas éticos, presión competitiva y dudas sobre la sostenibilidad económica de este ritmo de innovación. Para empresas y profesionales en España y en el resto de Europa, la cuestión ya no es solo si la tecnología es impresionante, sino cómo integrarla de forma responsable en su día a día, con beneficios claros y riesgos asumibles.

from Linux Adictos https://ift.tt/LrOYFQy
via IFTTT