Claude Sonnet 5 y la evolución de los asistentes: de respuestas a trabajos completos


Anthropic ha lanzado recientemente Claude Sonnet 5 para todos los usuarios, y quería probar en qué destaca. Pero el juego ha cambiado. Sonnet 5 no se siente drásticamente diferente de Gemini o ChatGPT si se le preguntan preguntas simples de chatbot. La diferencia debe notarse cuando dejamos de pedir respuestas y empezamos a pedir trabajos completos.

Anthropic afirma que Sonnet 5 está diseñado para trabajos de ingeniería de software en múltiples pasos, codificación sostenida, uso de herramientas, depuración y contextos técnicos amplios. También indica que puede hacer planes, usar navegadores y terminales, y operar de forma más autónoma que los modelos más pequeños y económicos con los que se comparaba antes.

No voy a usar Sonnet 5 para codificar, pero eso no significa que no pueda aprovechar sus nuevas capacidades, tal como ustedes pueden hacerlo. Así que dejé de pedir respuestas y empecé a pedirle que termine trabajos, comenzando por planificar un viaje a Bath, Reino Unido, para mi familia: mi esposa, yo y dos adolescentes.

Un viaje a Bath

Al probarlo, Claude Sonnet 5 se configuró por defecto en un nivel medio de esfuerzo, y eso es lo que elegí. Aquí está el primer prompt que probé:

“Quiero probar si puedes actuar más como un agente que como un chatbot.”

Mi tarea es: Planificar un viaje de fin de semana a Bath para dos adultos y dos adolescentes, incluyendo transporte, almuerzo, una actividad, estimación de costos y qué aún necesita reservarse.

No me des solo consejos. Primero, haz un plan breve. Luego identifica qué partes de la tarea puedes completar tú mismo ahora, qué partes requieren herramientas o información que no tienes y qué partes requieren juicio humano.

Luego completa la mayor parte posible de la tarea sin detenerse tras la primera respuesta obvia.

Al final, proporciona:

Qué completaste

Qué aún necesita acción humana

Qué suposiciones hiciste

Una lista de verificación corta para verificar el resultado

El siguiente mejor paso”

Lo que más me gustó fue que, mientras Claude abordaba esta tarea, me dio la opción de recibir una notificación cuando terminara. En realidad, tardó unos segundos en regresar con un plan que incluía opciones de transporte, un itinerario y una sugerencia para el almuerzo y una actividad: una visita a The Roman Baths.

Para mi sorpresa, Claude dio un mapa interactivo que mostraba dónde estaban todos los lugares recomendados. También proporcionó una lista útil de lo que había completado, lo que requería acción humana, las suposiciones hechas, una lista de verificación de verificación y un punto de acción para el próximo paso. Parecía listo para seguir trabajando conmigo a medida que entraban más detalles, en lugar de tratar su primera respuesta como final.

De hecho, cuando le di más detalles, como qué día iría, me mostró un informe meteorológico visual para ese día. Fue un detalle muy agradable.

Cladue Sonnet 5 maps.

Claude Sonnet 5 produjo un mapa útil para ubicar dónde ir.(Imagen: Anthropic)

Claude vs ChatGPT

También probé este prompt con ChatGPT-5.5 Medium y obtuve un resultado similar. Actuó como un agente, igual que Claude, y me notificó cuando terminó sus tareas. Simplemente no se veía tan bonito. No había mapa ni elementos visuales, y se sentía más como si me entregaran un informe ya terminado que como el inicio de una conversación bidireccional en la que pidiera más detalles.

Ambos chatbots recomendaron almuerzo y una visita a The Roman Baths. Curiosamente, ChatGPT daba por hecho que iría en tren, mientras que Claude asumía que conduciría. También recomendaron lugares para comer diferentes, pero la información central que proporcionaron fue sólida.

Lo más impresionante fue que ambos modelos pudieron adaptarse cuando reformulé las entradas. Por ejemplo, al indicar edades de los niños, estatus de estudiante, un modo de transporte distinto o cambiar el día del viaje, ambos modelos pudieron ajustarse. Ambos también identificaron que, dado que el mayor era estudiante universitario, podía acceder gratis a The Roman Baths.

Esta parte de la prueba fue probablemente la más significativa, ya que se sintió mucho más de tipo “multietapas” que simplemente entregar una única respuesta.

En general, daría el veredicto a Claude. Se puede ver claramente que Sonnet 5 está orientado a acciones agentas. Ni Claude ni ChatGPT podían hacer la reserva real por mí en ese momento, por lo que todavía estamos lejos de una autonomía de asistente personal. Pero para este tipo de tarea, Claude tiene la ventaja en la actualidad.

Otro dominio

Quise probar los modelos en un dominio distinto que permitiera a Claude demostrar una mejora real y que el resultado de Bath no fuera un caso aislado de planificación de viajes. Así que les pedí a ambos:

“Construye una hoja de ruta simple para un presupuesto familiar en forma de hoja de cálculo o herramienta pequeña.”

Ambos modelos pensaron un poco y evaluaron varias opciones antes de optar por una hoja de cálculo. ChatGPT produjo una hoja de cálculo con un gráfico de barras que seguía cuánto se gastaba en diversas categorías frente a un presupuesto. Claude, en cambio, eligió algo más simple: registrar solo gastos reales y crear un gráfico de pastel para mostrar a dónde iba el dinero.

La aproximación inicial de Claude fue más simple y fácil de entender. Ambos entregaron archivo .xlsx, pero solo Claude proporcionó un botón para subirlo directamente a Google Drive para abrirlo en Sheets.

Dije a ChatGPT: “Quiero que el gráfico sea de pastel”, y respondió: “Absolutamente — actualizaré la hoja de cálculo para que el panel use un gráfico de pastel para los gastos por categoría, en lugar del estilo de gráfico actual.”

Tuvo algunos problemas porque intentaba mostrar tanto el presupuesto como los valores reales en el mismo gráfico de pastel, pero finalmente funcionó que solo mostrara uno y produjo una nueva hoja de cálculo que hizo exactamente lo que pedí.

Luego le pedí a Claude que cambiara su hoja de cálculo para incluir una sección de presupuesto y que cambiara el gráfico a un gráfico de barras. Nuevamente, mostró su trabajo y añadió una sección de presupuesto y gráficos de barras perfectamente.

No puedo separar a los dos modelos de IA en esta tarea. Ambos demostraron que pueden manejar tareas de múltiples pasos y ambos estuvieron dispuestos a revisar el resultado cuando cambié el brief.

Ese, en realidad, es el punto. Las pruebas de IA más interesantes ahora no son “qué chatbot da la mejor respuesta”, sino “qué asistente continúa trabajando hasta que el trabajo está realmente hecho”.

En ese aspecto, Claude Sonnet 5 resulta extremadamente capaz. ChatGPT estaba muy cerca, y en algunas circunstancias era igual de eficaz, pero Claude se sentía más naturalmente organizado alrededor de la idea de completar un trabajo en lugar de simplemente responder a indicaciones. Presentaba su salida de forma más útil y hacía que todo el proceso pareciera una colaboración con un asistente en lugar de una entrevista de preguntas y respuestas.

Por ahora, ninguno de los dos modelos está listo para hacerse cargo por completo del trabajo. Aún tuve que revisar los detalles, tomar las decisiones y realizar la reserva o la subida por mi cuenta. Pero la dirección es clara. La “guerra” de IA ya no se trata solo de quién tiene el chatbot más inteligente. Se trata de quién puede construir al asistente que te acerque más a completar una tarea.

from Latest from TechRadar https://ift.tt/gyF9A0T
via IFTTT IA