
En un giro técnico fascinante, Apple logró que sus presentadores pudieran referirse a Siri repetidamente durante un keynote sin activar a millones de iPhones alrededor del mundo. Un ingeniero audiófilo descubrió el porqué detrás de esta maniobra, basada en un detalle sutil pero poderoso: las frecuencias del audio.
La clave reside en que Siri no escucha las palabras en sí mismas, sino un conjunto de patrones sonoros específicos. En los iPhones, existe un procesador siempre activo que analiza el sonido de fondo y lo transforma en un espectrograma para detectar la frecuencia característica de la frase de activación. En concreto, los sonidos sibilantes de la expresión “Hey Siri” se concentran en un rango aproximado de 3 kHz a 6 kHz.
Durante la WWDC 2026, Apple realizó ajustes sutiles en el audio del keynote. Un análisis de espectrograma reveló que algunas bandas de frecuencias dentro de ese rango fueron eliminadas del audio. Al eliminar estas bandas, el sistema de Siri ya no “escucha” la activación, incluso cuando los presentadores pronuncian la frase en voz alta.
Este enfoque no depende de silenciar palabras por completo, sino de interferir con las frecuencias que el reconocimiento vocal considera clave. Si esas bandas entre 3 kHz y 6 kHz se suprimen, Siri no percibe el disparador, evitando activaciones accidentales en miles de dispositivos.
¿Cómo funciona exactamente?
La solución de Apple puede parecer extraña a primera vista: ¿no está Siri diseñada para detectar palabras específicas? En realidad, el iPhone incluye un chip de procesamiento en constante funcionamiento que captura audio de fondo y lo envía a una red neuronal. Este proceso convierte el sonido en un espectrograma y busca patrones de frecuencia que indiquen la presencia de la activación.
Los sonidos de las sibilantes que forman la clave de “Hey Siri” residen principalmente en el rango de 3 kHz a 6 kHz. Si se eliminan esas bandas en la señal de audio del keynote, Siri no “escucha” su nombre, aunque los presentadores lo pronuncien de forma natural.
En definitiva, se trata de una solución ingeniosa que permite a los ponentes hablar libremente sin interrumpir a los usuarios ni desencadenar activaciones involuntarias. Es un ejemplo de cómo un ajuste técnico aparentemente menor puede resolver un problema práctico y molesto, manteniendo al mismo tiempo la fluidez de la presentación.
Este enfoque, detallado por analistas y divulgadores especializados, subraya la creatividad que acompaña al diseño de experiencias de usuario, donde la precisión de la escucha automática se equilibra con la necesidad de evitar interrupciones no deseadas. Apple, una vez más, demuestra que la elegancia puede residir en la economía de señales y en la comprensión profunda de cómo escucha un asistente virtual.
from Latest from TechRadar https://ift.tt/mJDCu6L
via IFTTT IA