EnCodec, el nuevo codec de audio de Meta

Encodec es un codec que decodifica utilizando una red neuronal con una tasa de compresión aproximada de 10x

Hace poco, Meta (anteriormente Facebook) dio a conocer su nuevo códec de audio llamado EnCodec, que utiliza técnicas de aprendizaje automático para aumentar la relación de compresión sin perder calidad.

El nuevo enfoque puede comprimir y descomprimir audio en tiempo real para lograr reducciones de tamaño de última generación. El códec se puede utilizar tanto para la transmisión de audio en tiempo real como para la codificación para el almacenamiento posterior en archivos.

Hoy, estamos detallando el progreso que nuestra investigación fundamental de IA (FAIR) ha realizado en el área de la hipercompresión de audio impulsada por IA. Imagínese escuchar el mensaje de audio de un amigo en un área con poca conectividad y que no se detenga o falle. Nuestra investigación muestra cómo podemos usar la IA para ayudarnos a lograr esto.

EnCodec ofrecen dos modelos listos para descargar:

Un modelo causal que utiliza una frecuencia de muestreo de 24 kHz, solo admite audio monofónico y se entrena en una variedad de datos de audio (adecuado para la codificación de voz). El modelo se puede utilizar para empaquetar datos de audio para su transmisión a velocidades de bits de 1,5, 3, 6, 12 y 24 kbps.
Un modelo no causal que usa una frecuencia de muestreo de 48 kHz, admite sonido estéreo y se entrenó solo con música. El modelo admite tasas de bits de 3, 6, 12 y 24 kbps.

Para cada modelo, se ha preparado un modelo de lenguaje adicional, lo que permite lograr un aumento significativo en la relación de compresión (hasta un 40%) sin pérdida de calidad. A diferencia de proyectos anteriores para aplicar técnicas de aprendizaje automático a la compresión de audio, EnCodec se puede utilizar no solo para el empaquetado de voz, sino también para la compresión de música con una frecuencia de muestreo de 48 kHz, correspondiente al nivel de los CD de audio.

Según los desarrolladores del nuevo códec, al transmitir a una tasa de bits de 64 kbps en comparación con el formato MP3, lograron aumentar la relación de compresión de audio unas diez veces manteniendo el mismo nivel de calidad (por ejemplo, al usar MP3 requiere un ancho de banda de 64 kbps, para transferir con esa misma calidad en EnCodec, 6 kbps son suficientes).

Estos datos pueden luego ser decodificados utilizando una red neuronal. Logramos una tasa de compresión aproximada de 10x en comparación con MP3 a 64 kbps, sin pérdida de calidad. Si bien estas técnicas se han explorado antes para el habla, somos los primeros en hacerlo funcionar para audio estéreo muestreado de 48 kHz (es decir, calidad de CD), que es el estándar para la distribución de música.

La arquitectura del códec está construida sobre la base de una red neuronal con la arquitectura «transformador» y se basa en cuatro enlaces: codificador, cuantificador, decodificador y discriminador:

El codificador extrae los parámetros de los datos de voz y los convierte en un flujo empaquetado a una velocidad de fotogramas más baja.
El cuantificador (RVQ, Residual Vector Quantizer) convierte el flujo de salida del codificador en conjuntos de paquetes, comprimiendo la información en relación con la tasa de bits seleccionada. La salida del cuantificador es una representación comprimida de los datos adecuados para la transmisión a través de la red o para guardarlos en el disco.
El decodificador decodifica la representación de datos comprimidos y reconstruye la onda de sonido original.
El discriminador mejora la calidad de las muestras generadas (muestra) teniendo en cuenta el modelo de percepción auditiva humana.

Independientemente del nivel de calidad y tasa de bits, los modelos utilizados para codificar y decodificar difieren en requisitos de recursos bastante modestos (los cálculos necesarios para la operación en tiempo real se realizan en un núcleo de CPU).

Finalmente, para los que esten interesados, deben saber que la implementación de referencia de EnCodec está escrita en Python utilizando el marco PyTorch y tiene una licencia CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) solo para uso no comercial.

Si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.

from Linux Adictos https://ift.tt/fITNMBz
via IFTTT

Pacosite's Blog

Comunicaciones, Linux, Tecnología e Internet

EnCodec, el nuevo codec de audio de Meta

Share this:

Related