real time web analytics

El códec de audio impulsado por IA de Meta promete una compresión 10x sobre MP3

Una representación ilustrada de datos en una onda de audio.
Agrandar / Una representación ilustrada de datos en una onda de audio.

Meta IA

La semana pasada, Meta anunció un método de compresión de audio impulsado por IA llamado “EnCodec” que, según se informa, puede comprimir audio 10 veces más pequeño que el formato MP3 a 64 kbps sin pérdida de calidad. Meta dice que esta técnica podría mejorar drásticamente la calidad del sonido del habla en conexiones de bajo ancho de banda, como llamadas telefónicas en áreas con servicio irregular. La técnica también funciona para la música.

Meta presentó la tecnología el 25 de octubre en un artículo titulado “Compresión de audio neuronal de alta fidelidad”, escrito por los investigadores de Meta AI Alexandre Défossez, Jade Copet, Gabriel Synnaeve y Yossi Adi. Meta también resumió la investigación en su blog dedicado a EnCodec.

Meta afirma que su nuevo codificador/descodificador de audio puede comprimir audio 10 veces más pequeño que MP3.
Agrandar / Meta afirma que su nuevo codificador/descodificador de audio puede comprimir audio 10 veces más pequeño que MP3.

Meta IA

Meta describe su método como un sistema de tres partes entrenado para comprimir audio a un tamaño objetivo deseado. En primer lugar, el codificador transforma los datos sin comprimir en una representación de “espacio latente” de velocidad de fotogramas más baja. El “cuantificador” luego comprime la representación al tamaño objetivo mientras realiza un seguimiento de la información más importante que luego se usará para reconstruir la señal original. (Esta señal comprimida es lo que se envía a través de una red o se guarda en el disco). Finalmente, el decodificador vuelve a convertir los datos comprimidos en audio en tiempo real utilizando una red neuronal en una sola CPU.

Un diagrama de bloques que ilustra cómo funciona la compresión EnCodec de Meta.
Agrandar / Un diagrama de bloques que ilustra cómo funciona la compresión EnCodec de Meta.

Meta IA

El uso de discriminadores por parte de Meta resulta clave para crear un método para comprimir el audio tanto como sea posible sin perder elementos clave de una señal que la hacen distintiva y reconocible:

“La clave de la compresión con pérdida es identificar cambios que no serán perceptibles para los humanos, ya que la reconstrucción perfecta es imposible a velocidades de bits bajas. Para hacerlo, usamos discriminadores para mejorar la calidad perceptiva de las muestras generadas. Esto crea una cat- y el juego del ratón donde el trabajo del discriminador es diferenciar entre muestras reales y muestras reconstruidas. El modelo de compresión intenta generar muestras para engañar a los discriminadores empujando las muestras reconstruidas para que sean perceptualmente más similares a las muestras originales”.

Vale la pena señalar que el uso de una red neuronal para la compresión y descompresión de audio está lejos de ser nuevo, especialmente para la compresión de voz, pero los investigadores de Meta afirman que son el primer grupo en aplicar la tecnología al audio estéreo de 48 kHz (ligeramente mejor que la frecuencia de muestreo de 44,1 kHz de CD). ), que es típico de los archivos de música distribuidos en Internet.

En cuanto a las aplicaciones, Meta dice que esta “hipercompresión de audio” impulsada por IA podría admitir “llamadas más rápidas y de mejor calidad” en malas condiciones de red. Y, por supuesto, siendo Meta, los investigadores también mencionan las implicaciones del metaverso de EnCodec, diciendo que la tecnología eventualmente podría ofrecer “experiencias ricas en el metaverso sin requerir mejoras importantes en el ancho de banda”.

Más allá de eso, tal vez también obtengamos archivos de audio de música realmente pequeños algún día. Por ahora, la nueva tecnología de Meta permanece en la fase de investigación, pero apunta hacia un futuro donde el audio de alta calidad puede usar menos ancho de banda, lo que sería una gran noticia para los proveedores de banda ancha móvil con redes sobrecargadas de medios de transmisión.

Leave a Comment