Formatos y procesamiento de música y sonido

Ortografía

Esta página o sección necesita una revisión de ortografía y gramática.
Puedes ayudar editándolo

Este recurso de aprendizaje es una lección creada originalmente como material didáctico del proyecto de aprendizaje Tecnologías multimedia e interacción.

Sonido de silbato con glissandos

Saz (sonido del instrumento)

Introducción

Es importante aclarar la distinción entre formato de audio y códec de audio. El códec codifica y decodifica los datos del audio mientras estos datos son archivados en un archivo que tiene un formato de audio específico.

La mayoría de formatos listados abajo son formatos contenedores, formatos que agrupan diferentes tipos de datos. La mayoría de estos formatos contenedores tienen asociado solo un códec, junto al cual son almacenados metadatos. Sin embargo existen formatos que agrupan datos de audio y video producidos por diferentes códecs. Algunos de estos formatos contenedores que agrupan diferentes tipos de datos son: MP4, Ogg, WAV, QuickTime Format, AVI.

En este artículo hablamos de formatos de audio, pero en realidad estamos discutiendo las propiedades del códec asociado al formato.

A la hora de clasificar los formatos de audio podemos distinguir tres grandes grupos.

Sin compresión de datos: Son ondas de sonido reales que se han capturado y convertido a formato digital sin ningún procesamiento posterior. Como resultado, los archivos de audio sin comprimir tienden a ser los más precisos.
Con compresión, sin pérdida de datos: Son utilizados algoritmos de compresión a fin de reducir el tamaño de los archivos; básicamente funciona eliminando la redundancia.
Con compresión y pérdidas de datos: Es una forma de compresión que pierde datos durante el proceso de compresión. En el contexto del audio, eso significa sacrificar calidad y fidelidad para disminuir el tamaño del archivo. La buena noticia es que, en la mayoría de los casos, no notaremos la diferencia al escuchar.

Formatos de audio sin compresión de datos

WAV

WAV es un formato contenedor que puede contener datos generados por diferentes códecs, aunque normalmente este contiene datos de audio sin comprimir y sin pérdidas. Es desarrollado con fines comerciales para el reproductor integrado en Windows, Windows Media Player. Son utilizados dos canales (stereo) de 44100 muestras (44.1 kHz) por segundo y 16 bits de profundidad, haciendo este formato compatible con el estándar de codificación audio de los CDs.

Dado que este formato no utiliza (normalmente) compresión y no tiene pérdidas, es utilizado por profesionales a fin de conseguir la máxima calidad. La edición y manipulación de estos archivos mediante software resulta relativamente simple. El único inconveniente que este formato presenta es el tamaño de los archivos, normalmente ocupando 10Mbs por minuto de audio.

La extensión de archivo más utilizada es .wav.

Para más información: https://es.wikipedia.org/wiki/Waveform_Audio_Format

AIFF

Gnome-mime-audio-aiff

Es un formato muy similar al WAV, sin compresión y sin pérdidas. También existe una variante con compresión que es conocida como AIFC. A diferencia de WAV, que es utilizado en Windows, AIFF es el estándar de audio digital utilizado por Apple y Silicon Graphics Incorporated.

Las extensiones de archivo más utilizadas son .aiff, .aif y .aifc.

Para más información: https://es.wikipedia.org/wiki/Audio_Interchange_File_Format

Formatos de audio con compresión de datos

FLAC. Free Lossless Audio Codec

Es un formato que utiliza compresión sin pérdida de datos. Al utilizar compresión los archivos que este formato maneja son menores, sin embargo estos tienen la misma calidad, dado que el algoritmo de compresión no introduce pérdidas. Típicamente, la reducción de tamaño que se consigue en comparación a WAV y AIFF ronda entre los 50% y 60%.

Flac utiliza un algoritmo especial para compresión de audio, los archivos resultantes ocupan menos que si se hubiera utilizado un algoritmo de compresión estadística como ZIP. Flac usa la predicción lineal para convertir las muestras en series de pequeños números no correlativos (conocidos como "residuos"), que se almacenan eficientemente usando la codificación Golomb-Rice. Además de esto, para aprovechar los silencios, donde los valores numéricos presentan mucha repetición, usa codificación por longitud de pista (RLE Run-Length Encoding) para muestras idénticas.

El algoritmo utilizado para la compresión acepta un parámetro que puede tomar los valores comprendidos entre 0 (más rápido) y 8 (más pequeño). Este parámetro condiciona el tiempo de cómputo que el algoritmo necesita y también el tamaño del archivo final. La compresión en todos los casos es perfecta, sin pérdidas. La de-codificación por otro lado no es influenciada por el nivel de compresión utilizado, siendo esta casi siempre poco costosa.

Entre los formatos que utilizan compresión sin pérdidas, éste cuenta con el mayor apoyo, tanto por los usuarios como por los fabricantes. Esta popularidad es debida a que los archivos FLAC pueden ser transmitidos por Streaming, además de poseer unos tiempos de de-codificación muy bajos. A esta popularidad también aporta el hecho de que éste es un formato abierto con licencia libre de regalías. Existe una implementación de referencia la cual es también libre.

La extensión de archivo más utilizada es .flac.

Para más información: https://es.wikipedia.org/wiki/Free_Lossless_Audio_Codec

ALAC. Apple Lossless Audio Codec.

Es un formato de audio digital con compresión sin pérdida de datos. Fue lanzado por Apple Inc. en el año 2004 bajo una licencia privada, aunque desde el año 2011 es open-source. El formato es capaz de soportar 8 canales de audio y 32 bits de profundidad a una máxima frecuencia de 384kHz.

En cuanto al los resultados que se obtienen al comprimir audio estos son muy similares a los conseguidos por FLAC, alrededor de los 50% - 60%.

Este formato es muy popular entre los usuarios de Apple, dado que iTunes no soporta otros formatos de compresión de audio sin pérdidas.

La extensión de archivo más utilizada es .m4a.

Para más información: https://es.wikipedia.org/wiki/Apple_Lossless

APE. Monkey’s Audio.

Es software propietario de Monkey’s Audio , está mucho menos extendido y no ofrece un soporte completo para todas las plataformas (solo windows), pero es otra alternativa a tener en cuenta, ya que da muy buenos resultados en compresiones sin pérdidas. Generalmente consigue tasas de compresión algo mejores que FLAC.

Suele ser muy lento para descomprimir en dispositivos de audio portátiles.

Los archivos de Monkey’s Audio usan la extensión .ape para el audio, y .apl para los metadatos de la pista.

Para más información: https://es.wikipedia.org/wiki/Monkey%27s_Audio

Formatos de audio con compresión y pérdida de datos

MP3

Torchlight mp3

Es el formato más popular de audio digital, es usado tanto para Streaming como almacenamiento y también es el estándar de facto para la mayoría de reproductores de audio digital.

Utilizando un algoritmo con pérdidas, este formato es capaz ofrecer una reproducción fiel al original a pesar de reducir los tamaños de archivo de forma drástica. Conservando la frecuencia de muestreo el formato es capaz de reducir el tamaño de los archivos a un 1/11 del tamaño original. El formato también puede jugar con las frecuencias de muestreo, a fin de reducir el tamaño del archivo resultante.

El algoritmo usado para la compresión usa modelos psicoacústicos para descartar o reducir la precisión de fragmentos que son apenas perceptibles al sistema auditivo de los humano. La mayoría de archivo que circular por la red usan 128kbps, calidad suficiente para la mayoría de usuarios. Sin embargo al usar equipos de alta calidad la pérdida de información se nota, siendo la compresión en 320kbps una compresión óptima para cualquier escucha.

La extensión de archivo más utilizada es .mp3.

Para más información: https://es.wikipedia.org/wiki/MP3

AAC. Advanced Audio Coding

Torchlight aac2

Es un formato de audio diseñado para ser el sucesor de MP3. Al igual que el anterior este usa técnicas de compresión con pérdidas, pero es capaz de conseguir mejor calidad de audio utilizando la misma cantidad de bits por segundo. Esta diferencia es perceptible a tasas de bits por segundo bajas, por debajo de lo 100kbps. Al utilizar tasas de bits más altas, el comportamiento de AAC es igual al la de MP3.

Otras de las mejoras que AAC ofrece respecto a MP3 son:

Más frecuencias de muestreo desde 8kHz a 96kHz, donde MP3 ofrece desde 16kHz a 48kHz.
Hasta 48 canales, donde MPEG-1 ofrece dos y MPEG-2 5.1 canales. Haciendo este estándar muy apropiado para el uso en sonido envolvente.

AAC es el formato de audio estándar para YouTube, iPhone, iPod, iPad, Nintendo DSi, Nintendo 3DS, iTunes y PlayStation 3.

La extensión de archivo más utilizada es .m4a.

Para más información: https://es.wikipedia.org/wiki/Advanced_Audio_Coding

Vorbis

Vorbisword2

Este es otro formato de compresión con pérdidas. Destaca por ser comparable en cuanto a rendimiento con AAC. Este formato soporta un rango de frecuencias mucho más amplio, desde los 8kHz hasta los 192kHz. El número de canales soportados también es respetable, 255.

El punto fuerte de este formato es que a diferencia de los otros formatos, Vorbis es completamente libre y abierto.

La extensión de archivo más utilizada es .ogg, .oga.

Para mas información: https://es.wikipedia.org/wiki/Vorbis

WMA

VLC wma

Este es otro formato de compresión con pérdidas. Es ampliamente utilizado por ser el estándar de audio digital de Windows. Aparte de eso, no ofrece ninguna mejora notable.

Existen cuatro variantes, cada una con su propósito específico. WMA, similar al MP3. WMA Pro que soporta surround y es de alta resolución. WMA Lossless un códec de compresión sin pérdida. Finalmente WMA Voice, enfocado al contenido hablado.

La extensión de archivo más utilizada es .wma.

Para más información: https://es.wikipedia.org/wiki/Windows_Media_Audio

OPUS

Opus es un nuevo formato de audio con perdida (Lanzado en 2012), con la particularidad de que dicho formato puede utilizarse tanto para compresión de audio tradicional como compresión de audio orientada a voz, que tiene unas características ligeramente diferentes: no se requiere tanta calidad de audio (pero si un tamaño reducido) y debe ser muy rápido, ya que se busca utilizar en operaciones de tiempo real, como VoIP para llamadas de voz.

Estamos por lo tanto, ante un formato que puede utilizarse para múltiples tareas, adaptándose a cada una de ellas a la perfección. Opus reemplazó al antiguo codec Speex, otro códec de audio orientado a voz, es de código abierto desarrollado por la fundación Xiph.org.

La extensión de archivo es .opus.

Para más información: http://www.opus-codec.org/

Otros

MIDI

Este no es un formato de audio digital, es un protocolo que permite la comunicación entre instrumentos musicales electrónicos, computadoras y otros dispositivos relacionados. El sistema MIDI lleva mensajes de eventos que especifican notación musical, tono y velocidad; señales de control para parámetros musicales como lo son la dinámica, el vibrato, paneo, cues y señales de reloj que establecen y sincronizan el tempo entre varios dispositivos. Estos mensajes son enviados mediante un cable MIDI a otros dispositivos que controlan la generación de sonidos u otras características. Estos datos también pueden ser grabados en un hardware o software llamado secuenciador, lo cual permite editar la información y reproducirla posteriormente.

Las aplicaciones más comunes de este protocolo son:

Control de Instrumentos
Composición
Secuenciadores
Intercambio de archivos
Traducción y edición de partituras
Videojuegos por el pequeño tamaño de los archivos

La extensión de archivo más utilizada es .rmi.

Para más información: https://es.wikipedia.org/wiki/MIDI

Procesos de audio

Compresión

La compresión^[1] es un proceso que consiste en reducir el rango dinámico de una señal de audio.

Un aparato, denominado compresor, analiza la ganancia de la señal de entrada y, conforme a unos parámetros fijados, se atenúan aquellas partes que superan un nivel o umbral determinado según la configuración deseada.

En principio, la compresión se percibe una disminución del volumen general; de hecho, es así porque que el compresor reduce la ganancia de los “picos”, es decir, de las partes que acumulan una mayor energía sonora.

Sin embargo, se consiguen varios objetivos muy interesantes:

El sonido resultante suena más equilibrado y compensado, no hay tanta diferencia entre las partes suaves y las fuertes de la señal
Ganamos espacio de “headroom” (la diferencia entre el nivel nominal y el punto de saturación ) y podemos subir el volumen general de la señal un poco más sin “tocar techo” (los picos fueron atenuados). Como consecuencia, las partes que antes sonaban con poca fuerza ahora se escucharán mejor.
Permitirá integrar la señal con mayor facilidad y claridad en la mezcla general.

Normalización

La normalización^[2] es un proceso dinámico atípico, muy distinto a la compresión, la limitación, la expansión o la reducción de ruido:

No reduce el rango dinámico relativo de la señal de audio.
No se aplica en “tiempo real”, o en el momento, sino que es un proceso que se realiza “a posteriori”, sobre el material previamente grabado.

El proceso para normalizar audio se resume del siguiente modo:

La normalización analiza el material y detecta su pico de volumen más alto. A continuación, aumenta su ganancia hasta el máximo posible sin que supere el nivel de referencia (a partir del cual se produciría distorsión).
Tomando como referencia la misma proporción de incremento aplicada en el paso anterior se aumenta el nivel del resto.
La señal, en general, sonará con un mayor volumen. El nivel máximo de volumen que podemos alcanzar depende del límite marcado por el pico más alto.
La relación entre las partes de menor y las de mayor volumen de la señal permanece inalterable (no varía el margen dinámico).

Holofonía

Artículo principal: Tecnologías Multimedia e Interacción/Holofonía.

Es un sistema de grabación que utiliza una técnica de exposición múltiple: se produce mediante la grabación del patrón de interferencia generado cuando el sonido original grabado se combina con una señal digital de referencia inaudible, produciendo un sonido totalmente envolvente y nítido.

Conclusiones

Durante la investigación llevada a cabo sobre los diferentes formatos de audio digital me he dado cuenta de que había bastantes más de los que ya conocía. También se puede decir que siempre habrá un formato adecuado para cada tipo de problema que se pueda plantear, como por ejemplo:

Si deseo componer música digital en una mesa de mezclas: el formato MIDI es el adecuado.
Si tengo los reproductores de window: el formato adecuado es WAV.
Si deseo hacerme una biblioteca de música digital: en este caso tenemos varias opciones, MP3, Vorbis, AAC.

En conclusión, podemos decir que el conocimiento de formatos de audio digital es fundamental para poder decidir cual es el formato más adecuado para el tipo de problema que se plantea.

Cuestiones varias

Consejos para mejorar la wiki

Referencias

Participantes activos

Participantes antiguos

Javier Mansilla Montero

Citas

↑ «La compresión». Musicalecer. Creación, edición y producción musical (en español de España). 2014-03-07. Consultado el 2017-05-15.
↑ «La normalización». Musicalecer. Creación, edición y producción musical (en español de España). 2014-03-31. Consultado el 2017-05-15.

[1] «La compresión». Musicalecer. Creación, edición y producción musical (en español de España). 2014-03-07. Consultado el 2017-05-15.

[2] «La normalización». Musicalecer. Creación, edición y producción musical (en español de España). 2014-03-31. Consultado el 2017-05-15.

[1]

[2]