Diferencia entre revisiones de «Tecnologías multimedia e interacción/Herramientas de análisis de audio»

Contenido eliminado Contenido añadido
Jacynycz (discusión | contribs.)
Sin resumen de edición
Jacynycz (discusión | contribs.)
Sin resumen de edición
Línea 29:
[[File:4-bit-linear-PCM.svg|thumb|Digitalización de una señal de audio]]
Debido a la digitalización de audio, para poder analizar un sonido hay que ''reconstruir'' este y analizarlo después. Los formatos de audio digitales representan los datos de una forma diferente y eso dificulta muchas veces el análisis de audio en formatos diferentes, ya que un algoritmo de análisis puede dar resultados diferentes en función de la compresión de audio a pesar de que se esté analizando la misma canción.
 
Los formatos de audio más utilizados actualmente son el MP3<ref>https://tools.ietf.org/html/rfc3003</ref> y WAV<ref>http://web.archive.org/web/20141213140451/https://ccrma.stanford.edu/courses/422/projects/WaveFormat/</ref>, aunque últimamente con la salida de plataformas de streaming como Spotify<ref>https://www.spotify.com/us/</ref> estos formatos están dejando de ser utilizados. De los más utlizados, WAV es el mejor para el análisis de audio ya que la compresión es menor que la de MP3 y por lo tanto conserva más características originales del audio del que se quieren sacar datos.
 
= Herramientas de análisis =
Las herramientas de análisis de audio son recursos que se usan para obtener información de una canción, una vez tenemos la extracción de frecuencias y amplitudes hecha. Esta extracción es básica porque prácticamente todo el anális de audio se basa en frecuencia-amplitud-tiempo.
 
== Espectrograma ==
[[File:Espectrogramas.png|thumb|Diferentes tipos de espectrogramas con el mismo audio]]
Un espectrograma es la representación de la frecuencia y la amplitud en una imagen. Al ser una representación de las dimensiones de tiempo, frecuencia y amplitud, se suele recurrir a un mapa de calor, en la que el eje Y es es la frecuencia, el eje X es el tiempo, y la amplitud se representa con una intensidad de una escala de colores.
 
En función de lo que se quiera representar o analizar existen tres tipos fundamentales de espectrogramas:
 
# '''Espectrograma Lineal''': es el espectrograma que se obtiene por la trasformada de Fourier de tiempo reducido, es el espectrograma más común a la hora de representar el audio en vivo ya que muestra con bastante exactitud las frecuencias que se están reproduciendo en el momento.
# '''Espectrograma de Mel''': es un espectrograma lineal pero elevando los valores de las frecuencias en función de los coeficientes cepstrales de las frecuencias de Mel<ref>https://es.wikipedia.org/wiki/MFCC</ref>. Estos están basados en la percepción auditiva humana, para poder contenido relevante dentro de un audio, obviando las que posean información poco valiosa para en análisis. Este espectrograma es utilizado tanto par el reconocimiento fonético como para el análisis del habla.
# '''Espectrograma logarítmico (o espectrograma de Q constante)''': este espectrograma utiliza la transformada de Q-Constante<ref>http://www.ee.columbia.edu/ln/rosa/matlab/sgram/</ref> para obtener las frecuencias del audio. Con este sistema se mejora la extracción de amplitud con respecto a la fase del audio y es utilizado mucho en análisis de música.
 
== Detección del tempo ==
 
== Detección de acordes ==
 
== Obtención de coeficientes cepstrales ==
 
= Resultados =