Diferencia entre revisiones de «Tecnologías multimedia e interacción/Herramientas de análisis de audio»

Contenido eliminado Contenido añadido
Jacynycz (discusión | contribs.)
Sin resumen de edición
Línea 30:
Debido a la digitalización de audio, para poder analizar un sonido hay que ''reconstruir'' este y analizarlo después. Los formatos de audio digitales representan los datos de una forma diferente y eso dificulta muchas veces el análisis de audio en formatos diferentes, ya que un algoritmo de análisis puede dar resultados diferentes en función de la compresión de audio a pesar de que se esté analizando la misma canción.
 
Los formatos de audio más utilizados actualmente son el MP3<ref>https://tools.ietf.org/html/rfc3003</ref> y WAV<ref>http://web.archive.org/web/20141213140451/https://ccrma.stanford.edu/courses/422/projects/WaveFormat/</ref>, aunque últimamente con la salida de plataformas de streaming como Spotify<ref>https://www.spotify.com/us/</ref> estos formatos están dejando de ser utilizados. De los más utlizadosutilizados, WAV es el mejor para el análisis de audio ya que la compresión es menor que la de MP3 y por lo tanto conserva más características originales del audio del que se quieren sacar datos.
 
= Herramientas de análisis =
Las herramientas de análisis de audio son recursos que se usan para obtener información de una canción, una vez tenemos la extracción de frecuencias y amplitudes hecha. Esta extracción es básica porque prácticamente todo el análisanálisis de audio se basa en frecuencia-amplitud-tiempo.
 
== Espectrograma ==
[[File:Espectrogramas.png|450px|thumb|Diferentes tipos de espectrogramas con el mismo audio]]
Un espectrograma es la representación de la frecuencia y la amplitud en una imagen. Al ser una representación de las dimensiones de tiempo, frecuencia y amplitud, se suele recurrir a un mapa de calor, en la que el eje Y es es la frecuencia, el eje X es el tiempo, y la amplitud se representa con unala intensidad de una escala de colores.
 
En función de lo que se quiera representar o analizar existen tres tipos fundamentales de espectrogramas:
Línea 46:
 
== Detección del tempo ==
La detección de tempo de una canción es una de las herramientas fundamentales cuando se quiere analizar un audio, ya que, por ejemplo, la clasificación del género musical es altamente dependiente del tempo de la canción. El tempo de una canción es el primer paso de todos los algoritmos de clasificación de audio, por lo que fundamental disponer de buenos algoritmos de detección de tempo.
 
Estos algoritmos utilizan el siguiente sistema:
# Definen una ventana y hayan los máximos locales de cada uno de los fragmentos de esa ventana.
# Analizan la distancia de los máximos locales utilizando mapas de calor.
# El tempo con más valores es el que detecta el algoritmo.
 
Es importante notar que estos algoritmos siempre son probabilistas, es decir, que un resultado no se da al 100% sino que tienen un porcentaje asociado de que el tempo X es el detectado.
Por eso esta parte del análisis de audio es más propensa a errores.
 
== Detección de acordes ==
La detección de acordes viene dada por un análisis avanzado de frecuencias, ya que al disponer los datos de un espectrograma lineal se pueden obtener los acordes que suenan en cada momento. Este sistema, al igual que el de detección de tempo, es probabilista y utiliza un mapa de calor para devolver el resultado más probable del acorde que está sonando. Para hallar los acordes se separan las frecuencias de las notas con sus correspondientes frecuencias armónicas y se añaden al mapa de calor.
 
La detección de acordes es utilizada en herramientas de clasificación de audio por sentimientos, ya que ciertas escalas o ciertos acordes están asociados a estados de ánimo. Estos estados se pueden separar para obtener datos del sentimiento de una persona en concreto y poder vaticinar su estado de ánimo en función de la música que esté escuchando en cierto momento<ref>Katayose, Haruhiro, M. Imai, and Seiji Inokuchi. "Sentiment extraction in music." Pattern Recognition, 1988., 9th International Conference on. IEEE, 1988.</ref>.
 
== Obtención de coeficientes cepstrales ==