Clasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principales

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Altmetric

Resumen

Acoustic scene classification has been gaining importance in recent years. The applications are interesting and additionally, it represents a challenge to implement a computational tool that can detect complex and diverse sounds, such as those presented in real environments. In this work, convolutional neural networks and feed-forward are implemented, trained with individual characteristics such as Mel Frequency Cepstral Coefficients (MFCC), gamma tones and Discrete Fourier Transform (DFT), extracted to sounds in 100 ms windows with 50% overlap, then form segments of 1 and 10 seconds. Neural networks are also trained with combinations of characteristics (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Subsequently, the number of input coefficients is reduced by applying PCA, verifying the impact of this reduction on the performance and training time of different neural network architectures. In both cases cross validation is used with 80% of the data for training and 20% for validation. This work was development using the DCASE2018 database.

Descripción

La clasificación acústica de escenas ha venido cobrando importancia en los últimos años. Las aplicaciones que tiene son interesantes y adicionalmente, representa un reto implementar una herramienta computacional que permita detectar adecuadamente sonidos complejos y diversos, como los presentados en entornos reales. En este trabajo se implementan redes neuronales convolucionales y feed-forward, entrenadas con características individuales como Coeficientes Cepstrales de Frecuencia en escala Mel (MFCC), tonos gamma y Transformada Discreta de Fourier (DFT), extraídas a los sonidos en ventanas de 100 ms con solapamiento de 50%, para luego formar segmentos de 1 y 10 segundos. De igual forma las redes neuronales se entrenan con las combinaciones de características (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Posteriormente se realiza reducción del número de coeficientes de entrada implementando PCA, verificando el impacto de esta reducción en el rendimiento y el tiempo de entrenamiento de diferentes arquitecturas de red neuronal. En ambos casos se utiliza validación cruzada con un 80% de los datos para entrenamiento y 20% para validación, para el desarrollo se utiliza la base de datos DCASE2018.

Palabras clave

Redes neuronales convolucionales, Clasificación de escenas, Redes Feed-Forward, Análisis de componentes principales, Segmentos

Materias

Ingeniería Electrónica - Tesis y disertaciones académicas , Redes neurales (Informática) , Redes neuronales convolucionales , Complejidad computacional

Citación