Clasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principales

León Martínez, Brayan Mauricio; Castillo Cruz, Juan Diego

Clasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principales

Autores

León Martínez, Brayan Mauricio

Castillo Cruz, Juan Diego

Compartir

Director

Gaona Barrera, Andrés Eduardo

Altmetric

Archivos

CastilloDiegoLeonBrayan2019.pdf (2.18 MB)

Resumen

Acoustic scene classification has been gaining importance in recent years. The applications are interesting and additionally, it represents a challenge to implement a computational tool that can detect complex and diverse sounds, such as those presented in real environments. In this work, convolutional neural networks and feed-forward are implemented, trained with individual characteristics such as Mel Frequency Cepstral Coefficients (MFCC), gamma tones and Discrete Fourier Transform (DFT), extracted to sounds in 100 ms windows with 50% overlap, then form segments of 1 and 10 seconds. Neural networks are also trained with combinations of characteristics (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Subsequently, the number of input coefficients is reduced by applying PCA, verifying the impact of this reduction on the performance and training time of different neural network architectures. In both cases cross validation is used with 80% of the data for training and 20% for validation. This work was development using the DCASE2018 database.

Descripción

La clasificación acústica de escenas ha venido cobrando importancia en los últimos años. Las aplicaciones que tiene son interesantes y adicionalmente, representa un reto implementar una herramienta computacional que permita detectar adecuadamente sonidos complejos y diversos, como los presentados en entornos reales. En este trabajo se implementan redes neuronales convolucionales y feed-forward, entrenadas con características individuales como Coeficientes Cepstrales de Frecuencia en escala Mel (MFCC), tonos gamma y Transformada Discreta de Fourier (DFT), extraídas a los sonidos en ventanas de 100 ms con solapamiento de 50%, para luego formar segmentos de 1 y 10 segundos. De igual forma las redes neuronales se entrenan con las combinaciones de características (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Posteriormente se realiza reducción del número de coeficientes de entrada implementando PCA, verificando el impacto de esta reducción en el rendimiento y el tiempo de entrenamiento de diferentes arquitecturas de red neuronal. En ambos casos se utiliza validación cruzada con un 80% de los datos para entrenamiento y 20% para validación, para el desarrollo se utiliza la base de datos DCASE2018.

Palabras clave

Redes neuronales convolucionales, Clasificación de escenas, Redes Feed-Forward, Análisis de componentes principales, Segmentos

Materias

Ingeniería Electrónica - Tesis y disertaciones académicas , Redes neurales (Informática) , Redes neuronales convolucionales , Complejidad computacional

URI

http://hdl.handle.net/11349/23160

Colecciones

Ingeniería Electrónica

Página completa del ítem

Clasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principales

Fecha

Autores

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Director

Altmetric

Archivos

Resumen

Descripción

Palabras clave

Materias

Citación

URI

Colecciones