Gaona Barrera, Andrés EduardoLeón Martínez, Brayan MauricioCastillo Cruz, Juan Diego2020-04-142020-04-142019-11-15http://hdl.handle.net/11349/23160La clasificación acústica de escenas ha venido cobrando importancia en los últimos años. Las aplicaciones que tiene son interesantes y adicionalmente, representa un reto implementar una herramienta computacional que permita detectar adecuadamente sonidos complejos y diversos, como los presentados en entornos reales. En este trabajo se implementan redes neuronales convolucionales y feed-forward, entrenadas con características individuales como Coeficientes Cepstrales de Frecuencia en escala Mel (MFCC), tonos gamma y Transformada Discreta de Fourier (DFT), extraídas a los sonidos en ventanas de 100 ms con solapamiento de 50%, para luego formar segmentos de 1 y 10 segundos. De igual forma las redes neuronales se entrenan con las combinaciones de características (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Posteriormente se realiza reducción del número de coeficientes de entrada implementando PCA, verificando el impacto de esta reducción en el rendimiento y el tiempo de entrenamiento de diferentes arquitecturas de red neuronal. En ambos casos se utiliza validación cruzada con un 80% de los datos para entrenamiento y 20% para validación, para el desarrollo se utiliza la base de datos DCASE2018.Acoustic scene classification has been gaining importance in recent years. The applications are interesting and additionally, it represents a challenge to implement a computational tool that can detect complex and diverse sounds, such as those presented in real environments. In this work, convolutional neural networks and feed-forward are implemented, trained with individual characteristics such as Mel Frequency Cepstral Coefficients (MFCC), gamma tones and Discrete Fourier Transform (DFT), extracted to sounds in 100 ms windows with 50% overlap, then form segments of 1 and 10 seconds. Neural networks are also trained with combinations of characteristics (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Subsequently, the number of input coefficients is reduced by applying PCA, verifying the impact of this reduction on the performance and training time of different neural network architectures. In both cases cross validation is used with 80% of the data for training and 20% for validation. This work was development using the DCASE2018 database.pdfspaAtribución-NoComercial-SinDerivadas 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Redes neuronales convolucionalesClasificación de escenasRedes Feed-ForwardAnálisis de componentes principalesSegmentosClasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principalesIngeniería Electrónica - Tesis y disertaciones académicasRedes neurales (Informática)Redes neuronales convolucionalesComplejidad computacionalinfo:eu-repo/semantics/openAccessAudio scene classification based on artificial neural networks and principal component analysisConvolutional neural networksScene classificationFeed-Forward networksPrincipal component analysisSegmentsMonografíaAbierto (Texto Completo)