Sistema para categorización automática de texto basado en técnicas de aprendizaje de máquina, procesamiento de lenguaje natural y minería de opiniones

dc.contributor.advisorPava Díaz, Roberto Albeirospa
dc.contributor.authorRamírez Arévalo, Helio Henryspa
dc.date.accessioned2020-11-11T00:24:29Z
dc.date.available2020-11-11T00:24:29Z
dc.date.created2020-05-14spa
dc.descriptionActualmente se ha incrementado la información disponible en un conjunto amplio de temas, debido principalmente a la utilización exponencial por parte de las personas de herramientas Web 2.0 como lo son foros de opinión y las redes sociales; esto ha originado un alto volumen de comentarios en numerosos temas de interés, pero sobre esta información no se realizan análisis, desaprovechando su inmenso potencial para ayudar a las personas y a las organizaciones en los procesos de toma de decisiones. Este documento describe la investigación, análisis, desarrollo e implementación de un sistema que permite determinar la polaridad de un texto de opinión no estructurado y clasificarlo como positivo o negativo, teniendo en cuenta factores de sentimientos, emociones y actitudes expresadas en dicha opinión. Basado en el uso de herramientas de Procesamiento de Lenguaje Natural, análisis de estructura semántica, léxicos de opinión y guiado por el modelo de procesos KDD, se estudiaron y evaluaron combinaciones de atributos en el contexto de datos dado, que resultaron en la obtención de un modelo de atributos confiable que precisan los algoritmos de clasificación utilizados. El sistema implementó dos (2) algoritmos de clasificación continúa supervisada: NaiveBayes y MaxEntropy, con los cuales se realizó la modificación necesaria para ser utilizados en el análisis de texto, y con los cuales se estima la probabilidad de cada clase (positiva, negativa) bajo un esquema de ponderación y se determina dicha clase en la evaluación y clasificación de un texto dado. Para establecer la validez del modelo y los algoritmos implementados se hace uso de métricas que evalúan el comportamiento de cada algoritmo frente al modelo y el conjunto de datos establecido.spa
dc.description.abstractNowadays, the available information on a wide range of topics has increased, due to the exponential use by people of Web 2.0 tools such as opinion forums and social networks, mainly; this has generated a high volume of comments on various topics of concern, but analyzes are not fulfilled on this information, misusing its immense potential to help people and organizations in decision-making processes. This document describes the research, development and implementation of a system that allows determining the polarity of an unstructured opinion text and classifying it as positive or negative, considering feelings’ factors, emotions and attitudes expressed in the said opinion. Based on the use of Natural Language Processing tools, semantic structure analysis, opinion lexicons and guided by the KDD process model, combinations of attributes were studied and evaluated in the given data context, resulting in a reliable attribute model that the classification algorithms used required. The system implemented two (2) continuous supervised classification algorithms: NaiveBayes and MaxEntropy, with which the necessary modification was made to be used in the text analysis, and with which the probability of each class (positive, negative) is estimated. under a weighting scheme and this class is determined in the evaluation and classification of a given text. To establish the validity of the model and the implemented algorithms, metrics are used that evaluate the behavior of each algorithm against the model and the established data set.spa
dc.format.mimetypepdfspa
dc.identifier.urihttp://hdl.handle.net/11349/25599
dc.language.isospaspa
dc.rightsAtribución-NoComercial-SinDerivadas 4.0 Internacional*
dc.rights.accesoRestringido (Solo Referencia)spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectMinería de Opinionesspa
dc.subjectProcesamiento de Lenguaje Naturalspa
dc.subjectPolaridad de Textospa
dc.subjectAprendizaje de Máquinaspa
dc.subjectAnálisis de Sentimientosspa
dc.subject.keywordOpinion Miningspa
dc.subject.keywordNatural Language Processingspa
dc.subject.keywordText Polarityspa
dc.subject.keywordMachine Learningspa
dc.subject.keywordSentiment Analysisspa
dc.subject.lembMaestría en Ciencias de la Información y las Comunicaciones - Tesis y disertaciones académicasspa
dc.subject.lembMinería de datosspa
dc.subject.lembAlgoritmos (Computadores)spa
dc.subject.lembMejoramiento de procesosspa
dc.titleSistema para categorización automática de texto basado en técnicas de aprendizaje de máquina, procesamiento de lenguaje natural y minería de opinionesspa
dc.title.titleenglishAutomatic text categorization system based on machine learning techniques, natural language processing and opinion miningspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.degreeInvestigación-Innovaciónspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa

Archivos

Bloque original

Mostrando 1 - 4 de 4
No hay miniatura disponible
Nombre:
RamírezArévaloHelioHenry2020.pdf
Tamaño:
1.24 MB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
RamírezArévaloHelioHenry2020 Anexo 1.pdf
Tamaño:
466.74 KB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
RamírezArévaloHelioHenry2020 Anexo 2.pdf
Tamaño:
985.5 KB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
Licencia y autorización de los autores para publicar.pdf
Tamaño:
299.63 KB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
7 KB
Formato:
Item-specific license agreed upon to submission
Descripción: