Sistema para categorización automática de texto basado en técnicas de aprendizaje de máquina, procesamiento de lenguaje natural y minería de opiniones

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Altmetric

Resumen

Nowadays, the available information on a wide range of topics has increased, due to the exponential use by people of Web 2.0 tools such as opinion forums and social networks, mainly; this has generated a high volume of comments on various topics of concern, but analyzes are not fulfilled on this information, misusing its immense potential to help people and organizations in decision-making processes. This document describes the research, development and implementation of a system that allows determining the polarity of an unstructured opinion text and classifying it as positive or negative, considering feelings’ factors, emotions and attitudes expressed in the said opinion. Based on the use of Natural Language Processing tools, semantic structure analysis, opinion lexicons and guided by the KDD process model, combinations of attributes were studied and evaluated in the given data context, resulting in a reliable attribute model that the classification algorithms used required. The system implemented two (2) continuous supervised classification algorithms: NaiveBayes and MaxEntropy, with which the necessary modification was made to be used in the text analysis, and with which the probability of each class (positive, negative) is estimated. under a weighting scheme and this class is determined in the evaluation and classification of a given text. To establish the validity of the model and the implemented algorithms, metrics are used that evaluate the behavior of each algorithm against the model and the established data set.

Descripción

Actualmente se ha incrementado la información disponible en un conjunto amplio de temas, debido principalmente a la utilización exponencial por parte de las personas de herramientas Web 2.0 como lo son foros de opinión y las redes sociales; esto ha originado un alto volumen de comentarios en numerosos temas de interés, pero sobre esta información no se realizan análisis, desaprovechando su inmenso potencial para ayudar a las personas y a las organizaciones en los procesos de toma de decisiones. Este documento describe la investigación, análisis, desarrollo e implementación de un sistema que permite determinar la polaridad de un texto de opinión no estructurado y clasificarlo como positivo o negativo, teniendo en cuenta factores de sentimientos, emociones y actitudes expresadas en dicha opinión. Basado en el uso de herramientas de Procesamiento de Lenguaje Natural, análisis de estructura semántica, léxicos de opinión y guiado por el modelo de procesos KDD, se estudiaron y evaluaron combinaciones de atributos en el contexto de datos dado, que resultaron en la obtención de un modelo de atributos confiable que precisan los algoritmos de clasificación utilizados. El sistema implementó dos (2) algoritmos de clasificación continúa supervisada: NaiveBayes y MaxEntropy, con los cuales se realizó la modificación necesaria para ser utilizados en el análisis de texto, y con los cuales se estima la probabilidad de cada clase (positiva, negativa) bajo un esquema de ponderación y se determina dicha clase en la evaluación y clasificación de un texto dado. Para establecer la validez del modelo y los algoritmos implementados se hace uso de métricas que evalúan el comportamiento de cada algoritmo frente al modelo y el conjunto de datos establecido.

Palabras clave

Minería de Opiniones, Procesamiento de Lenguaje Natural, Polaridad de Texto, Aprendizaje de Máquina, Análisis de Sentimientos

Materias

Maestría en Ciencias de la Información y las Comunicaciones - Tesis y disertaciones académicas , Minería de datos , Algoritmos (Computadores) , Mejoramiento de procesos

Citación