Modelo de clasificación automática de texto en idioma indígena Wayuunaiki que incorpora características gramaticales

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Distrital Francisco José de Caldas

Compartir

Altmetric

Resumen

The natural language processing (NLP) techniques applied to automatic text classification operate optimally when performing tasks such as ordering, labeling, and clustering texts written in widely used languages such as English, Chinese, and Spanish, among others. This performance has been achieved thanks to significant advances in machine learning and deep learning architectures, semantic representation strategies for pre-training, and the availability of and access to large volumes of data. In the case of NLP for indigenous community languages, few studies describe the processing of an indigenous language that takes into account both its grammatical features and the cultural identity of its speakers. This gap stems from challenges related to the scarcity of datasets containing an adequate number of records with high data quality; likewise, there are no linguistic resources such as dictionaries, lemmatizers, or taggers that could be adapted from other NLP solutions for grammatical analysis. Against this backdrop, the present work outlines a proposal for an automatic text classification model in the indigenous wayuunaiki language, the native tongue of the Wayuú community inhabiting Colombia and Venezuela. This model is developed using natural language processing (NLP) techniques and the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology. It fundamentally integrates wayuunaiki’s own grammatical features—prepositions, verb conjugations marked for person and gender, and agglutinative morphology—with the aim of achieving more accurate classification that supports the execution of other NLP tasks. In addition to contributing to computational processes, this work also seeks to provide a high-quality, labeled wayuunaiki text corpus for research that fosters the conservation and teaching of the language.

Descripción

Las técnicas de procesamiento de lenguaje natural (PLN) aplicadas a la clasificación automática de texto, funcionan de manera óptima en la realización de tareas de ordenamiento, etiquetado y agrupación de textos escritos en idiomas muy utilizados como el inglés, chino y español, entre otros. Funcionamiento que se ha logrado gracias a los importantes avances en las arquitecturas de aprendizaje automático y aprendizaje profundo, las estrategias de representación semántica para preentrenamientos y a la existencia y acceso a grandes cantidades de datos. En el caso del procesamiento de lenguaje natural de idiomas de comunidades indígenas, existen pocos estudios que describan el procesamiento de un lenguaje indígena que tenga en cuenta las características gramaticales y la identidad cultural de la comunidad indígena. Esto, debido a las dificultades relacionadas con la existencia de pocos conjuntos de datos que contengan un adecuado numeró de registros y cuenten con un alto grado de calidad de los datos, igualmente no existen recursos lingüísticos como diccionarios, lematizadores o etiquetadores que fuera posibles utilizar para análisis gramaticales utilizando adaptaciones de otras soluciones de PLN. Frente a este panorama, el presente trabajo describe la propuesta de un modelo de clasificación automática de texto en idioma indígena wayuunaiki, lengua autóctona de la comunidad indígena Wayuú que habita en Colombia y Venezuela. Este modelo se desarrolla utilizando técnicas de procesamiento de lenguaje natural (PLN) y la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), el modelo fundamentalmente integra las características gramaticales propias del wayuunaiki como las preposiciones, conjugaciones verbales marcadas por persona y género, y la morfología aglutinante del idioma, esto con la finalidad de realizar una clasificación más acertada que aporte a la ejecución de otras tareas de PLN. Este trabajo busca además de contribuir a procesos computacionales, aportar a investigaciones que fomenten la conservación y enseñanza del wayuunaiki que necesiten de un conjunto de datos de texto en wayuunaiki etiquetado de buena calidad.

Palabras clave

Clasificación de textos, aprendizaje profundo, Idioma Indígena, Características lingüísticas, Procesamiento de lenguaje natural

Materias

Maestría en Ciencias de la Información y las Comunicaciones Metodología Investigación -- Tesis y disertaciones académicas , Proceso en lenguaje natural (Informática) , Lenguas indígenas , Modelos lingüísticos

Citación