Identificación de emociones relacionadas al espacio geográfico a partir de datos de redes sociales y procesamiento de lenguaje natural

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Distrital Francisco José de Caldas

Compartir

Altmetric

Resumen

The aim of this study is to explore the spatial distribution of emotions associated with geographic space in Colombia as expressed by Twitter (X) users. The research integrates Natural Language Processing (NLP) techniques—specifically Named Entity Recognition (NER) and Emotion Analysis (EA)—that have been adapted to Colombian Spanish, a variety characterized by strong regional and dialectal diversity (Mora et al., 2004; Bonilla, 2023). This linguistic heterogeneity poses significant challenges for computational approaches to emotion and place, given the range of expressions used to refer both to locations (e.g., montaña, cerro, filo, peña) and to emotional states (e.g., ativo, fachoso, acoquinado).

To address these challenges, the study proposes a theoretical–methodological workflow for identifying emotions in geographically referenced tweets based on both their content and the places they mention. Two annotated corpora were developed: (1) a 2,000-sentence location corpus that includes place names, nicknames, and common spatial references in Colombia, used to fine-tune a NER model for place detection; and (2) a second corpus of emotion-labeled tweets linked to geographic entities extracted by the NER model, used to fine-tune a BERT-based emotion classifier. The fine-tuned language models were applied to a large Twitter dataset compiled by Jiménez et al. (2018) and Rodríguez-Díaz et al. (2018), producing a georeferenced database of approximately 3.8 million tweets classified by emotion. These results were integrated into an interactive web map for visualization, and further analyzed using spatial correlation metrics such as Moran’s I and Kernel density estimations. After fine-tuning, the NER model improved from 44% to over 90% accuracy, while the emotion classifier rose from 41.72% to 72.66%. The spatial autocorrelation results show a moderate positive relationship (Moran’s I > 0.1), suggesting that the spatial distribution of emotions in Colombia is not random. The findings provide valuable resources for researchers in geographic and linguistic studies, as well as for urban planners and decision-makers seeking rapid access to subjective, emotion-based insights about Colombian cities derived from social media data.

Descripción

El objetivo de este trabajo es identificar la distribución espacial de las emociones sobre el espacio geográfico en Colombia que tienen los usuarios de Twitter (X), haciendo uso de técnicas de Procesamiento de Lenguaje Natural (PLN) como el Reconocimiento de Entidades Nombradas (REN) y el Análisis de Emociones (AE), adaptándolas al español de Colombia, que, como mencionan autores como Mora et al. (2004) y Bonilla (2023) tiene una gran variación lingüística como distintos dialectos, hablas populares y formas diferentes de nombrar al espacio. Por ejemplo, el uso de distintas variantes de una palabra para referirse a localizaciones geográficas como “montaña”, “cerro”, “filo” o “peña”, o para referirse a emociones como “ativo”, “fachoso” o “acoquinado” son una muestra del desafío que representa realizar estudios de emociones sobre el espacio en el contexto colombiano con herramientas de PLN. Por consiguiente, la presente investigación desarrolla un flujo de trabajo teórico- metodológico que permite la identificación de emociones en tweets localizados basados en el contenido y los lugares que se menciona en los tweets. Para ello, se parte por la elaboración de dos corpus etiquetados: 1) un corpus con entidades de localización para Colombia con formas de referirse al espacio, topónimos y sobrenombres de Colombia, con 2000 frases, para realizar afinamiento sobre un modelo REN para detección de localizaciones; 2) un segundo corpus etiquetado con emociones sobre tweets que hacen referencia al espacio mediante las entidades extraídas por el modelo REN, con el que se realiza afinamiento de un modelo de AE basado en BERT. Estos modelos de lenguaje se integran a la investigación y se utilizan en la detección de entidades y emociones en un corpus de Twitter recolectado por Jimenez et al. (2018) y Rodriguez-Diaz et al. (2018), generando como resultado final una base de datos geolocalizada de alrededor de 3.800.000 tweets, con su respectiva clasificación de emociones y un mapa web que permite la visualización de estos, adicionalmente, se calcularon métricas de correlación espacial como el índice de Morán y densidades de Kernel. Se encontró una mejora en rendimiento de los modelos luego del proceso de afinamiento aplicado, para REN pasando de un 44% de exactitud a más del 90%, mientras que, para AE, se pasa de una exactitud de 41.72% a 72.66%. En cuanto al índice de Morán, se encuentra una correlación espacial positiva moderada (> 0.1), lo cual indica la no existencia de aleatoriedad espacial en la distribución de las emociones en Colombia. Los resultados de esta investigación serán recursos valiosos para investigadores enfocados en estudios relacionados al espacio geográfico, así como para planificadores urbanos y tomadores de decisiones que necesiten acceder a información subjetiva sobre las ciudades de Colombia de manera rápida, apoyándose en datos de redes sociales.

Palabras clave

Análisis de emociones, Español de Colombia, Procesamiento de lenguaje natural, Reconocimiento de entidades nombradas, Espacio geográfico

Materias

Maestría en Ciencias de la Información y las Comunicaciones Metodología Investigación -- Tesis y disertaciones académicas , Proceso en lenguaje natural (Informática) , Redes sociales , Emociones , Lenguaje

Citación