Extracción de contexto geográfico a partir de NLP para información de tránsito en redes sociales
Fecha
Fecha
2022-01-05
Director
Colaboradores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Altmetric
Descripción
Poco se ha hablado de la recuperación de información espacial de texto, en particular porque el termino “información espacial” se asocia con geometrías en forma de vectores o información de tipo raster que expresan distintas variables o fenómenos acompañados de coordenadas, pese a esto la extracción de información en texto se presenta como uno de los avances más prometedores gracias al procesamiento natural del lenguaje (NLP) y en este caso se perfila como un nuevo campo de acción complementario al análisis espacial intentando extraer un evento especifico que sucede en el espacio y se plasmó en un texto. La fuente principal de texto, para esta investigación, son los compartidos en una red de colaboración como twitter, Los eventos extraídos son los que se encuentran o hacen referencia a la malla vial y que afectan la movilidad de forma recurrente o aleatoria, este último, el aleatorio, el más difícil de manejar en una ciudad cualquiera que debe monitorear el tránsito de actores viales bajo una red de sensores que intentan ver la congestión de las vías e incidencias viales. Ahora bien, estos textos fueron almacenados bajo un esquema de base de datos clasificados como incidencia vial que se pasan sobre un reconocedor de patrones de escritura que extrae la localización y posteriormente alimenta un georreferenciador que devuelve un par de coordenadas (lat, lon), la idea con estas coordenadas es convertirlas en datos compilados que dentro de un análisis espacial muestren un fenómeno de agrupamiento bajo técnicas geoestadisticas como la autocorrelación espacial, encontrando puntos calientes o puntos fríos de existencia de incidentes.
Los resultados geográficamente definidos se comparan con datos de años recientes levantados por entidades oficiales de tránsito y que son publicados para el acceso libre, la comparación de patrones entre un año anterior y los extraídos con inteligencia artificial muestran comportamientos espaciales similares y la auto correlación espacial conserva cierta similitud dejando ver la utilidad de la extracción de foco geográfico que se plantea y posible complemento a fuente de datos para el manejo de la congestión vial e incidencias de tránsito.
Resumen
Little has been said about the retrieval of spatial information from text, particularly because the term "spatial information" is associated with geometries in the form of vectors or raster-type information that express different variables or phenomena accompanied by coordinates, despite this, the extraction of information in text is presented as one of the most promising advances thanks to natural language processing (NLP) and in this case it is outlined as a new field of action complementary to spatial analysis, trying to extract a specific event that happens in space and embodied in a text. The main source of text, for this research, are those shared in a collaboration network such as twitter. The extracted events are those that are found or refer to the road network and that arise in a recurring or random way, the latter, Chance, the most difficult to manage in any city that must monitor the traffic of road actors under a network of sensors that try to see the congestion of the roads and road incidents. Now, these texts were stored under a database scheme classified as road incidence that are passed over a writing pattern recognizer that extracts the location and subsequently feeds a georeferencer that returns a pair of coordinates (lat, lon), the The idea with these coordinates is to convert them into compiled data that, within a spatial analysis, show a grouping phenomenon under geostatistical techniques such as spatial autocorrelation, finding hot spots or cold spots of incident existence.
The defined similar geographic results are compared with data from recent years collected by official transit entities and that are published for free access, the comparison of patterns between a previous year and those extracted with artificial intelligence show spatial behaviors and spatial self-connection preserves certain similarity revealing the usefulness of the geographical focus extraction that is proposed and possible to complement a data source for the management of road congestion and traffic incidents.
Palabras clave
Gazzetters, Recuperación de información, Datos espaciales, Procesamiento natural del lenguaje, Máquinas de soporte vectorial, Geo codificación, Análisis espacial, Inteligencia artificial