Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql

Parra Baquero, Andrea Nathaly; Robles Morales, Edison Armando

Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql

Autores

Parra Baquero, Andrea Nathaly

Robles Morales, Edison Armando

Compartir

Director

Ordoñez Salinas, Sonia del Carmen

Altmetric

Archivos

ParraBaqueroAndreaNathaly2017.pdf (1.98 MB)

Licencia y Autorización de los Autores para publicar.pdf (188.63 KB)

ParraBaqueroAndreaNathaly-1.pdf (525.39 KB)

ParraBaqueroAndreaNathaly-2.pdf (312.95 KB)

ParraBaqueroAndreaNathaly-3.pdf (95.24 KB)

Resumen

This paper presents the development of an information extraction tool for PDF documents, whose operation is based on the combination of information tracking techniques, optical character recognition and information extraction patterns. The main objective is allow the search of named entities in PDF documents that are hosted in a specific domain.

Descripción

En este trabajo se presenta el desarrollo de una herramienta de extracción de información para documentos PDF, cuyo funcionamiento se basa en la combinación de técnicas de rastreo de información, reconocimiento óptico de caracteres y patrones de extracción de información. El principal objetivo es permitir la búsqueda de entidades nombradas en documentos PDF que se encuentran alojados en un dominio específico.

Palabras clave

OCR, Crawler, NLTK, Extracción

Materias

INGENIERÍA DE SISTEMAS - TESIS Y DISERTACIONES ACADÉMICAS , RECUPERACIÓN DE INFORMACIÓN - PROGRAMAS PARA COMPUTADOR , DESARROLLO DE PROGRAMAS PARA COMPUTADOR , LINGÜÍSTICA COMPUTACIONAL

URI

http://hdl.handle.net/11349/7308

Colecciones

Ingeniería de Sistemas

Página completa del ítem

Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql

Fecha

Autores

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Director

Altmetric

Archivos

Resumen

Descripción

Palabras clave

Materias

Citación

URI

Colecciones