Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql
Fecha
Autores
Parra Baquero, Andrea Nathaly
Robles Morales, Edison Armando
Autor corporativo
Título de la revista
ISSN de la revista
Título del volumen
Editor
Compartir
Altmetric
Resumen
This paper presents the development of an information extraction tool for PDF documents, whose operation is based on the combination of information tracking techniques, optical character recognition and information extraction patterns. The main objective is allow the search of named entities in PDF documents that are hosted in a specific domain.
Descripción
En este trabajo se presenta el desarrollo de una herramienta de extracción de información para documentos PDF, cuyo funcionamiento se basa en la combinación de técnicas de rastreo de información, reconocimiento óptico de caracteres y patrones de extracción de información. El principal objetivo es permitir la búsqueda de entidades nombradas en documentos PDF que se encuentran alojados en un dominio específico.
Palabras clave
OCR, Crawler, NLTK, Extracción