Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql

Fecha

Autores

Parra Baquero, Andrea Nathaly
Robles Morales, Edison Armando

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Altmetric

Resumen

This paper presents the development of an information extraction tool for PDF documents, whose operation is based on the combination of information tracking techniques, optical character recognition and information extraction patterns. The main objective is allow the search of named entities in PDF documents that are hosted in a specific domain.

Descripción

En este trabajo se presenta el desarrollo de una herramienta de extracción de información para documentos PDF, cuyo funcionamiento se basa en la combinación de técnicas de rastreo de información, reconocimiento óptico de caracteres y patrones de extracción de información. El principal objetivo es permitir la búsqueda de entidades nombradas en documentos PDF que se encuentran alojados en un dominio específico.

Palabras clave

OCR, Crawler, NLTK, Extracción

Materias

INGENIERÍA DE SISTEMAS - TESIS Y DISERTACIONES ACADÉMICAS , RECUPERACIÓN DE INFORMACIÓN - PROGRAMAS PARA COMPUTADOR , DESARROLLO DE PROGRAMAS PARA COMPUTADOR , LINGÜÍSTICA COMPUTACIONAL

Citación