Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql

Ordoñez Salinas, Sonia del CarmenParra Baquero, Andrea NathalyRobles Morales, Edison Armando2017-12-202017-12-202017-11-21http://hdl.handle.net/11349/7308En este trabajo se presenta el desarrollo de una herramienta de extracción de información para documentos PDF, cuyo funcionamiento se basa en la combinación de técnicas de rastreo de información, reconocimiento óptico de caracteres y patrones de extracción de información. El principal objetivo es permitir la búsqueda de entidades nombradas en documentos PDF que se encuentran alojados en un dominio específico.This paper presents the development of an information extraction tool for PDF documents, whose operation is based on the combination of information tracking techniques, optical character recognition and information extraction patterns. The main objective is allow the search of named entities in PDF documents that are hosted in a specific domain.pdfspaAtribución-NoComercial-SinDerivadas 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/OCRCrawlerNLTKExtracciónPrototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosqlINGENIERÍA DE SISTEMAS - TESIS Y DISERTACIONES ACADÉMICASRECUPERACIÓN DE INFORMACIÓN - PROGRAMAS PARA COMPUTADORDESARROLLO DE PROGRAMAS PARA COMPUTADORLINGÜÍSTICA COMPUTACIONALinfo:eu-repo/semantics/restrictedAccessPrototype Software Tool for the Extraction of Information in PDFf Documents Using a Database Engine nosqlOCRCrawlerNLTKExtractCreación o InterpretaciónRestringido (Solo Referencia)