Modelo de referencia para la gestión de procesos licitatorios en Colombia usando analítica de datos

Descripción

En este documento se presenta la configuración, despliegue y pruebas de un modelo para la analítica de datos usando Big Data con el objetivo de gestionar la información de los procesos licitatorios de Colombia, pero también para que sea aplicable a otros sectores o modelos de negocio. Por medio del uso de herramientas de software libre, se plantea una solución Apache Hadoop, con la cual se almacena y manipula la información obtenida, garantizando tanto la redundancia de datos como el cumplimiento de los procesos de cada tarea generada y a su vez un mejor uso de los recursos disponibles del Cluster. Adicionalmente, se presenta el detalle de cada uno de los elementos que conforman este modelo, con el fin de comprender su funcionamiento, importancia e integración con diferentes herramientas. Finalmente, se cuenta con un apartado de implementación y pruebas del modelo, lo que permitirá iniciar con el paradigma de un sistema distribuido, bajo lo que es el concepto de Big Data, en cualquier organización dispuesta a invertir recursos en ello. La metodología que se trabaja es el ciclo Deming, organizado en los capítulos desarrollados en el documento comenzando con el análisis del panorama actual de las licitaciones para proseguir con la identificación y configuración de herramientas útiles para el desarrollo del modelo y con esto finalizar con los resultados al aplicar analítica de datos.

Resumen

This document show the configuration and test of a model for Data Analytics - Big Data - with the goal of manage the information of the bidding processes in Colombia but also for anothers kinds of sector or business logic. Through the use of free software tools, an Apache Hadoop solution is proposed, with which the information obstaneid is stored and manipulated, guaranteeing both the redundancy of data and the compliance of the processes of each task generated and at the same time a better use of the available resources of the Cluster. Additionally, the detail of each of the elements that make up this model is presented, in order to understand its operation, importance and integration with different tools. Finally, there is a section on implementation and testing of the model, which will start with the paradigm of a distributed system, under what is the concept of Big Data, in any organization willing to invest resources in it. The methodology used is the Deming Cycle, organized in the chapters developed in the document beginning with the analysis of the current landscape of the bids to proceed with the identification and configuration of useful tools for the development of the model and with this end with a sample of data analytics.

Palabras clave

Big Data, Hadoop, Hue, Hive, HDFS, YARN, Analítica, SECOP

Materias

Ingeniería Telemática - Tesis y disertaciones académicas , Licitaciones , Mejoramiento de procesos

Citación