Automatización del aprovisionamiento de infraestructura para lagos de datos (Data Lakes) en la nube de AWS para organizaciones data driven

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Distrital Francisco José de Caldas

Compartir

Altmetric

Resumen

This project proposes the design and implementation of a comprehensive framework that automates the creation and management of a data lake on Amazon Web Services (AWS). The initiative arises from the difficulties organizations face in manually deploying secure, scalable, and consistent data infrastructures. By using Infrastructure as Code (IaC) with Terraform, CI/CD pipelines with Jenkins and GitHub, and serverless architectures based on AWS Lambda and Step Functions, a fully automated environment is achieved that reduces errors, provisioning times, and operating costs. The architecture follows the Medallion model (Landing, Bronze, Silver, and Gold), ensuring a controlled data flow from ingestion to final analysis, integrating services such as S3, Glue, Athena, IAM, CloudTrail, and DataZone. Furthermore, the project applies DevOps and DataOps principles along with the Scrum methodology, enabling iterative implementation, continuous validation, and agile adaptation to requirements. The result is a modular, reproducible, and secure infrastructure that demonstrates how automation accelerates digital transformation and consolidate the way for a data-driven organizational culture.

Descripción

Este proyecto propone el diseño e implementación de un framework integral que automatiza la creación y gestión de un lago de datos en Amazon Web Services (AWS). La iniciativa surge ante las dificultades que enfrentan las organizaciones para desplegar infraestructuras de datos seguras, escalables y consistentes de forma manual. Mediante el uso de Infraestructura como Código (IaC) con Terraform, pipelines CI/CD con Jenkins y GitHub, y arquitecturas serverless basadas en AWS Lambda y Step Functions, se logra un entorno completamente automatizado que reduce errores, tiempos de aprovisionamiento y costos operativos. La arquitectura sigue el modelo Medallón (Aterrizaje, Bronce, Plata y Oro), garantizando un flujo de datos controlado desde su ingesta hasta el análisis final, integrando servicios como S3, Glue, Athena, IAM, CloudTrail y DataZone. Además, el proyecto aplica principios DevOps y DataOps junto con la metodología Scrum, lo que permitió una implementación iterativa, validación continua y adaptación ágil a los requerimientos. El resultado es una infraestructura modular, reproducible y segura, que demuestra cómo la automatización acelera la transformación digital y consolida el camino hacia una cultura organizacional orientada a los datos.

Palabras clave

Lagos de datos, AWS, IaC, Automatización, DataOps, DevOps

Materias

Ingeniería Telemática -- Tesis y disertaciones académicas , Informática en la nube , Datos masivos , Automatización , Amazon Web Services , Ingeniería de software

Citación