Metodología machine learning para el tratamiento de imágenes computarizadas en pacientes con cancer de pulmon

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Distritral Francisco José de Caldas

Compartir

Altmetric

Resumen

This research proposes a computational methodology aimed at identifying patterns associated with lung cancer, using exclusively machine learning and deep learning tools implemented in Python. The study is based on the analysis of the LIDC-IDRI dataset (The Lung Image Database Consortium and Image Database Resource Initiative), provided by the U.S. National Cancer Institute, which contains medical images in DICOM (Digital Imaging and Communications in Medicine) format. DICOM is the international standard for the transmission, storage, and processing of medical images, allowing the integration of patient information, acquisition characteristics, and the image itself into a single file. In addition to DICOM images, the dataset includes radiologist segmentations, nodule counts, and clinical diagnoses in structured files. This methodology focuses on the processing, integration, and analysis of large volumes of data, with the aim of exploring significant correlations and behaviors within the available variables. Although the purpose is not to provide direct clinical diagnosis, the patterns identified could serve as a basis for future research and support the development of diagnostic assistance systems. Each patient can generate between 10 and 15 GB of information, which poses relevant challenges regarding efficient processing, organization, and data interpretation. This work seeks to contribute to strengthening computational analysis applied to lung cancer, from an engineering, exploratory perspective, centered on leveraging complex medical data.

Descripción

La presente investigación propone una metodología computacional orientada a la identificación de patrones asociados al cáncer de pulmón, utilizando exclusivamente herramientas de machine learning y deep learning implementadas en Python. El estudio se fundamenta en el análisis del conjunto de datos LIDC-IDRI (The Lung Image Database Consortium and Image Database Resource Initiative), proporcionado por el Instituto Nacional del Cáncer de los Estados Unidos de América, el cual contiene imágenes médicas en formato DICOM (Digital Imaging and Communications in Medicine). DICOM es el estándar internacional para la transmisión, almacenamiento y procesamiento de imágenes médicas, que permite integrar información del paciente, características de adquisición y la imagen misma en un único archivo. Además de las imágenes en formato DICOM, el conjunto de datos incluye segmentaciones radiólogas, recuentos de nódulos y diagnósticos clínicos en archivos estructurados. Esta metodología se enfoca en el procesamiento, integración y análisis de grandes volúmenes de datos, con el objetivo de explorar correlaciones y comportamientos significativos dentro de las variables disponibles. Aunque el propósito no es realizar diagnóstico clínico directo, los patrones encontrados podrían servir como base para investigaciones futuras y como apoyo en el desarrollo de sistemas de ayuda al diagnóstico. Cada paciente puede generar entre 10 y 15 GB de información, lo que plantea desafíos relevantes en cuanto al procesamiento eficiente, la organización y la interpretación de datos. Este trabajo busca contribuir al fortalecimiento del análisis computacional aplicado al cáncer de pulmón, desde una perspectiva ingenieril, exploratoria y centrada en el aprovechamiento de datos médicos complejos.

Palabras clave

Cáncer de pulmón, LIDC-IDRI,, Aprendizaje automático, Imágenes medicas, Aprendizaje profundo, Análisis de datos, Redes neuronales convolucionales, Metodología, DICOM

Materias

Maestría en Ciencias de la Información y las Comunicaciones -- Tesis y disertaciones académicas

Citación