Comparación de métricas de similitud en el método de imputación de datos k-vecinos más cercanos

dc.contributor.advisorMásmela Caita, Luis Alejandro
dc.contributor.authorNiño Traslaviña, Gisel Fernanda
dc.date.accessioned2025-05-05T20:33:58Z
dc.date.available2025-05-05T20:33:58Z
dc.date.created2024-12-12
dc.descriptionEl tratamiento de datos faltantes es un problema común en el análisis de datos, y la imputación de datos es una técnica ampliamente utilizada para abordar este problema. Sin embargo, la elección del método de imputación adecuado puede influir significativamente en los resultados del análisis. Por lo tanto, es crucial investigar y comparar diferentes métodos de imputación para comprender su desempeño y efectividad en diversas situaciones. En este contexto, este proyecto se centra en la metodología de imputación de datos k-vecinos más cercanos. Se propone realizar una comparación de las variaciones de este método, utilizando diversas métricas de similitud como Chebyshov, Camberra, Manhattan, Euclidea y la medida de similaridad del coseno, para evaluar su desempeño en la estimación de medias a partir de conjuntos de datos incompletos.
dc.description.abstractThe treatment of missing data is a common problem in data analysis, and data imputation is a widely used technique to address this issue. However, the choice of the appropriate imputation method can significantly influence the analysis results. Therefore, it is crucial to investigate and compare different imputation methods to understand their performance and effectiveness in various situations. In this context, this project focuses on the k-nearest neighbors data imputation methodology. It proposes to compare variations of this method using different similarity metrics such as Chebyshev, Canberra, Manhattan, Euclidean, and cosine similarity to evaluate its performance in estimating means from incomplete datasets.
dc.format.mimetypepdf
dc.identifier.urihttp://hdl.handle.net/11349/95228
dc.language.isospa
dc.publisherUniversidad Distrital Francisco José de Caldas
dc.relation.referencesJorge Dagnino. Datos faltantes (missing values). 43:332–334, 01 2014.
dc.relation.referencesCraig K. Enders. Applied Missing Data Analysis. Guilford Press, 2010.
dc.relation.referencesHuang MW. Ke SW. et al. Hu, LY. The distance function effect on k-nearest neighbor classification for medical datasets. SpringerPlus, 2016.
dc.relation.referencesDonald B. Rubin. Inference and missing data. Biometrika, 63(3):581–592, 1976.
dc.relation.referencesMiriam Santos, Ricardo Cardoso Pereira, Adriana Costa, Jastin Soares, Joao Santos, and Pedro Henriques Abreu. Generating synthetic missing data: A review by missing mechanism. IEEE Access, PP:1–1, 01 2019.
dc.relation.referencesMiriam Seoane Santos, Pedro Henriques Abreu, Szymon Wilk, and João Santos. How distance metrics influence missing data imputation with k-nearest neighbours. Pattern Recognition Letters, 136:111–119, 2020.
dc.relation.referencesJoseph L Schafer and John W Graham. Missing data: our view of the state of the art. Psychol Methods, 2002.
dc.relation.referencesGerhard Tutz and Shahla Ramzan. Improved methods for the imputation of missing data by nearest neighbor methods. Computational Statistics Data Analysis, 90:84–99, 2015.
dc.relation.referencesStef van Buuren. Flexible Imputation of Missing Data. Chapman and Hall/CRC, 2018.
dc.rights.accesoAbierto (Texto Completo)
dc.rights.accessrightsRestrictedAccess
dc.subjectK-vecinos más cercanos
dc.subjectMétricas de similitud
dc.subjectImputación de datos
dc.subjectAnálisis de datos faltantes
dc.subject.keywordK-nearest neighbors
dc.subject.keywordSimilarity metrics
dc.subject.keywordData imputation
dc.subject.keywordMissing data analysis
dc.subject.lembMatemáticas -- Tesis y disertaciones académicas
dc.titleComparación de métricas de similitud en el método de imputación de datos k-vecinos más cercanos
dc.title.titleenglishComparison of similarity metrics in the k-nearest neighbors data imputation method
dc.typebachelorThesis
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.degreeMonografía
dc.type.driverinfo:eu-repo/semantics/bachelorThesis

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
NiñoTraslaviñaGiselFernanda2024.pdf
Tamaño:
179.98 KB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
Formato Licencia de Uso y Publicación.pdf
Tamaño:
285.79 KB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
7 KB
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones