Técnicas de regularización en el marco del aprendizaje de máquina: regresiones ridge y lasso

Descripción

La regresión lineal es uno de los métodos de aprendizaje de maquina más utilizados en la actualidad. Sin embargo, en el método estándar de mínimos cuadrados ordinarios se hacen varias suposiciones sobre los datos que a menudo no son ciertas en los conjuntos de datos de la vida real. Esto puede causar numerosos problemas cuando el modelo se ajusta mediante mínimos cuadrados. Uno de los problemas más comunes es que el modelo se ajuste demasiado a los datos, esto sucede cuando el estimador es insesgado, pero tiene alta variabilidad. Las regresiones Ridge y Lasso son dos técnicas de regularización utilizadas para crear un modelo mejor y más preciso. En este trabajo se explica cómo se produce la alta variabilidad en el estimador de mínimos cuadrados. Se incluye un ejemplo con un conjunto de datos de la vida real y se comparan estos métodos con el estimador de mínimos cuadrados para inferir los beneficios e inconvenientes de cada método.

Resumen

Linear regression is one of the most widely used machine learning methods today. However, the standard ordinary least squares method makes several assumptions about the data that are often not true in real-life data sets. This can cause numerous problems when the model is fitted using least squares. One of the most common problems is that the model fits the data too much, this happens when the estimator is unbiased, but has high variability. The Ridge and Lasso regressions are two regularization techniques used to create a better and more accurate model. This work explains how high variability occurs in the least squares estimator. An example is included with a real-life data set and these methods are compared with the least squares estimator to infer the benefits and drawbacks of each method.

Palabras clave

Aprendizaje de máquina, Regresión ridge, Regresión lasso, Regularización

Materias

Matemáticas - Tesis y disertaciones académicas , Aprendizaje automático (Inteligencia artificial) , Análisis de regresión , Matemáticas

Citación

Colecciones