Modelo de procesamiento paralelo en arquitecturas heterogéneas para regresiones lineales multivariables

Miniatura

Fecha

Fecha

2019-03-01

Colaboradores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Altmetric

Descripción

La generación de modelos de regresión lineal múltiple demanda una selección exhaustiva de las variables regresoras que permiten obtener un alto nivel de precisión en las tareas de predicción. Este proceso de selección representa un alto reto algorítmico y computacional, debido a que es necesario obtener y evaluar cada uno de los posibles modelos para poder seleccionar de forma eficiente el más preciso. En este trabajo se creó un modelo de procesamiento paralelo para parametrizar modelos de regresiones lineales multivariables, utilizando arquitecturas heterogéneas: HMMMR (Heterogeneous Model for Massive Multilinear Regressions). HMMMR fue diseñado orientado a explotar los benefi cios de las capacidades de computo paralelo de GPUs mediante el uso de estructuras de datos y operaciones matriciales optimizadas para realizar cálculos en batch. El objetivo principal de HMMMR es hacer una selección de un subconjunto de predictores que presenten mejores resultados en una regresión lineal para una determinada variable objetivo. La implementación de HMMMR muestra superioridad en el tiempo de cálculo de regresiones dado que se hace un uso mas e ficiente de las capacidad de procesamiento en batch de la GPU. Para los datasets evaluados (29332215 y 46626033 regresiones con datos niveles y precipitaciones de embalses ubicados en Colombia) la implementación de HMMMR llegó a ser hasta 9.8 y 5.06 veces más rápida que la implementación en una plataforma homogénea. Disponibilidad: https://github.com/carojasq/HMMMR .

Resumen

The generation of multiple linear regression models demands an exhaustive selection of the return variables that allow obtaining a high level of precision in the prediction tasks. This selection process represents a high algorithmic and computational challenge, due to the fact that it is necessary to obtain and evaluate each of the possible models in order to efficiently select the most accurate one. In this work, a parallel processing model was created to parameterize multivariable linear regression models, using heterogeneous architectures: HMMMR (Heterogeneous Model for Massive Multilinear Regressions). HMMMR was designed to exploit the benefits of parallel computing capabilities of GPUs through the use of data structures and optimized matrix operations to perform batch calculations. The main objective of HMMMR is to make a selection of a subset of predictors that present better results in a linear regression for a given target variable. The implementation of HMMMR shows superiority in the regression calculation time since a more efficient use of the batch processing capacity of the GPU is made. For the datasets evaluated (29332215 and 46626033 regressions with data levels and precipitations of reservoirs located in Colombia) the implementation of HMMMR was up to 9.8 and 5.06 times faster than the implementation in a homogeneous platform. Availability: https://github.com/carojasq/HMMMR.

Palabras clave

GPU, Ciencia de datos, Computación heterogénea, Regresiones lineales multivariables

Materias

Maestría en Ciencias de la Información y las Comunicaciones - Tesis y disertaciones académicas , Procesamiento de datos , Programación paralela (Computadores electrónicos) , Algoritmos

Citación