Pérez Castillo, José NelsonVera Parra, Nelson Enrique2018-04-192018-04-192018-03-12http://hdl.handle.net/11349/8019En el presente proyecto se diseñó un modelo de procesamiento paralelo masivo sobre arquitecturas heterogéneas para acelerar y facilitar el tratamiento de k-mers en los procesos relacionados a la construcción de grafos en el ensamble genómico de-novo. El modelo incluye 3 principales aportes: una nueva estructura de datos denominadas CISK para representar de forma indexada y compacta los super k-mers y sus minimizer de una lectura y dos patrones de paralelización masiva, uno para obtener los m-mers canónicos de un conjunto de lecturas y otro para realizar la búsqueda de super k-mers basados en semillas tipo minimizer. Durante el proyecto se realizaron 4 procesos de evaluación: - una evaluación preliminar que permitió determinar que el proceso de ensamblaje de-novo es la etapa más compleja y con mayores requerimientos computacionales de un flujo de trabajo típico de lecturas genómicas y trancriptómicas, - una segunda evaluación que evidenció que las tareas asociados al tratamiento de k-mers son procesos que representan cuellos de botella debido a su alta exigencia de memoria, - una tercera evaluación que proyectó a las técnicas de particionamiento en disco basadas en super k-mers por semillas tipo minimizer como candidatas a potencializarlas mediante computación paralela masiva sobre plataformas heterogéneas, - y por último una evaluación al modelo propuesto que mostró sus ventajas obteniendo un speed-up hasta de 6.69x sobre procesos similares en herramientas contadoras de k-mers muy reconocidas que realizan paralelización en CPU. El código de la implementación del modelo se encuentra disponible en el repositorio https://github.com/BioinfUD/K-mersCL. Esta implementación consta de un código host y dos kernels en OpenCL, uno para minimizer canónicos y otro para signature.In the present project, a massive parallel processing model on heterogeneous architectures was designed to accelerate and facilitate the processing of k-mers in the tasks related to the construction of graphs in the de-novo genomic assembly. The model includes 3 main contributions: a new data structure called CISK to represent in an indexed and compact way the super k-mers and their minimizers and two massive parallelization patterns, one to obtain the canonical m-mers of a set of reads and another to perform the search for super k-mers based on seeds type minimizer. During the project, 4 evaluation processes were performed: - a preliminary evaluation that allowed determining that the de-novo assembly process is the most complex stage and with the highest computational requirements of a typical workflow of genomic and transcriptomic reads, - a second evaluation that showed that the tasks associated with the treatment of k-mers are processes that represent bottlenecks due to their high demand of memory, - a third evaluation that allowed select the disk partitioning techniques based on super k-mers using seeds type minimizer as base methodology for the design of massive parallel computing model to process k-mers on heterogeneous platforms, - and finally an evaluation of the proposed model that evidenced its advantages obtaining a speed-up of 4.31x on similar processes in highly recognized k-mers counting tools that perform parallelization in CPU. The model implementation code is available in the repository https://github.com/BioinfUD/K-mersCL. This implementation consists of a host code and two kernels in OpenCL, one for canonical minimizer and another for signature.pdfspaAtribución-NoComercial-SinDerivadas 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Procesamiento paralelo de k-mersComputación paralelaGrafos de de BruijnEnsamblaje genómico de-novoModelo de procesamiento paralelo en arquitecturas heterogéneas para la construcción de grafos en el ensamblaje de-Novo de genomasDoctorado en Ingeniería - Tesis y disertaciones académicasBioinformáticaProcesamiento paralelo (Computadores electrónicos)Arquitectura de computadoresinfo:eu-repo/semantics/openAccessModel of parallel processing in heterogeneous architectures for the construction of graphs in the de-novo assembly of genomasParallel processing of k-mersParallel computingDe Bruijn graphsDe-novo genomic assemblyInvestigación-InnovaciónAbierto (Texto Completo)