Modelo de procesamiento paralelo en arquitecturas heterogéneas para la construcción de grafos en el ensamblaje de-Novo de genomas

dc.contributor.advisorPérez Castillo, José Nelsonspa
dc.contributor.authorVera Parra, Nelson Enriquespa
dc.date.accessioned2018-04-19T16:48:05Z
dc.date.available2018-04-19T16:48:05Z
dc.date.created2018-03-12spa
dc.descriptionEn el presente proyecto se diseñó un modelo de procesamiento paralelo masivo sobre arquitecturas heterogéneas para acelerar y facilitar el tratamiento de k-mers en los procesos relacionados a la construcción de grafos en el ensamble genómico de-novo. El modelo incluye 3 principales aportes: una nueva estructura de datos denominadas CISK para representar de forma indexada y compacta los super k-mers y sus minimizer de una lectura y dos patrones de paralelización masiva, uno para obtener los m-mers canónicos de un conjunto de lecturas y otro para realizar la búsqueda de super k-mers basados en semillas tipo minimizer. Durante el proyecto se realizaron 4 procesos de evaluación: - una evaluación preliminar que permitió determinar que el proceso de ensamblaje de-novo es la etapa más compleja y con mayores requerimientos computacionales de un flujo de trabajo típico de lecturas genómicas y trancriptómicas, - una segunda evaluación que evidenció que las tareas asociados al tratamiento de k-mers son procesos que representan cuellos de botella debido a su alta exigencia de memoria, - una tercera evaluación que proyectó a las técnicas de particionamiento en disco basadas en super k-mers por semillas tipo minimizer como candidatas a potencializarlas mediante computación paralela masiva sobre plataformas heterogéneas, - y por último una evaluación al modelo propuesto que mostró sus ventajas obteniendo un speed-up hasta de 6.69x sobre procesos similares en herramientas contadoras de k-mers muy reconocidas que realizan paralelización en CPU. El código de la implementación del modelo se encuentra disponible en el repositorio https://github.com/BioinfUD/K-mersCL. Esta implementación consta de un código host y dos kernels en OpenCL, uno para minimizer canónicos y otro para signature.spa
dc.description.abstractIn the present project, a massive parallel processing model on heterogeneous architectures was designed to accelerate and facilitate the processing of k-mers in the tasks related to the construction of graphs in the de-novo genomic assembly. The model includes 3 main contributions: a new data structure called CISK to represent in an indexed and compact way the super k-mers and their minimizers and two massive parallelization patterns, one to obtain the canonical m-mers of a set of reads and another to perform the search for super k-mers based on seeds type minimizer. During the project, 4 evaluation processes were performed: - a preliminary evaluation that allowed determining that the de-novo assembly process is the most complex stage and with the highest computational requirements of a typical workflow of genomic and transcriptomic reads, - a second evaluation that showed that the tasks associated with the treatment of k-mers are processes that represent bottlenecks due to their high demand of memory, - a third evaluation that allowed select the disk partitioning techniques based on super k-mers using seeds type minimizer as base methodology for the design of massive parallel computing model to process k-mers on heterogeneous platforms, - and finally an evaluation of the proposed model that evidenced its advantages obtaining a speed-up of 4.31x on similar processes in highly recognized k-mers counting tools that perform parallelization in CPU. The model implementation code is available in the repository https://github.com/BioinfUD/K-mersCL. This implementation consists of a host code and two kernels in OpenCL, one for canonical minimizer and another for signature.spa
dc.format.mimetypepdfspa
dc.identifier.urihttp://hdl.handle.net/11349/8019
dc.language.isospaspa
dc.rightsAtribución-NoComercial-SinDerivadas 4.0 Internacional*
dc.rights.accesoAbierto (Texto Completo)spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectProcesamiento paralelo de k-mersspa
dc.subjectComputación paralelaspa
dc.subjectGrafos de de Bruijnspa
dc.subjectEnsamblaje genómico de-novospa
dc.subject.keywordParallel processing of k-mersspa
dc.subject.keywordParallel computingspa
dc.subject.keywordDe Bruijn graphsspa
dc.subject.keywordDe-novo genomic assemblyspa
dc.subject.lembDoctorado en Ingeniería - Tesis y disertaciones académicasspa
dc.subject.lembBioinformáticaspa
dc.subject.lembProcesamiento paralelo (Computadores electrónicos)spa
dc.subject.lembArquitectura de computadoresspa
dc.titleModelo de procesamiento paralelo en arquitecturas heterogéneas para la construcción de grafos en el ensamblaje de-Novo de genomasspa
dc.title.titleenglishModel of parallel processing in heterogeneous architectures for the construction of graphs in the de-novo assembly of genomasspa
dc.type.coarhttp://purl.org/coar/resource_type/c_db06spa
dc.type.degreeInvestigación-Innovaciónspa
dc.type.driverinfo:eu-repo/semantics/doctoralThesisspa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
VeraParraNelsonEnrique2018.pdf
Tamaño:
3.76 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Doctorado

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
7 KB
Formato:
Item-specific license agreed upon to submission
Descripción: