Modelo de procesamiento paralelo en arquitecturas heterogéneas para la construcción de grafos en el ensamblaje de-Novo de genomas
dc.contributor.advisor | Pérez Castillo, José Nelson | spa |
dc.contributor.author | Vera Parra, Nelson Enrique | spa |
dc.date.accessioned | 2018-04-19T16:48:05Z | |
dc.date.available | 2018-04-19T16:48:05Z | |
dc.date.created | 2018-03-12 | spa |
dc.description | En el presente proyecto se diseñó un modelo de procesamiento paralelo masivo sobre arquitecturas heterogéneas para acelerar y facilitar el tratamiento de k-mers en los procesos relacionados a la construcción de grafos en el ensamble genómico de-novo. El modelo incluye 3 principales aportes: una nueva estructura de datos denominadas CISK para representar de forma indexada y compacta los super k-mers y sus minimizer de una lectura y dos patrones de paralelización masiva, uno para obtener los m-mers canónicos de un conjunto de lecturas y otro para realizar la búsqueda de super k-mers basados en semillas tipo minimizer. Durante el proyecto se realizaron 4 procesos de evaluación: - una evaluación preliminar que permitió determinar que el proceso de ensamblaje de-novo es la etapa más compleja y con mayores requerimientos computacionales de un flujo de trabajo típico de lecturas genómicas y trancriptómicas, - una segunda evaluación que evidenció que las tareas asociados al tratamiento de k-mers son procesos que representan cuellos de botella debido a su alta exigencia de memoria, - una tercera evaluación que proyectó a las técnicas de particionamiento en disco basadas en super k-mers por semillas tipo minimizer como candidatas a potencializarlas mediante computación paralela masiva sobre plataformas heterogéneas, - y por último una evaluación al modelo propuesto que mostró sus ventajas obteniendo un speed-up hasta de 6.69x sobre procesos similares en herramientas contadoras de k-mers muy reconocidas que realizan paralelización en CPU. El código de la implementación del modelo se encuentra disponible en el repositorio https://github.com/BioinfUD/K-mersCL. Esta implementación consta de un código host y dos kernels en OpenCL, uno para minimizer canónicos y otro para signature. | spa |
dc.description.abstract | In the present project, a massive parallel processing model on heterogeneous architectures was designed to accelerate and facilitate the processing of k-mers in the tasks related to the construction of graphs in the de-novo genomic assembly. The model includes 3 main contributions: a new data structure called CISK to represent in an indexed and compact way the super k-mers and their minimizers and two massive parallelization patterns, one to obtain the canonical m-mers of a set of reads and another to perform the search for super k-mers based on seeds type minimizer. During the project, 4 evaluation processes were performed: - a preliminary evaluation that allowed determining that the de-novo assembly process is the most complex stage and with the highest computational requirements of a typical workflow of genomic and transcriptomic reads, - a second evaluation that showed that the tasks associated with the treatment of k-mers are processes that represent bottlenecks due to their high demand of memory, - a third evaluation that allowed select the disk partitioning techniques based on super k-mers using seeds type minimizer as base methodology for the design of massive parallel computing model to process k-mers on heterogeneous platforms, - and finally an evaluation of the proposed model that evidenced its advantages obtaining a speed-up of 4.31x on similar processes in highly recognized k-mers counting tools that perform parallelization in CPU. The model implementation code is available in the repository https://github.com/BioinfUD/K-mersCL. This implementation consists of a host code and two kernels in OpenCL, one for canonical minimizer and another for signature. | spa |
dc.format.mimetype | spa | |
dc.identifier.uri | http://hdl.handle.net/11349/8019 | |
dc.language.iso | spa | spa |
dc.rights | Atribución-NoComercial-SinDerivadas 4.0 Internacional | * |
dc.rights.acceso | Abierto (Texto Completo) | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Procesamiento paralelo de k-mers | spa |
dc.subject | Computación paralela | spa |
dc.subject | Grafos de de Bruijn | spa |
dc.subject | Ensamblaje genómico de-novo | spa |
dc.subject.keyword | Parallel processing of k-mers | spa |
dc.subject.keyword | Parallel computing | spa |
dc.subject.keyword | De Bruijn graphs | spa |
dc.subject.keyword | De-novo genomic assembly | spa |
dc.subject.lemb | Doctorado en Ingeniería - Tesis y disertaciones académicas | spa |
dc.subject.lemb | Bioinformática | spa |
dc.subject.lemb | Procesamiento paralelo (Computadores electrónicos) | spa |
dc.subject.lemb | Arquitectura de computadores | spa |
dc.title | Modelo de procesamiento paralelo en arquitecturas heterogéneas para la construcción de grafos en el ensamblaje de-Novo de genomas | spa |
dc.title.titleenglish | Model of parallel processing in heterogeneous architectures for the construction of graphs in the de-novo assembly of genomas | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_db06 | spa |
dc.type.degree | Investigación-Innovación | spa |
dc.type.driver | info:eu-repo/semantics/doctoralThesis | spa |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- VeraParraNelsonEnrique2018.pdf
- Tamaño:
- 3.76 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Tesis de Doctorado
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 7 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: