Please use this identifier to cite or link to this item: http://repository.eia.edu.co/handle/11190/2299
Title: Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
Authors: Vanegas Piedrahita, Julián
Adviser: Bonet Cruz, Isis
Keywords : Metagenómica
Tensorflow
Spark
K-means
Clusterización
Metagenomics
Clusterization
Issue Date: 2018
Publisher: Universidad EIA
Abstract: En el campo de la metagenómica, está incrementando el uso de la metagenómica balística como proceso de extracción de cadenas de aminoácidos de microorganismos previamente no identificados, basándose en muestras ambientales de diversas fuentes. Estas cadenas de aminoácidos, debido al proceso de extracción, son separadas en subcadenas de tamaños variables que luego buscan ser comparadas e identificadas con una base de datos para no sólo determinar qué especies ya reconocidas habitan en las muestras tomadas, sino también qué porciones de estas secuencias de aminoácidos no han sido previamente categorizadas. En búsqueda de que este método de identificación produzca mayores resultados, se usan algoritmos de agrupamiento como facilitadores en el proceso de identificación de las diferentes especies. Estos algoritmos agrupan secuencias de aminoácidos que tienen cierto grado de similitud, produciendo clústeres de subcadenas, para que luego estos puedan ser comparados en grupo y ser más rápidamente analizadas. Con el objetivo de mejorar los tiempos de ejecución, se usaron plataformas como Apache Spark y TensorFlow, que dentro de sus librerías incluyen implementaciones nativas de estos algoritmos de agrupamiento. A partir de estas librerías se implementó el K-means iterativo que fue usado como punto de comparación. En los resultados se puede apreciar que el uso de K-means Iterativo mejora la pureza comparado con la alternativa de una sola iteración, para el caso de uso de una base de metagenómica usando los 4mer como rasgos, y usando el coseno como distancia. Debido a este último punto, y a que la implementación de Apache Spark de K-means no tiene la distancia coseno, se utilizó TensorFlow principalmente para la toma de resultados. El uso de TensorFlow muestra una mejora en general de tiempos de ejecución, siendo mucho más significativa en el caso de K-means Iterativo, teniendo como desventaja que requiere mucho más poder de procesamiento.
Abstract (English): In the field of metagenomics, the use of ballistic metagenomics as the extraction process of amino acids chains of previously unidentified microorganisms, using environmental samples from diverse sources as its base. These amino acid chains, due to the extraction process, are separated in sub-chains of variable sizes, which will be used afterwards for comparison and identification with a database to not only determine which of the already recognized species are present in the samples, but also what portion of these amino acid sequences have not been previously categorized. Seeking for this method for identification to produce better results, clustering algorithms will be used as enablers in the identification process for the different species. These algorithms group amino acid chains with a certain similarity rate, producing sub-chain clusters, so these can then be compared in group and be analyzed faster. Platforms like Apache Spark and TensorFlow were used with the objective of reducing the execution times, as they include native implementations of these clustering algorithms in their libraries. With these libraries as a base, an implementation of Iterative K-means was created and then used as a comparison point. In the results it is apparent that Iterative K-means improves the cluster purity compared to the single-iteration alternative, using a metagenomics base with 4mer as features, and using the cosine distance. Due to the latter, and the fact that the K-means implementation in Apache Spark doesn’t include the cosine distance, TensorFlow was the primary platform used for the gathering of the results. The use of TensorFlow improved the execution times in general, with a more significative difference in the case of the Iterative K-means, with the disadvantage that it requires much more processing power.
Description: 35 páginas
URI: http://repository.eia.edu.co/handle/11190/2299
Citation: Vanegas Piedrahita, J. (2018). Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/2299
Location: INFO0070
Appears in Collections:Ingeniería de Sistemas y Computación

Files in This Item:
File Description SizeFormat 
VanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdfTrabajo de grado1.12 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.