Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data

Vanegas Piedrahita, Julián

Publicación:
Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data

Portada

1.09 MB

VanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf

PDF

FLIP

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autores

Vanegas Piedrahita, Julián

Director

Bonet Cruz, Isis

Editores

Universidad EIA

Tipo de Material

Trabajo de grado - Pregrado

Fecha

2018

Palabras claves

Resumen en español

En el campo de la metagenómica, está incrementando el uso de la metagenómica balística como proceso de extracción de cadenas de aminoácidos de microorganismos previamente no identificados, basándose en muestras ambientales de diversas fuentes. Estas cadenas de aminoácidos, debido al proceso de extracción, son separadas en subcadenas de tamaños variables que luego buscan ser comparadas e identificadas con una base de datos para no sólo determinar qué especies ya reconocidas habitan en las muestras tomadas, sino también qué porciones de estas secuencias de aminoácidos no han sido previamente categorizadas. En búsqueda de que este método de identificación produzca mayores resultados, se usan algoritmos de agrupamiento como facilitadores en el proceso de identificación de las diferentes especies. Estos algoritmos agrupan secuencias de aminoácidos que tienen cierto grado de similitud, produciendo clústeres de subcadenas, para que luego estos puedan ser comparados en grupo y ser más rápidamente analizadas. Con el objetivo de mejorar los tiempos de ejecución, se usaron plataformas como Apache Spark y TensorFlow, que dentro de sus librerías incluyen implementaciones nativas de estos algoritmos de agrupamiento. A partir de estas librerías se implementó el K-means iterativo que fue usado como punto de comparación. En los resultados se puede apreciar que el uso de K-means Iterativo mejora la pureza comparado con la alternativa de una sola iteración, para el caso de uso de una base de metagenómica usando los 4mer como rasgos, y usando el coseno como distancia. Debido a este último punto, y a que la implementación de Apache Spark de K-means no tiene la distancia coseno, se utilizó TensorFlow principalmente para la toma de resultados. El uso de TensorFlow muestra una mejora en general de tiempos de ejecución, siendo mucho más significativa en el caso de K-means Iterativo, teniendo como desventaja que requiere mucho más poder de procesamiento.

Descripción general

35 páginas

URI

https://repository.eia.edu.co/handle/11190/2299

Colecciones

Ingeniería de Sistemas y Computación

Página completa del ítem Ver Estadísticas de uso

Publicación:
Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data

Portada

VanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autores

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor/Compilador

Editores

Tipo de Material

Fecha

Palabras claves

Cita bibliográfica

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen en español

Descripción general

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación: Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data

Portada

VanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autores

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor/Compilador

Editores

Tipo de Material

Fecha

Palabras claves

Cita bibliográfica

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen en español

Descripción general

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación:
Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data