Publicación:
Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data

dc.contributor.advisorBonet Cruz, Isisspa
dc.contributor.authorVanegas Piedrahita, Juliánspa
dc.date.accessioned2019-05-29T16:02:44Zspa
dc.date.available2019-05-29T16:02:44Zspa
dc.date.issued2018spa
dc.description35 páginasspa
dc.description.abstractEn el campo de la metagenómica, está incrementando el uso de la metagenómica balística como proceso de extracción de cadenas de aminoácidos de microorganismos previamente no identificados, basándose en muestras ambientales de diversas fuentes. Estas cadenas de aminoácidos, debido al proceso de extracción, son separadas en subcadenas de tamaños variables que luego buscan ser comparadas e identificadas con una base de datos para no sólo determinar qué especies ya reconocidas habitan en las muestras tomadas, sino también qué porciones de estas secuencias de aminoácidos no han sido previamente categorizadas. En búsqueda de que este método de identificación produzca mayores resultados, se usan algoritmos de agrupamiento como facilitadores en el proceso de identificación de las diferentes especies. Estos algoritmos agrupan secuencias de aminoácidos que tienen cierto grado de similitud, produciendo clústeres de subcadenas, para que luego estos puedan ser comparados en grupo y ser más rápidamente analizadas. Con el objetivo de mejorar los tiempos de ejecución, se usaron plataformas como Apache Spark y TensorFlow, que dentro de sus librerías incluyen implementaciones nativas de estos algoritmos de agrupamiento. A partir de estas librerías se implementó el K-means iterativo que fue usado como punto de comparación. En los resultados se puede apreciar que el uso de K-means Iterativo mejora la pureza comparado con la alternativa de una sola iteración, para el caso de uso de una base de metagenómica usando los 4mer como rasgos, y usando el coseno como distancia. Debido a este último punto, y a que la implementación de Apache Spark de K-means no tiene la distancia coseno, se utilizó TensorFlow principalmente para la toma de resultados. El uso de TensorFlow muestra una mejora en general de tiempos de ejecución, siendo mucho más significativa en el caso de K-means Iterativo, teniendo como desventaja que requiere mucho más poder de procesamiento.spa
dc.description.degreelevelPregradospa
dc.description.degreenameIngeniero(a) de Sistemas y Computaciónspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.bibliographiccitationVanegas Piedrahita, J. (2018). Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/2299spa
dc.identifier.urihttps://repository.eia.edu.co/handle/11190/2299spa
dc.language.isospaspa
dc.locationINFO0070spa
dc.publisherUniversidad EIAspa
dc.publisher.departmentAdministrativa, Financiera, Sistemas y Computaciónspa
dc.publisher.editorEnvigado (Antioquia, Colombia). Universidad EIA, 2018spa
dc.publisher.programIngeniería de Sistemas y Computaciónspa
dc.rightsDerechos Reservados - Universidad EIA, 2018spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2spa
dc.rights.creativecommonsAtribución-NoComercialspa
dc.rights.licenseEl autor de la obra, actuando en nombre propio, hace entrega del ejemplar respectivo y de sus anexos en formato digital o electrónico y autoriza a la ESCUELA DE INGENIERIA DE ANTIOQUIA, para que en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión andina 351 de 1993, Decreto 460 de 1995, y demás normas generales sobre la materia, utilice y use por cualquier medio conocido o por conocer, los derechos patrimoniales de reproducción, comunicación pública, transformación y distribución de la obra objeto del presente documento. PARÁGRAFO: La presente autorización se hace extensiva no sólo a las dependencias y derechos de uso sobre la obra en formato o soporte material, sino también para formato virtual, electrónico, digital, y en red, internet, extranet, intranet, etc., y en general en cualquier formato conocido o por conocer. EL AUTOR, manifiesta que la obra objeto de la presente autorización es original y la realiza sin violar o usurpar derechos de autor de terceros, por lo tanto la obra es de exclusiva autoría y tiene la titularidad sobre la misma. PARÁGRAFO: En caso de presentarse cualquier reclamación o acción por parte de un tercero en cuanto a los derechos de autor sobre la obra en cuestión, EL AUTOR, asumirá toda la responsabilidad, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos la ESCUELA DE INGENIERÍA DE ANTIOQUIA actúa como un tercero de buena fe.spa
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.proposalMetagenómicaspa
dc.subject.proposalTensorflowspa
dc.subject.proposalSparkspa
dc.subject.proposalK-meansspa
dc.subject.proposalClusterizaciónspa
dc.subject.proposalMetagenomicsspa
dc.subject.proposalClusterizationspa
dc.titleOptimización de algoritmos de agrupamiento aplicados a metagenómica usando big dataspa
dc.typeTrabajo de grado - Pregradospa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1fspa
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85spa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/bachelorThesisspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TPspa
dc.type.versioninfo:eu-repo/semantics/publishedVersionspa
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
VanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf
Tamaño:
1.09 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
Bloque de licencias
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
2.46 KB
Formato:
Item-specific license agreed upon to submission
Descripción: