Please use this identifier to cite or link to this item: http://repository.eia.edu.co/handle/11190/2292
Title: Análisis de algoritmos para el agrupamiento de muestras metagenómicas
Authors: Escobar Vasco, Adriana María
Adviser: Bonet Cruz, Isis
Keywords : Metagenómica
K-means
Clusterización
Weka
Metagenomics
Clusterization
Issue Date: 2016
Publisher: Universidad EIA
Abstract: Las formas de vida microscópicas se encuentran en todos los lugares y ambientes del planeta, y en su genética se halla información de gran valor para los científicos, sin embargo al tomar una muestra para estudiarlos solo se logra aislar y cultivar menos del 1% de ellos. La metagenómica nace con el fin de estudiar el otro 99% de la muestra y de descubrir más acerca de estas comunidades. El objetivo de la metagenómica es la secuenciación y el análisis de los genes contenidos en los cromosomas de microorganismos, esfuerzos en los cuales se enfoca el presente proyecto. Para la realización del proyecto se utiliza el programa weka y el algoritmo k-means, implementado en una versión iterativa que utiliza la distancia coseno o euclidiana dependiendo del criterio del experto. Además utiliza cómo parámetro las distancias entre los clústeres para escoger los mejores y optimizar los resultados de la segunda iteración. Con en desarrollo de este proyecto se llega a la conclusión que el k-means iterativo es una mejora al k-means, optimizando los resultados y encontrando clústeres más puros. También se encuentra que los resultados obtenidos con la función de distancia coseno son mejores que aquellos obtenidos con la función euclidiana y que el mejor atributo para describir las distancias es el 4-mer.
Abstract (English): Microscopic life forms exist in every place and environment in this planet. In their genetics there is valuable information for scientists, but only 1% of these microorganisms can be separated from a sample and cultivated to be studied. Metagenomics is the name of the field that is focusing on the study of the other 99% of the microorganisms in the sample. Its main goal is to sequence and analyze the genes in the chromosomes of the microorganisms, and learn as much as possible about the microbial world. This project emphases on the task of grouping the sequences of genes and identifying them. The program Weka and the algorithm k-means are used for the development of this project. An iterative version that provides the Euclidian and cosine distance functions as a parameter for the user to choose is implemented. The distance between the clusters is used to choose the best groups and optimize the results of the second iteration. As a result of this project a clear difference between the iterative k-means and the original one is found. This new algorithm is an optimization of the older one finding clusters that are more pure. The conclusion that cosine is a better distance function to calculate the clusters was reached, and 4-mer as an attribute to describe instances is the best choice.
Description: 34 páginas
URI: http://repository.eia.edu.co/handle/11190/2292
Citation: Escobar Vasco, A.M. (2016). Análisis de algoritmos para el agrupamiento de muestras metagenómicas (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/2292
Location: INFO0063
Appears in Collections:Ingeniería de Sistemas y Computación

Files in This Item:
File Description SizeFormat 
EscobarAdriana_2016_AnalisisAlgoritmosAgrupamiento.pdfTrabajo de grado946.1 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.