Diseño e implementación de un flujo de trabajo bioinformático en la nube para la identificación de variantes oncogénicas a partir de datos genómicos

Varela Tabares, Daniela

Publicación:
Diseño e implementación de un flujo de trabajo bioinformático en la nube para la identificación de variantes oncogénicas a partir de datos genómicos

Portada

1.56 MB

VarelaDaniela_2019_DiseñoImplementacionFlujo.pdf

PDF

FLIP

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autores

Varela Tabares, Daniela

Director

Flórez Zapata, Nathalia María Vanessa

Arango Ossa, Juan Esteban

Editores

Universidad EIA

Tipo de Material

Trabajo de grado - Pregrado

Fecha

2019

Palabras claves

Flujo de trabajo

Computación en la nube

Variantes oncogénicas

Pipeline

Cloud computing

Oncogenic variant

Resumen en español

La secuenciación de alto rendimiento (NGS, por sus siglas en inglés) revolucionó el campo de la genómica al reducir los costos y aumentar la velocidad del proceso drásticamente. Como consecuencia, la cantidad de secuencias de ADN ha aumentado exponencialmente, y cada día se desarrollan nuevas herramientas y aplicaciones para su procesamiento. Esto ha incrementado la demanda de infraestructura de cómputo y almacenamiento, que permita analizar tal volumen de información. El verdadero valor de estos datos se materializa cuando arrojan información médica relevante en escalas de tiempo aceptables, para su aplicación en el diagnóstico y tratamiento de enfermedades asociadas a alteraciones del genoma, como el cáncer. Sin embargo, la posibilidad de acceder a una infraestructura propia de computación de alto rendimiento, para lograr la transformación de los datos, se ve limitada por sus costos. Es aquí donde la computación en la nube se presenta como una opción atractiva, particularmente por su modelo de facturación bajo demanda, en el que se paga únicamente por los recursos usados. En este trabajo se expone el proceso para lograr la implementación de un flujo de trabajo bioinformático en la nube para la detección de variantes oncogénicas, desde la selección del proveedor del servicio de computación hasta la validación de las variantes genéticas encontradas. Incluyendo múltiples etapas de levantamiento de requerimientos, codificación, diseño y documentación, como se realiza en las metodologías ágiles para el diseño de software, cuyos principios fueron adoptados para el desarrollo. Para la infraestructura de computación en la nube, se escogió Amazon Web Services, un proveedor del servicio. Luego se diseñó el flujo, definiendo entradas, procesos intermedios, salidas y herramientas a utilizar en cada paso; y se seleccionaron los archivos de entrada de una base de datos pública. Los diferentes pasos se conectan a través de Isabl, un marco de trabajo para el manejo de datos NGS, que administra los metadatos y gestiona las tareas, desplegado en la nube utilizando el servicio ECS para la orquestación de contenedores. Adicional a este, se utilizó EC2 para el procesamiento y EFS para el almacenamiento, entre otros servicios. La implementación fue realizada con éxito, se validaron las variantes genéticas encontradas respecto a estudios relacionados y se reportan gráficamente los resultados, lo que facilita la interpretación de estos y le genera un valor adicional al proyecto. Se analizaron los costos asociados al proceso y se comparó con el servicio ofrecido por un centro de computación de alto rendimiento colombiano, mostrando la viabilidad de la computación en la nube para este tipo de desarrollos a corto plazo y pequeña escala.

Descripción general

59 páginas

URI

https://repository.eia.edu.co/handle/11190/2461

Colecciones

Ingeniería Biomédica

Página completa del ítem Ver Estadísticas de uso

Publicación:
Diseño e implementación de un flujo de trabajo bioinformático en la nube para la identificación de variantes oncogénicas a partir de datos genómicos

Portada

VarelaDaniela_2019_DiseñoImplementacionFlujo.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autores

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor/Compilador

Editores

Tipo de Material

Fecha

Palabras claves

Cita bibliográfica

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen en español

Descripción general

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación: Diseño e implementación de un flujo de trabajo bioinformático en la nube para la identificación de variantes oncogénicas a partir de datos genómicos

Portada

VarelaDaniela_2019_DiseñoImplementacionFlujo.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autores

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor/Compilador

Editores

Tipo de Material

Fecha

Palabras claves

Cita bibliográfica

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen en español

Descripción general

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación:
Diseño e implementación de un flujo de trabajo bioinformático en la nube para la identificación de variantes oncogénicas a partir de datos genómicos