RESUMEN: La comparación objetiva del desempeño de clasificadores es fundamental en aplicaciones biomédicas donde las decisiones basadas en modelos tienen consecuencias clínicas. Este artículo presenta un enfoque tutorial para aplicar pruebas estadísticas a la evaluación comparativa de modelos de clasificación, tanto binarios como multiclase. Se revisan métricas comunes, así como pruebas estadísticas paramétricas y no paramétricas. Se incluyen ejemplos reproducibles en Python usando bibliotecas como scikit-learn y SciPy. Este trabajo busca apoyar a investigadores en la toma de decisiones fundamentadas sobre el rendimiento relativo de modelos predictivos.