Page 65 - Introducción a la Bioestadística con R
P. 65
Sección 5: Comparando dos grupos: t-Test y Wilcoxon’s Rank Sum Test.
Conceptos clave.
Introducción a la Bioestadística con R
•
•
•
•
Todas las pruebas estadísticas asumen una serie de condiciones que deben cumplirse para poder emplear correctamente la prueba en cuestión. Es esencial comprobar que las condiciones o supuestos se cumplen antes de realizar la prueba, de otro modo las conclusiones podrían ser completamente erróneas.
Las pruebas estadísticas suelen dividirse en dos tipos, paramétricas y no paramétricas. Las primeras asumen una distribución normal de las muestras, sin embargo, las segundas no exigen dicha condición. Si nuestra base de datos no tiene una distribución normal, y no es posible normalizarla, siempre podemos recurrir a pruebas no paramétricas para buscar una solución a nuestro análisis.
La prueba t es un test paramétrico que se utiliza para evaluar las medidas de dos grupos mediante pruebas de hipótesis. Hay tres tipos de prueba t: 1) de una muestra, 2) de dos muestras, y 3) de dos muestras pareadas.
La prueba de Wilcoxon Rank Sum Test (también llamada Mann Whitney Wilcoxon) es la alternativa no paramétrica al t-test y básicamente compara si dos muestras vienen de poblaciones equidistribuidas. De este modo, al juntar ambas poblaciones y ordenarlas de mayor a menor las muestras quedaran intercaladas si proceden de la misma población. Por ello, a veces se dice que se comparan las medianas, pero el test abarca mucho más.
Hasta ahora nos hemos centrado en los conceptos básicos del lenguaje de programación de R y en cómo se calculan las estadísticas descriptivas (media, mediana, moda, varianza, etc.). Pero, ¿qué ocurre si además queremos sacar conclusiones sobre nuestros resultados aparte de describirlos? Para eso necesitaremos adentrarnos en el área de la estadística inferencial. Todas las pruebas estadísticas asumen una serie condiciones. Estos supuestos (o assumptions en inglés), son críticos para la correcta utilización de las pruebas ya que las pruebas son muy sensibles a la violación de estas condiciones y los resultados obtenidos podrían ser erróneos si no cumplen las condiciones necesarias. Así pues, en esta sección vamos a cubrir cómo comparar dos grupos entre sí con poblaciones con una distribución paramétrica usando el t-Test, y no paramétrica usando el Wilcoxon´s Rank Sum Test, y como ejecutar los análisis previos en R para evaluar si se cumplen los supuestos en cada caso.
Prueba de hipótesis paramétrica: t-Test.
Debido a su naturaleza, las medidas biológicas están condicionadas a ser variables. Una primera aproximación al estudio de su variabilidad son las funciones var() y sd() vistas en la sección anterior. Si además de estimar parámetros descriptivos también queremos dar respuesta a preguntas concretas. Por ejemplo, ¿diferentes dietas modulan los niveles basales de glucosa?, o ¿dos tratamientos de cáncer distintos presentan diferencias en la propagación de las metástasis? es posible que nos interese comparar las medias de estos grupos, pero debido a la variación asociada, nunca podemos estar completamente seguros de que las diferencias entre nuestras medias muestrales reflejen a la población real. ¡Pudo haber sido por casualidad!
61