Analyse de données biologiques

V - La p-valeur (version 3.0)

Prof. Patrick E. Meyer

Objectif

  • Rejeter une hypothèse
  • 80 années d’utilisation dans la littérature scientifique
  • Exemples:
    • La pièce de monnaie est bien balançée
    • Le BMI des patients de cet hopital est normal
    • Le treatment est aussi efficace qu’un placebo

Définition

  • La p-valeur est la probabilité (\(0 \leq p\leq 1\)) d’obtenir une valeur au moins aussi extrême (que celle observée) étant donné que l’hypothèse nulle est vraie.
  • Fisher propose un seuil de 5% \((p=0.05)\) [Fisher1936]
    (en dessous le résultat est dit statistiquement significatif)
  • 38% des médecins résidents interrogés sont incorrects sur son intérpretation [JAMA2007]

Exemple I

Hypothèse (\(H_0\)): Pièce de monnaie équilibrée (\(p(F)=0.5\))

10 tirages: P F P P P P P P P P


La probabilité d’obtenir un échantillon au moins aussi extrême:
\[p(F=0) + p(F=1) + p(F=9) + p(F=10) \approx 0.02\]

  • Soit tirage improbable (\(H_0\) vrai)
  • Soit la pièce n’est pas balancée (on rejette \(H_0\))

Significativité

  • seuil \(\nearrow\) Pr(rejet) \(\nearrow\)
    erreur de type \(\alpha\) \(\nearrow\)
  • seuil \(\searrow\) Pr(rejet) \(\searrow\)
    erreur de type \(\beta\) \(\nearrow\)

Exemple II

\(H_0\): QI des étudiants de l’ULiege = celui de la pop.

  • QI moyen dans la population \(\mu=100\) et \(\sigma =15\)

  • QI moyen pour l’échantillon: \(\bar{x}=130\)

  • nombres de sujets: \(n=30\)

  • \(t=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}=\frac{130-100}{\frac{15}{\sqrt{30}}}=10.95\)

t-test

  • En théorie Z-test pour distribution normale/Gaussienne
  • En pratique le t-test (avec \(s\) le ratio des sigmas) \[t.test=\frac{Z}{s}\]
  • Distribution t de Student (au lieu de Gaussienne).
  • Légèrement moins sensible/biasée que le Z-test.
  • t.test(X,Y)

La taille et l’effet de l’échantillon

  • \(\mu_{QI}=100\) et \(\sigma_{QI}=15\)
  • puissance d’un test (\(1-\beta\)): l’aptitude à rejeter \(H_0\)
  • puissance augmente avec \(n\) mais aussi avec distance à \(\mu\)
  • Puissance: power.t.test(n=30,delta=30,sd=15)

Données non-normale

  • on travaille sur les rangs (non-paramétrique)
  • le plus utilisé: Mann-Whitney-Wilcox Test
  • wilcox.test(X,Y)
  • warning message avec ties (égalités)

Unilatéral ou bilatéral

Hypothèse alternative:

  • \(H_A: QI_{ULg} \neq QI_{pop}\) Vs \(QI_{ULg} > QI_{pop}\)

  • \(H_A: Pr(Face)\neq Pr(Pile)\) Vs \(Pr(Face)<Pr(Pile)\)

  • Une différence non-significative en bilatéral peut devenir significative en unilatéral (puissance \(\nearrow\))

Pairé ou non-pairé

Knwoledge is power

  • t.test vs wilcox.test (normale vs non-normale)
  • unilateral vs bilateral
  • pairé vs non-pairé
  • Exemple:
    • t.test(X,Y,paired=T,alternative="greater") signif: 10 mesures.
    • wilcox.test(X,Y) signif: 40 mesures.
    • à 500 euros le séquençage: 5000€ vs 20000€.

Attention aux tests multiples

  • probabilité du 1er essai: probable (\(p-val>0.05\))
  • probabilité du 2e essai: probable (\(p-val>0.05\))
  • probabilité du 3e essai: probable (\(p-val>0.05\))
  • … : probable (\(p-val>0.05\))
  • probabilité du 20e essai: improbable (\(p-val<0.05\))
  • EUREKA un résultat significatif!!!!
  • MAIS Probabilité d’un résultat significatif en 20 essais: \(1 - (1 - 0.05)^{20}=64\%\)

Correction de Bonferroni

  • Bonferroni propose une correction: \(\frac{\alpha} {n}\)
  • \(\frac{0.05} {20}=0.0025\)
  • \(1-(1-0.0025)^{20}=0.0488\)
  • hypothèse d’indépendance (simple mais restrictif)
  • p.adjust(...,methods="bonferroni")

Données d’expression

  • soit un data.frame avec des expressions de gènes
  • qui ne suivent pas une distribution normale.
  • soit un vecteur Y avec deux valeurs Y=0 et Y=1
  • est-ce que le gène A est statistiquement différentiellement exprimé entre les conditions Y?
  • Faut-il utiliser t ou wilcox? unilatéral ou non? pairé ou non? corrigé ou non?

Autres tests

  • Il existe bien d’autres tests de comparaisons de moyennes.
  • Et d’autres tests pour d’autres quantités (que des moyennes):
    • comparaison de variances
    • comparaison de corrélation
    • comparaison des rangs
  • Disponible dans R (base ou packages) mais on sort du cadre de ce cours d’introduction…