Analyse de données biologiques

III - Notions de probabilité (version 3.0)

Prof. Patrick E. Meyer

Exemple

  • Voiture cambriolée lors d’une nuit d’hiver.
  • Deux suspects sont arretés: un homme et une femme.
  • Les statistiques montrent que 15% des vols de voiture sont commis par des femmes.
  • Pourtant, un temoin jure avoir vu une femme.
  • On teste le témoin dans des conditions similaires.
  • Le témoin identifie correctement le voleur dans 80% des cas, indépendemment du sexe.

Décision

Vous êtes aux USA, choisi comme membre du jury populaire contre madame X, et votre avis:

  • Elle est problement coupable!
  • Elle est probablement non-coupable!

Pourquoi?

Prenons des chiffres:

  • sur 100 voleurs: 85 hommes, 15 femmes

  • sur 85 hommes, 17 sont identifés à tort comme femme (20% erreur)

  • sur 15 femmes, 12 sont identifiées correctement comme femme (80% correcte)

  • \(\rightarrow\) Quand le témoin identifie une femme, elle se trompe plus souvent qu’elle ne se trompe pas (\(17>12\))

  • \(\rightarrow\) Madame X est probablement non-coupable!

Théorie

Théorème de Bayes

  • \(p(a,b)=p(a|b)p(b)=p(b|a)p(a)\)

  • \(p(a|b)=\frac{p(b|a)p(a)}{p(b)}\)

  • \(p(femme|temoin_f)=\frac{\overbrace{p(temoin_f|femme)}^{80}\overbrace{p(femme)}^{15}}{\underbrace{p(temoin_f)}_{(80.15)+(20.85)}}\)

  • \(=120/(120+170)= 0.41\)

Exemple biomedical

  • Soit un test génétique fiable à 99%, pour vérifier qu’une mutation génétique, qui touche 1% de la population, est bien présente chez un individu,
  • à l’aide du théorème de Bayes, vérifier la probabilité d’avoir la mutation quand le test est bel et bien positif

Calcul

  • \(p(mut | testpos)= \frac{p(testpos | mut)p(mut)}{ p(testpos)}\)

  • \(p(testpos)= p(testpos \& mut) + p(testpos \& !mut)\)

  • \(={\overbrace{p(testpos|mut)}^{0.99}\overbrace{p(mut)}^{0.01}}+{\overbrace{p(testpos|!mut)}^{0.01}\overbrace{p(!mut)}^{0.99}}\)

  • \(\rightarrow p(mut | testpos)= \frac{\overbrace{p(testpos | mut)}^{0.99}\overbrace{p(mut)}^{0.01}}{ p(testpos)}\)

  • \(= 0.5\)

  • Que peux-t-on faire pour améliorer cette situation?

Probabilité empirique

Probabilité empirique

Probabilité empirique

Distribution empirique et fonction table()

v<-c(1,2,2,0,1,1,0,1,2)
table(v)
v
0 1 2 
2 4 3 

Probabilités empiriques bivariées

Probabilités empiriques bivariées

Distribution bivariée

Probabilité conditionelle empirique

Probabilité conditionelle empirique 1

Probabilité conditionelle empirique 2

Exemple: filtre anti-spam

classification d’un email avec le vocabulaire utilisé

  • \(p(spam|viagra)?\)

  • \(p(spam|viagra,erection)?\)

  • \(p(spam|viagra,erection,euros)?\)

Malédiction de la dimensionalité