Analyse de données biologiques

III - Notions de probabilité (version 3.0)

Prof. Patrick E. Meyer

Exemple

Voiture cambriolée lors d’une nuit d’hiver.
Deux suspects sont arretés: un homme et une femme.
Les statistiques montrent que 15% des vols de voiture sont commis par des femmes.
Pourtant, un temoin jure avoir vu une femme.
On teste le témoin dans des conditions similaires.
Le témoin identifie correctement le voleur dans 80% des cas, indépendemment du sexe.

Vous êtes aux USA, choisi comme membre du jury populaire contre madame X, et votre avis:

Prenons des chiffres:

sur 100 voleurs: 85 hommes, 15 femmes
sur 85 hommes, 17 sont identifés à tort comme femme (20% erreur)
sur 15 femmes, 12 sont identifiées correctement comme femme (80% correcte)
\(\rightarrow\) Quand le témoin identifie une femme, elle se trompe plus souvent qu’elle ne se trompe pas (\(17>12\))
\(\rightarrow\) Madame X est probablement non-coupable!

Théorème de Bayes

\(p(a,b)=p(a|b)p(b)=p(b|a)p(a)\)
\(p(a|b)=\frac{p(b|a)p(a)}{p(b)}\)
\(p(femme|temoin_f)=\frac{\overbrace{p(temoin_f|femme)}^{80}\overbrace{p(femme)}^{15}}{\underbrace{p(temoin_f)}_{(80.15)+(20.85)}}\)
\(=120/(120+170)= 0.41\)

Soit un test génétique fiable à 99%, pour vérifier qu’une mutation génétique, qui touche 1% de la population, est bien présente chez un individu,
à l’aide du théorème de Bayes, vérifier la probabilité d’avoir la mutation quand le test est bel et bien positif

\(p(mut | testpos)= \frac{p(testpos | mut)p(mut)}{ p(testpos)}\)
\(p(testpos)= p(testpos \& mut) + p(testpos \& !mut)\)
\(={\overbrace{p(testpos|mut)}^{0.99}\overbrace{p(mut)}^{0.01}}+{\overbrace{p(testpos|!mut)}^{0.01}\overbrace{p(!mut)}^{0.99}}\)
\(\rightarrow p(mut | testpos)= \frac{\overbrace{p(testpos | mut)}^{0.99}\overbrace{p(mut)}^{0.01}}{ p(testpos)}\)
\(= 0.5\)
Que peux-t-on faire pour améliorer cette situation?

v<-c(1,2,2,0,1,1,0,1,2)
table(v)
v
0 1 2 
2 4 3

classification d’un email avec le vocabulaire utilisé