Analyse de données avec R


TP 3: Probabilité et quantiles (2h)

Prof. Patrick E. Meyer

Version 3.0

Probabilités empiriques (ex 20 min + sol: 5 min)

  1. Que s'affiche-t-il à la fin des lignes suivantes:
      > cancer<-c("oui","oui","non","oui","non","non","oui","non")
      > fumeur<-c("oui","non","non","oui","oui","non","oui","non")
      > z <- data.frame(cancer,fumeur)
      > table(z)
    
  2. Quelle est la probabilité empirique que l'on soit fumeur et sain? (et quelle commande R donne ce résultat?)
  3. Quelle est la probabilité empirique que l'on ait un cancer étant donné qu'on soit fumeur? (et quelle commande R donne ce résultat?)
  4. Quelle est la probabilité empirique que l'on soit fumeur? (et quelle commande R donne ce résultat?)

Distribution normales (ex: 20 min + sol: 10 min)

  1. Créer un jeu de données de 200 échantillons avec deux variables aléatoires normales $N(\mu = 10, \sigma = 10)$ et $N(\mu = 1, \sigma = 5)$.
  2. En utilisant la fonction quantile, identifier les échantillons qui sont dans le quartile supérieur de la première variable et dans le tercile inférieur de la seconde variable.
  3. Refaites l'exercice précédent avec la fonction norm adéquate. Quelle est la différence entre cette stratégie-ci (norm) et la précédente (quantile)?

Distributions binomiales (ex: 20 min + sol: 5 min)

  1. Créer un jeu de données de 20 échantillons avec deux variables aléatoires binomiales indépendantes qui peuvent prendre deux valeurs, de manière équilibrée.
  2. Recommencer cette opération avec 5000 échantillons (sauver ces données dans une variable différente de la précédente).
  3. Comparer ces deux jeux de données avec la fonction table().
  4. Quel jeux de données est empiriquement plus proche du résultat théorique attendu?

Données d'expression (ex: 30 min + sol: 10 min)

Soit le jeu de données d'expressions génétiques d'E.coli stocké dans le fichier testset4.Rdata situé dans le répertoire /public/STAT0077-OCEA0224-INFO0956/tests/ sur le serveur Rstudio (et aussi disponible en téléchargement ici).
Dans cette analyse, on considère un gène comme actif lorsque son niveau d'expression se situe au-delà (strictement) de la valeur donnée par le tercile empirique supérieur. De manière similaire, un gène est considéré comme inactif lorsque son niveau d'expression se trouve en-deçà (strictement) de la valeur donnée par le tercile empirique inférieur.
(Consigne lorsqu'il y a un texte à complèter électroniquement:) on transforme les probabilités en un entier entre 0 et 100, SANS arrondir, et sans AUCUN espace avant ou après la réponse, par exemple les probabilités de 0.3389 ou 0.06 sont encodées respectivement comme 33 et 6.
  1. Déterminer (entre 0 et 100, le pourcentage reflétant) la probabilité empirique que le gène GEc165 soit ni actif ni inactif.
  2. Déterminer (entre 0 et 100, le pourcentage reflétant) la probabilité empirique conjointe que le gène GEc165 soit inactif et que le gène GEc767 soit actif.
  3. Déterminer (entre 0 et 100, le pourcentage reflétant) la probabilité empirique que le gène GEc165 soit inactif étant donné que le gène GEc767 est inactif.

<--- BACK