Traitement et Analyse Informatiques de Données Biologiques (STAT0077)


TP 4: Rappel de Probabilités

Prof. Patrick E. Meyer

Version 2.0

Data.frame

A l'aide des fonctions data(), read.table(), NROW(), order(),
write.table(), rm(), ls(), data.frame(), colnames()
  1. Dans une variable data1, créez un data.frame composé
    1. du dataset integré CO2, mais sans les colonnes $Type et $Treatment.
    2. d'une colonne additionnelle id de l'expérience, qui est un nombre allant de 1 au nombre de lignes du dataset.
    3. avec les lignes réordonnées par ordre croissant de la variables uptake.
  2. Dans une variable data2, créez un data.frame composé
    1. du dataset CO2, mais sans les colonnes $conc et $uptake.
    2. d'une colonne additionnelle id, comme pour data1.
    3. avec les noms de colonnes changés: $id devient $numero, $Type devient $origine et $Treatment devient $refroidissement.
  3. Écrivez data1 dans un fichier texte data1.txt dont les valeurs sont séparées par une virgule et data2 dans data2.txt avec des valeurs séparées par un espace.
  4. Ouvrez les fichiers obtenus avec un éditeur de texte et remplacez au moins une valeur de la variable Plant par les lettres NA dans chaque fichier.
  5. Retournez à R et effacez tout les objets de l'environnement, vérifiez que votre environnement est bien vierge.
  6. Chargez le dataset data1.txt et le dataset data2.txt.
  7. Réassemblez data1 et data2 à l'aide de la fonction merge (spécifiez attentivement le contenu des paramètres by.x et by.y).

table

  1. Que s'affiche-t-il à la fin des lignes suivantes:
      > cancer<-c("oui","oui","non","oui","non","non","oui","non")
      > fumeur<-c("oui","non","non","oui","oui","non","oui","non")
      > z <- data.frame(cancer,fumeur)
      > table(z)
    
  2. Quelle est la probabilité empirique que l'on soit fumeur et sain? (et quelle commande R donne ce résultat?)
  3. Quelle est la probabilité empirique que l'on ait un cancer étant donné qu'on soit fumeur? (et quelle commande R donne ce résultat?)
  4. Quelle est la probabilité empirique que l'on soit fumeur? (et quelle commande R donne ce résultat?)

sample

  1. Créer un jeu de données de 200 échantillons avec trois variables aléatoires indépendantes "lumiere","temp","pression" qui peuvent prendre chacune les valeurs: bas, moyen et haut (avec une probabilité de 1/3).
  2. Utiliser la fonction table() pour identifier le nombre d'échantillons avec les trois variables à "haut".
  3. Recommencer la génération du jeu de données en ajoutant set.seed(100).

Bayes

  1. Soit un test génétique fiable à 99%, pour vérifier qu'une mutation génétique, qui touche 1% de la population, est bien présente chez un individu,
    à l'aide du théorème de Bayes, vérifier la probabilité d'avoir cette mutation quand le test est bien positif.


<--- BACK