Analyse de données avec R
TP 6: P-valeurs (2h)
Prof. Patrick E. Meyer
Version 3.0
Pour chaque exercice générant des valeurs aléatoires, "synchroniser votre code" avec la commande set.seed(100).
Données simulées (ex:30 min + sol:15 min)
- Avec la fonction
t.test() comparer les moyennes entre trois échantillonages de 50 mesures. Le premier doit provenir d'une distribution gaussienne centrée en 0, le second d'une centrée en 0.1 et le troisième d'une centrée en 1. L'écrat-type de ces trois distributions normales est identique:
.
- Par essais et erreur, donner combien d'échantillons vous faut-il, à peu près, pour rejeter l'hypothèse nulle une fois sur deux, lorsque vous comparez une distribution gaussienne centrée en 0 et une centrée en 1.
- A l'aide de la fonction
power.t.test() identifier combien d'échantillons sont nécessaires théoriquement pour atteindre cette puissance de 50% pour ces mêmes valeurs.
Données réelles (ex:20 min + sol:20 min)
- Charger le dataset
PlantGrowth et comparer adéquatement les moyennes des biomasses dans chacun des groupes.
- Charger le dataset
CO2 et comparer adéquatement les moyennes des absorptions en CO2 entre les plantes ayant reçu un traitement refroidissant la veille, et les autres.
Données d'expression (ex:20 min + sol:5 min)
- Soit le jeu de données d'expressions génétiques d'E.coli stocké dans le fichier testset1.Rdata situé dans le répertoire /public/STAT0077-OCEA0224-INFO0956/tests/ sur le serveur Rstudio (et par ailleurs téléchargeable ici).
Dans cette analyse, vous devez considérer que l'activité des gènes suit une distribution normale.
On vous demande de déterminer si l'activité du gène Gn0545 est statistiquement significativement différente (seuil des 5%) sur les expériences/stress qui vont de 1 à 25 que sur les expériences/stress qui vont de 50 à 75
(Consigne lorsqu'il y a un texte à complèter électroniquement:) répondez par T ou F (T pour vrai et F pour faux) aux 5 questions suivantes ainsi que par un chiffre à la question 6. N'encodez aucun espace avant et après l'unique symbole demandé en réponse:
Q1 (T ou F): en théorie, il est mieux d'utiliser ici un t-test?
Q2 (T ou F): en théorie, il est mieux d'utiliser ici un test unilatéral?
Q3 (T ou F): en théorie, il est mieux d'utiliser ici un test pairé?
Q4 (T ou F): en théorie, il faut appliquer ici une correction?
Q5 (T ou F): la p-valeur résultante atteint le seuil de significativité (la meilleure des p-valeurs si plusieurs)?
Q6 (entier entre 0 et 9): Quel est le premier chiffre différent de 0 dans la p-valeur obtenue (la meilleure des p-valeurs si plusieurs)?
Par exemple, avec une p-valeur de 0.009087 ou encore de 9.35e-10 il faut encoder ici 9 (il faut encoder 0 dans l'unique cas ou la p-valeur est nulle).
<--- BACK