Transcription du cours magistral (assistée par plaud.ai, modèle “Séminaire” de M.K.Gasser).
Ce cours propose une immersion complète dans le domaine de la biologie des systèmes, en se concentrant sur la construction, l’interprétation et l’évaluation des réseaux de régulation génique. Partant des limites de la biologie traditionnelle, qui étudie les gènes de manière isolée, elle expose la nécessité d’une approche globale considérant la cellule comme un circuit complexe et interconnecté. La présentation détaille les défis méthodologiques posés par les données génomiques à grande échelle, notamment le déséquilibre entre le nombre d’échantillons et le nombre de gènes. Elle explore ensuite en profondeur les approches statistiques et algorithmiques, de la simple corrélation à des méthodes plus sophistiquées comme ARACNE, MRnet et CLR, conçues pour distinguer les interactions directes des liens indirects. Une attention particulière est portée à l’évaluation rigoureuse de ces algorithmes, en soulignant l’importance des métriques adaptées comme les courbes de précision-rappel. Enfin, la conférence se termine par une introduction pratique à l’analyse de réseaux à l’aide de la théorie des graphes et du package R “iGraph”, montrant comment ces outils informatiques permettent de répondre à des questions biologiques concrètes et de dessiner les perspectives futures de la biologie, orientées vers la simulation numérique et l’ingénierie du vivant.
L’idée initiale, souvent simpliste, est qu’on pourrait créer un “super organisme” en mutant un seul gène. L’exemple donné est celui d’une micro-algue, Chlamydomonas, pour laquelle on chercherait à augmenter la production d’hydrogène afin de créer un carburant propre. L’espoir serait de trouver le gène responsable, de le muter, et d’obtenir une production massive d’hydrogène. Cependant, cette approche échoue très souvent. La plupart du temps, la mutation d’un seul gène entraîne la mort du mutant en quelques jours. La raison est que les gènes ont de multiples rôles (pléiotropie). En mutant un gène qui semble lié à la production d’hydrogène, on altère sans le savoir de nombreuses autres fonctions vitales, rendant le mutant non viable.
Pour surmonter ce problème, il est nécessaire de considérer la cellule comme un circuit biologique. Historiquement, une équipe de biologistes se concentrait sur un processus spécifique, comme la production d’hydrogène chez Chlamydomonas. Quelques spécialistes étudiaient toutes les interconnexions d’un gène d’intérêt au sein de ce “pathway” (voie métabolique ou de signalisation). Cette approche est limitée car les gènes sont interconnectés avec de nombreux autres pathways. On ne peut pas se focaliser sur une seule voie pour comprendre le fonctionnement global. Il faut donc élargir la vision et voir la cellule comme un grand circuit où chaque gène agit comme un interrupteur. Un exemple simple de circuit électrique est présenté : * Il y a trois interrupteurs (switchs) : A, B et C. * A et B sont connectés à des lampes. * Si on allume le switch C seul, rien ne se passe car le switch A est ouvert. * Pour allumer la lampe A, il faut fermer les switchs A et C. * Pour allumer la lampe B, il faut en plus fermer le switch B. * Si on ouvre le switch A, les deux lampes s’éteignent. Cet exemple illustre comment l’activation ou l’inhibition d’un gène (un “switch”) peut avoir des effets complexes et à distance sur d’autres parties du circuit. En multipliant cela par les milliers de gènes d’un organisme, on comprend la complexité de l’analyse au niveau global.
L’objectif n’est pas d’abandonner l’idée de produire de l’hydrogène, mais de développer des stratégies plus intelligentes. 1. Adapter l’environnement : Si la mutation d’un gène pour augmenter la production d’hydrogène affaiblit le système immunitaire du mutant, on peut le cultiver dans un environnement stérile (une cuve) pour le protéger des contaminations. S’il devient sensible aux variations de température, on peut le placer dans une cuve thermostatisée. En “chouchoutant” le mutant, on peut lui permettre de survivre malgré les fonctions altérées. 2. Compenser par d’autres mutations : Une autre possibilité est de trouver un second gène qui, une fois muté, compenserait la perte de fonction non désirée (par exemple, booster l’immunité affaiblie). Cela implique de muter non pas un, mais deux gènes ou plus. Cette approche est plus complexe car la mutation du second gène entraînera elle-même une cascade d’effets sur d’autres fonctions. Pour appliquer ces stratégies, il est indispensable de comprendre l’organisme au niveau global et non plus seulement voie par voie.
Le passage de la biologie traditionnelle à la biologie des systèmes est comparé à l’évolution de la cartographie. * Ancienne méthode : La carte d’Afrique de Mercator, la plus précise pendant plus d’un siècle, a nécessité le travail de deux vies. D’abord, l’explorateur Mercator a dessiné les côtes dans ses carnets de voyage. Ensuite, son petit-fils a rassemblé ces croquis pour créer une carte complète. * Nouvelle méthode : Aujourd’hui, un satellite peut cartographier l’Afrique en une seconde avec une précision bien supérieure, fournissant des informations supplémentaires (forêts, déserts, etc.). En deux siècles, le métier de cartographe explorateur est devenu obsolète. Une transition similaire est en cours en biologie. * Ancienne méthode : L’outil principal du biologiste était le microscope. Des équipes entières travaillaient à dessiner manuellement des réseaux d’interactions entre quelques protéines, obtenant des schémas précis avec des informations sur l’activation et l’inhibition. * Nouvelle méthode : L’outil est devenu le robot séquenceur. En mesurant l’expression de tous les gènes, on peut générer informatiquement des réseaux globaux. Ces réseaux apparaissent d’abord comme un “fouillis” ou une “boule” de connexions. Ils sont moins précis sur la nature de chaque interaction (par exemple, le graphe est souvent non dirigé au départ), mais ils offrent une vue d’ensemble massive et rapide. Même si la précision de ces réseaux informatiques n’égale pas encore celle d’une carte satellite, la transition est en marche. Dans les 30 prochaines années, il est probable que l’inférence de circuits biologiques par ordinateur deviendra la méthode standard.
Le modèle de base est que certains gènes codent pour des protéines appelées facteurs de transcription. Ces facteurs peuvent se lier à l’ADN et modifier l’expression d’autres gènes (les gènes cibles), soit en l’activant, soit en l’inhibant. Il existe des cascades où un facteur de transcription régule un autre facteur de transcription, qui en régule un autre, etc. L’objectif est de dessiner ce réseau de régulation : * Chaque nœud du graphe est un gène. * Une flèche (arc dirigé) est tracée d’un gène régulateur vers son gène cible. Un tel réseau permet de comprendre quels gènes sont co-régulés et de prédire les conséquences de la modification d’un facteur de transcription. La première stratégie pour construire ces réseaux est de mesurer l’expression des gènes. Différentes techniques existent (Micro-arrays, RNA-seq, Single-cell RNA-seq), qui sont expliquées dans d’autres cours. Le processus général consiste à extraire les ARN, les séquencer, aligner les lectures sur le génome et compter le nombre de lectures par gène.
Après traitement et normalisation, les données sont généralement présentées sous la forme d’une matrice : * Les colonnes représentent les gènes (gène 1, gène 2, …, gène N). * Les lignes représentent les conditions expérimentales (expérience 1, expérience 2, …, expérience M). * Chaque cellule de la matrice contient une valeur numérique représentant le niveau d’expression du gène dans cette condition. Par exemple, après normalisation entre 0 et 1, une valeur proche de 1 signifie que le gène est fortement activé, et une valeur proche de 0 signifie qu’il est fortement inhibé.
Le principal problème rencontré avec les jeux de données en génomique est le rapport entre le nombre d’expériences (échantillons, noté M) et le nombre de gènes (variables, noté N). * Dans les laboratoires : Les expériences sont souvent menées avec un très faible nombre d’échantillons. Par exemple, des triplicats pour deux conditions différentes (condition 1 et condition 2) ne fournissent que 6 lignes de données (M=6). Statistiquement, il est très difficile de tirer des conclusions robustes (sur des intéractions entre gènes) avec si peu de données. * Dans les études cliniques : Pour des études plus vastes, comme celles sur le cancer du sein, les chercheurs peuvent disposer d’une centaine d’échantillons de tumeurs de patients (M=100). Bien que cela soit mieux que M=6, cela reste faible par rapport au nombre de gènes dans le génome humain, qui est de l’ordre de 20 000 (N≈20 000). Ce déséquilibre, où M est beaucoup plus petit que N (M << N), contraste fortement avec les approches d’ingénierie traditionnelles. Pour résoudre un système d’équations, il faut idéalement autant d’équations (échantillons) que d’inconnues (gènes). En génomique, cette condition n’est presque jamais remplie, ce qui impose l’utilisation de stratégies statistiques simplifiées. Avec la démocratisation des technologies de séquençage et la baisse des coûts, les jeux de données avec un M plus grand deviennent plus courants, permettant des analyses de plus en plus précises.
Pour analyser ces données, la corrélation de Spearman est une mesure particulièrement utile. Contrairement à la corrélation de Pearson, qui mesure les relations linéaires, la corrélation de Spearman évalue les relations monotones (croissantes ou décroissantes). * Fonctionnement : Elle convertit d’abord les valeurs de chaque variable en rangs (le plus élevé, le deuxième plus élevé, etc.). Par exemple, si un point de données est le plus élevé pour la variable X et aussi le plus élevé pour la variable Y, ils auront tous les deux le rang 1. * Avantages : 1. Détection de relations non linéaires : Une courbe parfaitement monotone, mais non linéaire, obtiendra une corrélation de Spearman de 1, alors que sa corrélation de Pearson pourrait être plus faible (par exemple, 0.88). 2. Robustesse à la normalisation : Elle est moins dépendante des méthodes de normalisation appliquées aux données. 3. Impact réduit des valeurs extrêmes (outliers) : Un point très éloigné sera simplement classé comme le “meilleur” ou le “pire” en termes de rang, sans que sa distance extrême ne fausse massivement le calcul, contrairement à la corrélation de Pearson. En pratique, la corrélation de Spearman donne souvent des résultats très intéressants et est l’une des mesures les plus utilisées pour construire des réseaux de co-expression.
Le processus pour construire un réseau commence par le calcul des corrélations entre chaque paire de gènes. 1. Calcul de la corrélation : Pour chaque paire de gènes (par exemple, gène 1 et gène 2), on calcule la corrélation de Spearman. Les valeurs obtenues sont comprises entre -1 et 1. 2. Mise au carré de la corrélation : On élève ensuite cette corrélation au carré. Cette étape présente deux intérêts majeurs : * Les valeurs sont désormais comprises entre 0 et 1. * Elle permet de traiter de la même manière les relations d’activation (corrélation positive) et d’inhibition (corrélation négative). Une forte corrélation négative (proche de -1) devient une forte valeur proche de 1 après la mise au carré. L’information perdue est le sens de la relation (activation vs. inhibition), mais l’objectif est de détecter l’existence d’une dépendance forte, quelle que soit sa nature. Les deux cas (activation et inhibition) suggèrent qu’un facteur de transcription agit sur un gène cible. 3. Création de la matrice : Le résultat est une matrice carrée de taille N x N, où N est le nombre de gènes. * Cette matrice est symétrique : la corrélation du gène A avec le gène B est la même que celle de B avec A. * La diagonale contient uniquement des 1 (la corrélation d’un gène avec lui-même est parfaite). * Une valeur proche de 1 indique une forte co-évolution (soit une co-expression, soit une inhibition mutuelle), suggérant que les gènes sont impliqués dans les mêmes voies fonctionnelles. * Une valeur proche de 0 indique une indépendance entre les signaux des gènes.
Une forte corrélation entre deux gènes ne signifie pas nécessairement qu’il existe un lien de régulation direct entre eux. Le problème le plus courant est la présence d’une variable confondante. Si un gène K active à la fois un gène I et un gène J, les expressions de I et J seront fortement corrélées, car elles sont toutes deux pilotées par K. Cependant, il n’y a aucun lien direct entre I et J. Pour illustrer ce concept, le conférencier utilise une analogie : * Un incendie est la cause. * Plus l’incendie est grand, plus il y a de victimes. * Plus l’incendie est grand, plus le nombre de pompiers déployés est élevé. Si l’on analyse un jeu de données contenant uniquement le nombre de victimes et le nombre de pompiers, sans connaître l’intensité de l’incendie (la variable causale), on observera une forte corrélation positive entre le nombre de pompiers et le nombre de victimes. Une intelligence artificielle pourrait en déduire logiquement que “plus il y a de pompiers, plus il y a de victimes”, et conclure à tort que les pompiers sont des criminels. Cette analogie montre qu’il est crucial de distinguer les liens directs des liens indirects.
Une stratégie intuitive pour filtrer les liens serait d’appliquer un seuil sur la matrice de corrélation et de ne conserver que les liens dont la valeur est supérieure à ce seuil (par exemple, 0.7 ou 0.89). Cependant, cette approche est problématique : * Elle a tendance à conserver un trop grand nombre de triangles, incluant de nombreuses interactions indirectes qui ne sont que des artefacts de corrélation. * Les forces de corrélation varient à travers le réseau. Dans une autre partie du réseau, des interactions directes et biologiquement significatives pourraient avoir des corrélations plus faibles. Un seuil élevé et global éliminerait ces interactions valides, tandis qu’un seuil bas conserverait de nombreux liens indirects. * En résumé, le seuillage simple garde trop de triangles et génère des faux positifs.
Pour surmonter les limites du seuillage, des algorithmes plus sophistiqués ont été développés. L’un des plus simples et des plus influents est ARACNE (Algorithm for the Reconstruction of Accurate Cellular Networks). * Principe : ARACNE se base sur l’analyse des interactions triangulaires entre trois gènes (I, J, K). Il s’appuie sur un théorème mathématique (l’inégalité du traitement de l’information) qui stipule que dans un triplet, le lien indirect est toujours le plus faible des trois. La stratégie d’ARACNE est donc d’éliminer systématiquement le lien le plus faible de chaque triplet. Dans l’exemple de l’incendie, le lien (Pompiers, Victimes) serait éliminé car il est le plus faible du triplet. * Limites : 1. Boucles de rétroaction : En biologie, il est fréquent d’observer des boucles de régulation (feedback loops) où trois gènes interagissent réellement (1 -> 2 -> 3 -> 1). Dans ce cas, les trois liens sont biologiquement importants. ARACNE, en forçant la suppression d’un lien, devient trop éliminatoire et génère des faux négatifs (il élimine un lien qui aurait dû être conservé). 2. Limitation aux triplets : L’algorithme ne considère que les interactions trois par trois. Si une corrélation est due à une interaction plus complexe impliquant quatre, cinq gènes ou plus, ARACNE risque de faire des erreurs d’inférence.
Une autre méthode, proposée par le conférencier lui-même, est MRnet. Son principe est de sélectionner pour chaque gène un ensemble d’autres gènes qui sont à la fois très informatifs sur lui, mais peu informatifs entre eux. * Principe : L’objectif est de trouver un ensemble de gènes qui maximise l’information qu’ils ont en commun avec le gène cible, tout en minimisant l’information qu’ils ont entre eux (la redondance). On cherche donc l’ensemble de gènes le plus indépendant possible tout en étant collectivement informatif sur la cible. * Analogie : Prédire la durée d’un vol : Pour illustrer la redondance, on utilise l’exemple de la prédiction de la durée d’un vol. Les variables disponibles sont la distance, la vitesse en km/h et la vitesse en m/h. La vitesse en km/h et en m/h sont redondantes car elles contiennent la même information fondamentale. Une fois que l’on connaît la distance et l’une des deux vitesses, l’autre n’apporte aucune information supplémentaire. * Application : Dans une cascade (1 -> 2 -> 3), pour expliquer le gène 3, le gène 2 est le plus informatif. Le gène 1 est également informatif, mais son information est largement redondante avec celle du gène 2. MRnet préférera donc sélectionner le gène 2 (lien direct) et écarter le gène 1 (redondant).
Pour comparer ces algorithmes, on leur donne une tâche dont la solution est connue. On utilise un réseau de régulation biologique déjà validé expérimentalement (un “gold standard”). On compare ensuite les arêtes (liens) prédites par chaque algorithme avec les arêtes connues de ce réseau de référence.
La comparaison se fait à l’aide d’une matrice de confusion, qui classe chaque prédiction : * Vrai Positif (TP) : Arête prédite qui existe réellement. * Faux Positif (FP) : Arête prédite qui n’existe pas. * Vrai Négatif (TN) : Absence d’arête correctement prédite. * Faux Négatif (FN) : Arête existante mais non prédite. Les algorithmes produisent des scores pour chaque lien potentiel. Pour décider si un lien est prédit, il faut appliquer un seuil, ce qui crée un compromis inévitable : * Seuil élevé : Moins de prédictions, donc moins de FP, mais plus de FN. * Seuil bas : Plus de prédictions, donc moins de FN, mais plus de FP. Le conférencier illustre ce compromis avec l’analogie de la peine de mort : un seuil de preuve très élevé minimise le risque de condamner un innocent (FP) mais augmente le risque de laisser des coupables en liberté (FN).
Dans le contexte de la biologie, les faux positifs sont généralement considérés comme pires que les faux négatifs. La raison est économique : si un algorithme prédit un lien qui n’existe pas (FP), un biologiste pourrait passer des mois ou des années et dépenser des sommes considérables pour valider expérimentalement cette hypothèse, pour finalement découvrir que le lien n’existe pas. C’est une perte de temps et de ressources. Les biologistes préfèrent donc des prédictions très fiables, même si elles sont moins nombreuses.
TP / (TP + FP). C’est
la proportion de prédictions positives qui sont correctes.TP / (TP + FN).
C’est la proportion des arêtes réelles qui ont été identifiées
(identique au TPR). Le compromis est visible sur la courbe : une haute
précision s’accompagne généralement d’un faible rappel, et
vice-versa.Dans le cadre d’une thèse, un package R nommé “Minet” a été développé pour évaluer ces algorithmes. Un protocole expérimental a été mené : 1. Point de départ : Utilisation de réseaux connus d’organismes comme E. coli. 2. Génération de données : Des datasets d’expression artificiels ont été générés à partir de ces réseaux connus à l’aide de simulateurs. 3. Inférence et Évaluation : Les algorithmes (Arachne, CLR, MRNet) ont été appliqués sur ces données simulées, et les réseaux inférés ont été comparés aux réseaux originaux via des courbes de précision-rappel. Les expériences, menées en variant le nombre de gènes, d’échantillons et le niveau de bruit, ont montré que MRNet et CLR sont clairement les deux meilleures méthodes, surpassant Arachne et le seuillage simple.
iGraphUn graphe est un couple (V, E) où V est un
ensemble de sommets (vertices) et E un ensemble d’arêtes
(edges). Les algorithmes de la théorie des graphes sont universels et
permettent de répondre à des questions biologiques.
Il existe deux manières principales de représenter un graphe dans un
ordinateur : 1. La matrice d’adjacence : Une matrice
carrée où une valeur de 1 à la position (i, j) indique une
arête de i vers j. Elle est rapide pour
vérifier l’existence d’une arête mais consomme beaucoup de mémoire, car
elle contient principalement des zéros pour les réseaux peu denses. 2.
La liste d’adjacence : Pour chaque sommet, elle liste
les sommets auxquels il est connecté. Elle est beaucoup plus efficace en
mémoire pour les réseaux peu denses (typiques en biologie) mais plus
lente pour la recherche d’une arête spécifique. Le choix entre les deux
est un compromis entre l’utilisation de la mémoire et la vitesse
d’accès.
iGraph en RLe package iGraph est un outil puissant pour manipuler
et analyser des graphes en R. * Installation et chargement
: Il s’installe avec install.package("iGraph") et
se charge avec library(iGraph). Un avertissement est donné
de ne pas réinstaller le package sur les serveurs du cours où il est
déjà préinstallé. * Fonctions de base : Des fonctions
comme vertex(), edges() et plot()
permettent de lister les composants d’un graphe et de le dessiner. ####
5.4 Visualisation des graphes et l’importance du layout La manière dont
un graphe est dessiné (le layout) a un impact visuel
important. iGraph propose des dizaines de méthodes de mise
en page (layout_in_circle, layout_as_tree,
etc.) pour organiser les nœuds. Un beau graphe dans une publication est
souvent plus percutant et donne une impression de travail bien fait.
#### 5.5 Application à la biologie : Métriques et questions biologiques
La théorie des graphes permet de répondre à des questions biologiques
concrètes : * Importance d’un gène : Le degré
d’un sommet (nombre de connexions) est une mesure simple de
l’importance d’un gène. Un gène très connecté est probablement central.
Dans un graphe dirigé, on distingue le degré “in”
(nombre de régulateurs) et le degré “out” (nombre de
cibles). * Réseaux métaboliques : Le plus court
chemin entre deux molécules dans un graphe métabolique indique
le nombre d’étapes de conversion entre elles. * Complexes
protéiques : La recherche du plus grand ensemble de gènes qui
interagissent tous les uns avec les autres (“Maximally Connected
Subgraph”) est un problème connu pour être informatiquement insoluble en
un temps raisonnable. Savoir cela évite de perdre du temps sur ce type
de recherche. * Densité du graphe : Mesure le nombre
d’arêtes présentes par rapport au nombre total d’arêtes possibles.
La biologie des systèmes vise à intégrer différents types de données (réseaux de gènes, d’interactions de protéines, métaboliques, effets de l’environnement) pour construire des méta-réseaux, des modèles de plus en plus fiables et prédictifs. Cette approche est décrite comme une science qui utilise des ordinateurs pour faire du “reverse engineering” d’un ordinateur encore plus puissant : la cellule biologique.
Le génome est présenté comme une technologie de stockage d’information extraordinairement efficace. Le génome humain entier peut être stocké sur un CD-ROM, alors qu’un film de 3 heures nécessite beaucoup plus d’espace. Cette efficacité remet en question l’idée de “l’ADN poubelle” (junk DNA). Pour un informaticien, il est insensé de penser qu’un système de compression aussi performant contiendrait des zones inutiles. Il est plus probable que l’on découvrira l’utilité de chaque partie du génome, vu comme un code informatique quaternaire (A, T, C, G).
La projection sur les 30 prochaines années est que les simulations numériques deviendront de plus en plus fiables. On pourrait imaginer un futur où l’on fournirait à une IA (mentionnée comme “TTPT” pour ChatGPT) une séquence d’ADN, la composition du milieu de culture et les paramètres environnementaux (ex: Mars), et où l’IA pourrait simuler la croissance de l’organisme de manière entièrement numérique. Les expériences numériques deviendraient un précurseur systématique des expériences en laboratoire.
Les étudiants actuels, déjà immergés dans l’ère de l’IA, doivent impérativement maîtriser ces outils. La bio-informatique n’est plus une option mais une nécessité pour rester pertinent en tant que biologiste et pour évoluer dans le monde scientifique de demain.
En résumé, cette conférence a tracé un chemin allant des fondements
conceptuels de la biologie des systèmes à ses applications pratiques et
ses perspectives d’avenir. Elle a mis en évidence la transition cruciale
d’une vision gène par gène à une compréhension holistique de la cellule
comme un réseau complexe. Les défis majeurs de l’inférence de réseaux,
tels que le problème “M << N” et la distinction entre corrélation
et causalité, ont été abordés. Plusieurs algorithmes clés (ARACNE,
MRnet, CLR) ont été présentés, non seulement dans leur principe mais
aussi à travers une évaluation rigoureuse de leurs performances,
soulignant l’importance de métriques adaptées comme les courbes de
précision-rappel et la priorité donnée à la minimisation des faux
positifs en recherche biologique. Finalement, la conférence a démontré
comment la théorie des graphes, mise en œuvre via des outils comme
iGraph, transforme les données de réseau en connaissances
biologiques exploitables, ouvrant la voie à une ère où la simulation
numérique pourrait précéder et guider l’expérimentation, redéfinissant
ainsi le rôle et les compétences du biologiste de demain.