Transcription du cours magistral (assistée par plaud.ai, modèle “Séminaire” de M.K.Gasser).
Ce cours se focalise sur l’analyse et l’inférence de réseaux de gènes. L’exposé commence par les propriétés structurelles fondamentales communes à de nombreux réseaux, naturels comme artificiels, avant de se pencher sur les méthodes permettant d’identifier les nœuds critiques au sein de ces structures. Ensuite, le cours plonge dans une étude de cas concrète : la construction et la validation d’un réseau de régulation génique complexe pour la drosophile. Ce projet illustre comment l’intégration de multiples sources de données hétérogènes (génomiques, transcriptomiques, littérature scientifique) permet de construire des “méta-réseaux” plus fiables et biologiquement pertinents. Enfin, la session se conclut sur les applications pratiques et les stratégies de validation.
Cette partie aborde les propriétés structurelles des réseaux, qu’ils soient naturels ou artificiels. Elle explique qu’au-delà de leurs différences apparentes, de nombreux réseaux partagent une topologie commune. L’exposé explore la nature de cette topologie, son origine et les conséquences importantes qui en découlent, notamment en termes de vulnérabilité.
Il est utile de se demander si un réseau donné possède des propriétés particulières et attendues. Les exemples présentés ici démontrent que c’est souvent le cas. Quatre exemples de réseaux sont présentés : 1. Le réseau routier de la ville de Rome. 2. Le réseau des trajectoires d’avions entre les aéroports. 3. Le métabolome. 4. Le réseau internet. Bien que ces quatre réseaux semblent complètement différents, ils partagent un point commun. Contrairement à l’image que l’on pourrait se faire d’un réseau, comme un réseau électrique où tous les nœuds seraient connectés à un nombre similaire de voisins, ces réseaux-ci présentent une topologie particulière. On observe que certains nœuds, comme des grands aéroports ou des capitales, possèdent un nombre très élevé de connexions, tandis qu’une multitude d’autres villes ou petits aéroports n’en ont que très peu. Ce phénomène est également visible dans les réseaux sociaux, où quelques amis sont “hyper connectés” à tout le monde, alors que la majorité des gens le sont beaucoup moins.
Il s’avère que ces réseaux suivent une topologie très particulière, qui est aujourd’hui scientifiquement décrite par le terme “power-law tail”.
Cette loi signifie que la distribution des connexions n’est pas uniforme. On observe : * Quelques individus ou nœuds très connectés (les “hubs”). * Beaucoup d’individus ou nœuds très peu connectés.
Lorsque l’on représente cette distribution dans un espace logarithmique, on obtient une tendance linéaire. * L’axe des abscisses représente les degrés (le nombre de connexions). * L’axe des ordonnées représente la fréquence (le nombre de liens ayant ce degré). Le graphique montre qu’il y a très peu de liens qui sont extrêmement connectés (dans l’exemple donné, jusqu’à des milliers de connexions), et à l’inverse, beaucoup de liens qui ont très peu de connexions. Cette tendance linéaire dans l’espace logarithmique correspond à une distribution exponentielle en pratique.
Cette propriété est très utile. Lorsqu’on infère un réseau, on peut vérifier s’il suit cette loi de puissance. * Si le réseau suit cette propriété, on peut être plus confiant dans sa validité topologique. * Même sans savoir si le réseau est biologiquement ou fonctionnellement correct, le fait qu’il suive une distribution observée dans la nature lui confère un certain mérite.
Une question intéressante est de savoir pourquoi tant de réseaux suivent cette distribution. L’explication réside dans le principe de l’attachement préférentiel. Les nouveaux nœuds ont tendance à se connecter en priorité aux nœuds qui sont déjà populaires. * Réseaux aéroportuaires : Un nouvel aéroport cherchera en premier lieu à établir une connexion avec la capitale ou les villes les plus importantes économiquement pour prendre de la valeur. * Internet : Lorsqu’on crée une nouvelle page web, la première préoccupation est d’être référencé par Google (un “hub”), bien avant de se soucier d’être référencé par un ami. * Réseaux biologiques : Ce même phénomène est observé au niveau biologique. Les gènes semblent également vouloir se connecter aux gènes importants. Cette tendance à l’attachement préférentiel est observée dans les réseaux génétiques, ce qui n’était pas forcément une attente initiale.
Des chercheurs ont souligné l’étrangeté et la potentielle faiblesse de cette structure. Elle implique qu’il suffirait d’attaquer les hubs pour détruire l’ensemble du réseau. * La fragilité face aux attaques ciblées : Si un pirate informatique cible un hub central comme Google, il peut quasiment déconnecter Internet, car plus personne ne saurait comment naviguer dans cet espace. Autrement dit, il suffit d’attaquer quelques hubs centraux pour paralyser tout le système. * Quantification de la vulnérabilité : Il a été démontré qu’il suffit d’attaquer 1 % des nœuds d’un organisme, d’un réseau ferroviaire ou d’Internet pour mettre le réseau “KO”. Cette sensibilité est jugée très inquiétante.
Cette section se concentre sur la robustesse des réseaux et les méthodes pour identifier les nœuds les plus importants au sein de ces structures. L’exposé explique comment la vulnérabilité apparente de certains réseaux peut être un avantage stratégique et présente plusieurs mesures de centralité.
En pratique, le désavantage d’un réseau (sa vulnérabilité au niveau de certains nœuds) peut aussi être un avantage. Il suffit de “vacciner” les nœuds importants, c’est-à-dire de leur conférer une sécurité très forte, pour que l’ensemble du réseau devienne robuste. * Exemple des aéroports : Si les aéroports centraux (les hubs) ont une sécurité renforcée, ils sont plus difficiles à “abattre”, et le réseau de transport aérien devient globalement très robuste. * Analogie biologique : Un organisme biologique doit posséder de nombreuses redondances et sécurités autour de ses gènes les plus utilisés. Des stratégies de secours doivent exister si l’un de ces gènes est affaibli. Ainsi, la fragilité d’un réseau n’est pas nécessairement une mauvaise chose, car elle permet de concentrer les efforts de protection sur un nombre limité de nœuds critiques.
Cela soulève une question fondamentale : comment caractériser ce qu’est un nœud important dans un réseau ? Se baser uniquement sur le nombre de connexions (le degré) est une approche trop simpliste. * Exemple d’un réseau génétique : * Imaginons un gène G1 et un gène G3 très connectés. Ce sont deux nœuds importants selon le critère du degré. * Imaginons maintenant un gène G2 qui n’a que deux connexions : une vers G1 et une vers G3, et qui est le seul lien entre les groupes de gènes connectés à G1 et G3. * Si l’on cible le gène G2, l’organisme se portera mal. G2 a un rôle central non pas par son nombre de connexions, mais parce qu’il est un pont quasi unique entre deux grands groupes de nœuds. Il devient donc primordial de définir précisément ce qu’est un nœud important, notamment en génétique.
L’une des applications majeures de l’inférence de réseaux est de
déterminer la fonction d’un gène (“Guilt by Association”) ou son
importance. Plusieurs mesures de centralité existent pour cela. #####
2.2.1 Le Degré La plus simple mesure de l’importance d’un nœud est son
degré, c’est-à-dire son nombre de connexions. Dans le
package R iGraph, la fonction degree(G)
renvoie le vecteur des degrés de chaque nœud. ##### 2.2.2 La Closeness
(Proximité) La closeness mesure la distance moyenne
entre un nœud donné et tous les autres nœuds du graphe. L’idée est que
si un nœud est “loin” de tout le monde, il est moins central. Dans
l’exemple G1-G2-G3, le nœud G2 aura une closeness élevée car il atteint
très rapidement G1, G3, et tous les nœuds qui leur sont connectés. #####
2.2.3 La Betweenness (Intermédiarité) La betweenness
mesure le nombre de plus courts chemins entre des paires de nœuds qui
passent par le nœud en question. Elle identifie les “ponts” ou les
“autoroutes” du réseau. Dans l’exemple G1-G2-G3, G2 aura une betweenness
beaucoup plus élevée que d’autres nœuds car tous les plus courts chemins
reliant les groupes de G1 et G3 doivent passer par lui. ##### 2.2.4 Le
Coefficient de Clustering Le coefficient de clustering
est une mesure locale qui examine l’environnement immédiat d’un nœud en
regardant le nombre de “triangles” formés par ce nœud et ses voisins. *
Un triangle ouvert : Un nœud est le seul lien entre
deux de ses voisins. * Un triangle fermé : Les voisins
d’un nœud sont aussi connectés entre eux. Une transitivité élevée
(nombre de triangles fermés) autour d’un nœud peut signifier que ce nœud
est localement moins important.
Cette mesure, plus complexe (EVCENT dans
iGraph), est basée sur les vecteurs propres de la matrice
d’adjacence. C’est l’algorithme qui a rendu Google célèbre. *
Principe : L’importance d’un nœud dépend de
l’importance de ses voisins. Être connecté à des nœuds importants vous
rend important. * Exemple : Il vaut mieux avoir deux
liens entrants provenant de sites d’universités prestigieuses que 150
liens provenant de sites pirates. * Dans l’exemple G1-G2-G3, G2 est jugé
important parce qu’il est connecté à G1 et G3, qui sont eux-mêmes
importants.
Une fois ces mesures calculées (ex: Closeness = 3.11), comment juger
si un nœud est important ? La valeur absolue est difficile à
interpréter. La stratégie consiste à comparer la valeur d’un nœud à la
distribution de cette valeur sur l’ensemble du réseau en utilisant le
Z-score. * Définition du Z-score : Il
mesure à combien d’écarts-types (sigma) une valeur se
trouve de la moyenne (mu). *
Z-score = (valeur - moyenne) / écart-type *
Interprétation : Un Z-score supérieur à 2 indique
qu’une valeur est exceptionnelle (dans les 5% extrêmes d’une
distribution normale). Le Z-score est une mesure universelle pour juger
de l’exceptionnalité d’un nœud. #### 2.4 Application Pratique en
Génétique En pratique, on combine les différentes mesures de centralité.
* Règle pratique : Si pour l’une de ces quatre mesures
(closeness, betweenness, transitivité, eigenvector centrality), un gène
a un Z-score qui dépasse 2, il est considéré comme potentiellement
important et il vaut mieux éviter de le modifier. * Stratégie de
ciblage : Si le gène d’intérêt est un nœud important, il est
risqué de le modifier. La stratégie est de chercher des cibles
alternatives en aval de ce gène. Le réseau permet
d’identifier les voisins en aval et de choisir de cibler celui qui est
le moins important pour le reste du réseau.
Ce chapitre présente un projet concret de construction d’un réseau de régulation transcriptionnelle pour la drosophile, illustrant l’intégration de multiples sources de données hétérogènes.
L’orateur présente un projet visant à construire un réseau de régulation pour la drosophile. L’organisme modèle est bien connu, il possède plus de 700 facteurs de transcription (TFs) et 14 000 gènes. 12 génomes de drosophile avaient déjà été séquencés, 139 sites d’accrochage de TF étaient connus, une multitude de gènes possèdaient des fonctionalités identifiées et recensées dans la base de données Gene Ontology (GO) et de plusieurs grands datasets de données d’expression sont publics. Enfin, on dispose de la base de données RedFly constituée de 200 interactions vérifiées expérimentalement. * Nouvelles données générées : Deux jeux de données RNA-Seq, des données sur les modifications d’histones, et des expériences ChIP-Seq pour 76 TFs ont aussi été générées par le consortium. La question posée était : “Est-ce que vous savez me faire un réseau là-dessus ?”
Plusieurs types de réseaux ont été construits, chacun basé sur une source de données différente.
Basés sur la corrélation (de Spearman au carré) de l’expression des gènes à partir de données microarray et RNA-Seq.
1 : Accrochage observé dans la fenêtre
de ±500 pb.0 : Expérience réalisée mais aucun
accrochage détecté.0.1 : Cas “je ne sais pas” (aucune
expérience réalisée).Basé sur des expériences comme le “Yeast two-hybrid” qui identifient des liens physiques entre protéines.
La solution pour utiliser cette multitude de réseaux est de les combiner pour créer des méta-réseaux.
Une distinction clé est faite : 1. Réseaux physiques (chip, motif) : Décrivent un contact physique direct. Leur faiblesse est la difficulté à distinguer les interactions fonctionnelles. 2. Réseaux fonctionnels (co-expression, GO) : Traduisent une relation fonctionnelle. Leur faiblesse est la détection de liens indirects. La combinaison est bénéfique : les réseaux physiques éliminent les liens indirects des réseaux fonctionnels, et les réseaux fonctionnels filtrent les accrochages non fonctionnels des réseaux physiques.
Ce chapitre détaille comment la fiabilité du réseau de la drosophile a été évaluée.
Un aspect crucial est de ne jamais utiliser les mêmes données pour construire et pour valider le modèle. * Gold Standard : La base de données RedFly, avec ses 200 interactions connues, a été utilisée comme référence pour évaluer la performance de chaque méthode. Pour chaque réseau inféré, on vérifiait combien de ces 200 interactions étaient correctement prédites. * Stratégie adoptée : * Données pour la construction : Réseaux “motif”, “chip”, trois réseaux de co-expression, deux réseaux de chromatine. * Données pour la validation : Toutes les autres sources de données (RedFly, PPI, GO, le quatrième jeu de données RNA-seq).
Pour une publication de ce calibre, des validations supplémentaires étaient nécessaires.
L’équipe a vérifié si des patrons biologiques connus étaient surreprésentés dans le réseau inféré par rapport à un réseau de contrôle aléatoire robuste (même topologie, mais labels des nœuds mélangés). * Résultats : Le réseau combiné était nettement supérieur aux contrôles sur tous les fronts (Interactions Protéine-Protéine, termes GO, co-expression sur un jeu de données RNA-seq indépendant). Le score pour le RNA-seq était exceptionnellement élevé, probablement en raison d’un biais (données de validation trop similaires aux données d’entraînement), mais les excellents scores sur les PPI et GO confirmaient la qualité du réseau.
Le réseau a ensuite été utilisé avec succès pour : 1. Prédire des fonctions (termes GO) pour des gènes non caractérisés (“guilt by association”). 2. Prédire des niveaux d’expression dans de nouvelles expériences.
Pour maîtriser le sujet, il est essentiel de savoir répondre à trois questions clés :
Comment fabriquer un réseau ? (La construction)
Comment le valider ? (Prouver qu’il est bon)
Que peut-on en faire ? (Quelle exploitation)
Ces trois questions clés s’appliquent aussi bien aux méta-réseaux intégratifs qu’aux réseaux basés sur les co-expressions.