Réseaux de gènes (Partie II)

Transcription du cours magistral (assistée par plaud.ai, modèle “Séminaire” de M.K.Gasser).

Introduction

Ce cours se focalise sur l’analyse et l’inférence de réseaux de gènes. L’exposé commence par les propriétés structurelles fondamentales communes à de nombreux réseaux, naturels comme artificiels, avant de se pencher sur les méthodes permettant d’identifier les nœuds critiques au sein de ces structures. Ensuite, le cours plonge dans une étude de cas concrète : la construction et la validation d’un réseau de régulation génique complexe pour la drosophile. Ce projet illustre comment l’intégration de multiples sources de données hétérogènes (génomiques, transcriptomiques, littérature scientifique) permet de construire des “méta-réseaux” plus fiables et biologiquement pertinents. Enfin, la session se conclut sur les applications pratiques et les stratégies de validation.

Chapitre 1 : Propriétés Structurelles des Réseaux

Cette partie aborde les propriétés structurelles des réseaux, qu’ils soient naturels ou artificiels. Elle explique qu’au-delà de leurs différences apparentes, de nombreux réseaux partagent une topologie commune. L’exposé explore la nature de cette topologie, son origine et les conséquences importantes qui en découlent, notamment en termes de vulnérabilité.

1.1 Exemples de réseaux et leur point commun

Il est utile de se demander si un réseau donné possède des propriétés particulières et attendues. Les exemples présentés ici démontrent que c’est souvent le cas. Quatre exemples de réseaux sont présentés : 1. Le réseau routier de la ville de Rome. 2. Le réseau des trajectoires d’avions entre les aéroports. 3. Le métabolome. 4. Le réseau internet. Bien que ces quatre réseaux semblent complètement différents, ils partagent un point commun. Contrairement à l’image que l’on pourrait se faire d’un réseau, comme un réseau électrique où tous les nœuds seraient connectés à un nombre similaire de voisins, ces réseaux-ci présentent une topologie particulière. On observe que certains nœuds, comme des grands aéroports ou des capitales, possèdent un nombre très élevé de connexions, tandis qu’une multitude d’autres villes ou petits aéroports n’en ont que très peu. Ce phénomène est également visible dans les réseaux sociaux, où quelques amis sont “hyper connectés” à tout le monde, alors que la majorité des gens le sont beaucoup moins.

1.2 La topologie en loi de puissance (“Power Law”)

Il s’avère que ces réseaux suivent une topologie très particulière, qui est aujourd’hui scientifiquement décrite par le terme “power-law tail”.

1.2.1 Description de la distribution

Cette loi signifie que la distribution des connexions n’est pas uniforme. On observe : * Quelques individus ou nœuds très connectés (les “hubs”). * Beaucoup d’individus ou nœuds très peu connectés.

1.2.2 Représentation graphique et définition

Lorsque l’on représente cette distribution dans un espace logarithmique, on obtient une tendance linéaire. * L’axe des abscisses représente les degrés (le nombre de connexions). * L’axe des ordonnées représente la fréquence (le nombre de liens ayant ce degré). Le graphique montre qu’il y a très peu de liens qui sont extrêmement connectés (dans l’exemple donné, jusqu’à des milliers de connexions), et à l’inverse, beaucoup de liens qui ont très peu de connexions. Cette tendance linéaire dans l’espace logarithmique correspond à une distribution exponentielle en pratique.

1.2.3 Utilité pour l’inférence de réseaux

Cette propriété est très utile. Lorsqu’on infère un réseau, on peut vérifier s’il suit cette loi de puissance. * Si le réseau suit cette propriété, on peut être plus confiant dans sa validité topologique. * Même sans savoir si le réseau est biologiquement ou fonctionnellement correct, le fait qu’il suive une distribution observée dans la nature lui confère un certain mérite.

1.3 L’origine de la topologie : l’attachement préférentiel

Une question intéressante est de savoir pourquoi tant de réseaux suivent cette distribution. L’explication réside dans le principe de l’attachement préférentiel. Les nouveaux nœuds ont tendance à se connecter en priorité aux nœuds qui sont déjà populaires. * Réseaux aéroportuaires : Un nouvel aéroport cherchera en premier lieu à établir une connexion avec la capitale ou les villes les plus importantes économiquement pour prendre de la valeur. * Internet : Lorsqu’on crée une nouvelle page web, la première préoccupation est d’être référencé par Google (un “hub”), bien avant de se soucier d’être référencé par un ami. * Réseaux biologiques : Ce même phénomène est observé au niveau biologique. Les gènes semblent également vouloir se connecter aux gènes importants. Cette tendance à l’attachement préférentiel est observée dans les réseaux génétiques, ce qui n’était pas forcément une attente initiale.

1.4 Conséquences et vulnérabilités de cette structure

Des chercheurs ont souligné l’étrangeté et la potentielle faiblesse de cette structure. Elle implique qu’il suffirait d’attaquer les hubs pour détruire l’ensemble du réseau. * La fragilité face aux attaques ciblées : Si un pirate informatique cible un hub central comme Google, il peut quasiment déconnecter Internet, car plus personne ne saurait comment naviguer dans cet espace. Autrement dit, il suffit d’attaquer quelques hubs centraux pour paralyser tout le système. * Quantification de la vulnérabilité : Il a été démontré qu’il suffit d’attaquer 1 % des nœuds d’un organisme, d’un réseau ferroviaire ou d’Internet pour mettre le réseau “KO”. Cette sensibilité est jugée très inquiétante.

Chapitre 2 : Robustesse et Identification des Nœuds Importants

Cette section se concentre sur la robustesse des réseaux et les méthodes pour identifier les nœuds les plus importants au sein de ces structures. L’exposé explique comment la vulnérabilité apparente de certains réseaux peut être un avantage stratégique et présente plusieurs mesures de centralité.

2.1 La Robustesse des Réseaux et l’Importance des Nœuds

En pratique, le désavantage d’un réseau (sa vulnérabilité au niveau de certains nœuds) peut aussi être un avantage. Il suffit de “vacciner” les nœuds importants, c’est-à-dire de leur conférer une sécurité très forte, pour que l’ensemble du réseau devienne robuste. * Exemple des aéroports : Si les aéroports centraux (les hubs) ont une sécurité renforcée, ils sont plus difficiles à “abattre”, et le réseau de transport aérien devient globalement très robuste. * Analogie biologique : Un organisme biologique doit posséder de nombreuses redondances et sécurités autour de ses gènes les plus utilisés. Des stratégies de secours doivent exister si l’un de ces gènes est affaibli. Ainsi, la fragilité d’un réseau n’est pas nécessairement une mauvaise chose, car elle permet de concentrer les efforts de protection sur un nombre limité de nœuds critiques.

Cela soulève une question fondamentale : comment caractériser ce qu’est un nœud important dans un réseau ? Se baser uniquement sur le nombre de connexions (le degré) est une approche trop simpliste. * Exemple d’un réseau génétique : * Imaginons un gène G1 et un gène G3 très connectés. Ce sont deux nœuds importants selon le critère du degré. * Imaginons maintenant un gène G2 qui n’a que deux connexions : une vers G1 et une vers G3, et qui est le seul lien entre les groupes de gènes connectés à G1 et G3. * Si l’on cible le gène G2, l’organisme se portera mal. G2 a un rôle central non pas par son nombre de connexions, mais parce qu’il est un pont quasi unique entre deux grands groupes de nœuds. Il devient donc primordial de définir précisément ce qu’est un nœud important, notamment en génétique.

2.2 Les Mesures de Centralité pour Identifier les Nœuds Importants

L’une des applications majeures de l’inférence de réseaux est de déterminer la fonction d’un gène (“Guilt by Association”) ou son importance. Plusieurs mesures de centralité existent pour cela. ##### 2.2.1 Le Degré La plus simple mesure de l’importance d’un nœud est son degré, c’est-à-dire son nombre de connexions. Dans le package R iGraph, la fonction degree(G) renvoie le vecteur des degrés de chaque nœud. ##### 2.2.2 La Closeness (Proximité) La closeness mesure la distance moyenne entre un nœud donné et tous les autres nœuds du graphe. L’idée est que si un nœud est “loin” de tout le monde, il est moins central. Dans l’exemple G1-G2-G3, le nœud G2 aura une closeness élevée car il atteint très rapidement G1, G3, et tous les nœuds qui leur sont connectés. ##### 2.2.3 La Betweenness (Intermédiarité) La betweenness mesure le nombre de plus courts chemins entre des paires de nœuds qui passent par le nœud en question. Elle identifie les “ponts” ou les “autoroutes” du réseau. Dans l’exemple G1-G2-G3, G2 aura une betweenness beaucoup plus élevée que d’autres nœuds car tous les plus courts chemins reliant les groupes de G1 et G3 doivent passer par lui. ##### 2.2.4 Le Coefficient de Clustering Le coefficient de clustering est une mesure locale qui examine l’environnement immédiat d’un nœud en regardant le nombre de “triangles” formés par ce nœud et ses voisins. * Un triangle ouvert : Un nœud est le seul lien entre deux de ses voisins. * Un triangle fermé : Les voisins d’un nœud sont aussi connectés entre eux. Une transitivité élevée (nombre de triangles fermés) autour d’un nœud peut signifier que ce nœud est localement moins important.

2.2.5 La Centralité de Vecteur Propre (Eigenvector Centrality)

Cette mesure, plus complexe (EVCENT dans iGraph), est basée sur les vecteurs propres de la matrice d’adjacence. C’est l’algorithme qui a rendu Google célèbre. * Principe : L’importance d’un nœud dépend de l’importance de ses voisins. Être connecté à des nœuds importants vous rend important. * Exemple : Il vaut mieux avoir deux liens entrants provenant de sites d’universités prestigieuses que 150 liens provenant de sites pirates. * Dans l’exemple G1-G2-G3, G2 est jugé important parce qu’il est connecté à G1 et G3, qui sont eux-mêmes importants.

2.3 L’Interprétation des Mesures de Centralité : le Z-score

Une fois ces mesures calculées (ex: Closeness = 3.11), comment juger si un nœud est important ? La valeur absolue est difficile à interpréter. La stratégie consiste à comparer la valeur d’un nœud à la distribution de cette valeur sur l’ensemble du réseau en utilisant le Z-score. * Définition du Z-score : Il mesure à combien d’écarts-types (sigma) une valeur se trouve de la moyenne (mu). * Z-score = (valeur - moyenne) / écart-type * Interprétation : Un Z-score supérieur à 2 indique qu’une valeur est exceptionnelle (dans les 5% extrêmes d’une distribution normale). Le Z-score est une mesure universelle pour juger de l’exceptionnalité d’un nœud. #### 2.4 Application Pratique en Génétique En pratique, on combine les différentes mesures de centralité. * Règle pratique : Si pour l’une de ces quatre mesures (closeness, betweenness, transitivité, eigenvector centrality), un gène a un Z-score qui dépasse 2, il est considéré comme potentiellement important et il vaut mieux éviter de le modifier. * Stratégie de ciblage : Si le gène d’intérêt est un nœud important, il est risqué de le modifier. La stratégie est de chercher des cibles alternatives en aval de ce gène. Le réseau permet d’identifier les voisins en aval et de choisir de cibler celui qui est le moins important pour le reste du réseau.

Chapitre 3 : Inférence de Réseaux de Régulation Génique : Une Étude de Cas (Drosophile)

Ce chapitre présente un projet concret de construction d’un réseau de régulation transcriptionnelle pour la drosophile, illustrant l’intégration de multiples sources de données hétérogènes.

3.1 Contexte du Projet et Données Disponibles

L’orateur présente un projet visant à construire un réseau de régulation pour la drosophile. L’organisme modèle est bien connu, il possède plus de 700 facteurs de transcription (TFs) et 14 000 gènes. 12 génomes de drosophile avaient déjà été séquencés, 139 sites d’accrochage de TF étaient connus, une multitude de gènes possèdaient des fonctionalités identifiées et recensées dans la base de données Gene Ontology (GO) et de plusieurs grands datasets de données d’expression sont publics. Enfin, on dispose de la base de données RedFly constituée de 200 interactions vérifiées expérimentalement. * Nouvelles données générées : Deux jeux de données RNA-Seq, des données sur les modifications d’histones, et des expériences ChIP-Seq pour 76 TFs ont aussi été générées par le consortium. La question posée était : “Est-ce que vous savez me faire un réseau là-dessus ?”

3.2 Construction des Réseaux Individuels

Plusieurs types de réseaux ont été construits, chacun basé sur une source de données différente.

3.2.1 Réseaux d’Expression

Basés sur la corrélation (de Spearman au carré) de l’expression des gènes à partir de données microarray et RNA-Seq.

3.2.2 Réseau basé sur l’Exploration de la Littérature (Literature Mining)
  • Principe : Scanner les résumés de PubMed. Si les noms de deux gènes apparaissent dans le même résumé, on crée une connexion.
  • Pondération : La force du lien peut être modulée par la fréquence de co-citation ou le prestige du journal.
3.2.3 Réseau basé sur les Expériences ChIP-Seq
  • Principe : Identifier les sites où les TFs s’accrochent sur le génome.
  • Filtrage : Pour distinguer les accrochages fonctionnels du bruit, une règle simple a été définie : un accrochage est considéré comme potentiellement fonctionnel uniquement s’il se situe dans une zone de ±500 paires de bases autour du site de démarrage de la transcription (TSS).
  • Matrice du réseau : Une matrice d’adjacence dirigée a été construite avec les valeurs :
    • 1 : Accrochage observé dans la fenêtre de ±500 pb.
    • 0 : Expérience réalisée mais aucun accrochage détecté.
    • 0.1 : Cas “je ne sais pas” (aucune expérience réalisée).
3.2.4 Réseau basé sur les Motifs de Liaison Connus
  • Principe : Scanner le génome pour localiser 139 motifs d’accrochage de TFs connus.
  • Filtrage : Seules les occurrences de motifs trouvées dans la région de ±500 paires de bases autour du TSS ont été conservées.
  • 2e Filtrage : Comparer les génomes de 12 espèces de drosophiles pour identifier des séquences régulatrices conservées. L’hypothèse est que si une séquence est conservée, elle est fonctionnelle.
  • “Branch Length Score” : Un score quantifiant la conservation d’un motif d’accrochage. Il mesure sur combien des 12 génomes le motif est retrouvé en amont d’un gène. Un motif retrouvé sur les 12 génomes est considéré comme très important.
3.2.6 Réseau d’Interaction Protéine-Protéine (PPI)

Basé sur des expériences comme le “Yeast two-hybrid” qui identifient des liens physiques entre protéines.

3.2.7 Réseau GO Basé sur l’Ontologie des Gènes
  • Principe : Deux gènes sont considérés comme similaires s’ils partagent un grand nombre de termes GO (Gene Ontology).
  • Mesure de similarité : L’index de Jaccard (intersection sur union des listes de termes) est utilisé pour quantifier cette similarité.
3.2.8 Les Réseaux de Chromatine
  • Principe : Basé sur des données de marqueurs de chromatine. Pour chaque gène, un profil de chromatine est créé en divisant sa région en cinq segments et en notant la présence de chaque marqueur.
  • Mesure de similarité : La corrélation de Spearman au carré entre les vecteurs de profils de deux gènes. L’idée est que deux gènes sont proches s’ils ont les mêmes marqueurs aux mêmes endroits.

3.3 L’Intégration des Réseaux : Vers les Méta-Réseaux

La solution pour utiliser cette multitude de réseaux est de les combiner pour créer des méta-réseaux.

3.3.1 Réseaux Physiques vs. Fonctionnels

Une distinction clé est faite : 1. Réseaux physiques (chip, motif) : Décrivent un contact physique direct. Leur faiblesse est la difficulté à distinguer les interactions fonctionnelles. 2. Réseaux fonctionnels (co-expression, GO) : Traduisent une relation fonctionnelle. Leur faiblesse est la détection de liens indirects. La combinaison est bénéfique : les réseaux physiques éliminent les liens indirects des réseaux fonctionnels, et les réseaux fonctionnels filtrent les accrochages non fonctionnels des réseaux physiques.

3.3.2 Méthodes de Combinaison
  • La Somme Pondérée (WeightSum) : Une méthode simple consistant à faire la moyenne des scores d’une interaction donnée à travers tous les réseaux.
  • La Somme des Rangs (Ranksum) : Pour contourner le problème des distributions de scores trop différentes, on peut utiliser les rangs des interactions plutôt que leurs valeurs brutes. On combine ensuite les rangs à travers les différents réseaux.

Chapitre 4 : Validation et Performance du Méta-Réseau

Ce chapitre détaille comment la fiabilité du réseau de la drosophile a été évaluée.

4.1 La Stratégie de Validation et le “Gold Standard”

Un aspect crucial est de ne jamais utiliser les mêmes données pour construire et pour valider le modèle. * Gold Standard : La base de données RedFly, avec ses 200 interactions connues, a été utilisée comme référence pour évaluer la performance de chaque méthode. Pour chaque réseau inféré, on vérifiait combien de ces 200 interactions étaient correctement prédites. * Stratégie adoptée : * Données pour la construction : Réseaux “motif”, “chip”, trois réseaux de co-expression, deux réseaux de chromatine. * Données pour la validation : Toutes les autres sources de données (RedFly, PPI, GO, le quatrième jeu de données RNA-seq).

4.2 Évaluation des Performances

  • Réseaux individuels : Les performances étaient très faibles. Le meilleur réseau individuel (motifs conservés) n’atteignait qu’une précision de 12%. Pour les 10 interactions les mieux prédites, seule une était correcte.
  • Méta-réseau : En combinant les informations (via la méthode “WeightSum”), la performance a nettement augmenté, atteignant environ 30% de précision. Pour 10 prédictions, deux étaient correctes. Ce doublement des performances, bien que modeste, était pionnier pour la drosophile et a mené à une publication dans Science.
  • Hiérarchie des performances : Une gradation claire a été observée : le réseau supervisé était meilleur que le non-supervisé, qui lui-même surpassait les réseaux individuels.

4.3 Validation Approfondie

Pour une publication de ce calibre, des validations supplémentaires étaient nécessaires.

4.3.1 Analyse de la Topologie et des Motifs
  • Topologie : La distribution des degrés du réseau inféré suivait bien la loi de puissance attendue, similaire à ce qui est observé chez E. Coli et S. cerevisiae, indiquant une topologie biologiquement plausible.
  • Motifs de réseau : L’analyse des motifs de trois nœuds a montré que sur les 6 motifs les plus fréquents dans le réseau de la drosophile, 5 étaient également parmi les plus fréquents chez E. Coli et S. cerevisiae.
4.3.2 Enrichissement avec des Données Biologiques Externes

L’équipe a vérifié si des patrons biologiques connus étaient surreprésentés dans le réseau inféré par rapport à un réseau de contrôle aléatoire robuste (même topologie, mais labels des nœuds mélangés). * Résultats : Le réseau combiné était nettement supérieur aux contrôles sur tous les fronts (Interactions Protéine-Protéine, termes GO, co-expression sur un jeu de données RNA-seq indépendant). Le score pour le RNA-seq était exceptionnellement élevé, probablement en raison d’un biais (données de validation trop similaires aux données d’entraînement), mais les excellents scores sur les PPI et GO confirmaient la qualité du réseau.

4.3.3 Validation par la Prédiction

Le réseau a ensuite été utilisé avec succès pour : 1. Prédire des fonctions (termes GO) pour des gènes non caractérisés (“guilt by association”). 2. Prédire des niveaux d’expression dans de nouvelles expériences.


Remarque: Les Trois Questions Fondamentales de l’Inférence de Réseau

Pour maîtriser le sujet, il est essentiel de savoir répondre à trois questions clés :

  1. Comment fabriquer un réseau ? (La construction)

  2. Comment le valider ? (Prouver qu’il est bon)

  3. Que peut-on en faire ? (Quelle exploitation)

Ces trois questions clés s’appliquent aussi bien aux méta-réseaux intégratifs qu’aux réseaux basés sur les co-expressions.