Introduction à l’informatique et applications à la biologie

I - Motivation (version 3.0)

Prof. Patrick E. Meyer

Evolution de la population et technologie

  • Domestication plantes et animaux

  • Sélection artificielle

  • Modification génétique (OGM)

Différents types d’OGM

  • Nourriture et medicaments (dangers?)
  • Biofuels (Arthrospira, Chlamydomonas)
  • Phytoremediation (eaux, sols, sites nucléaires)
  • Biolixiviation (ex: marché du cuivre)
  • Risques de perturbation de l’écosystème ?

Rappel

\[ADN\rightarrow ARN\rightarrow proteine\]

La partie codante (gènes) représente quelques pourcents (3% chez l’humain)

Quid du reste: poubelle (97% chez l’humain)?

Première approche

  • muter un gène et créer un super organisme

  • en pratique: mutant meurt très rapidement (pourquoi?)

Deuxième approche: comprendre le circuit

Changer un gène altère plusieurs fonctions (rôles multiples).

  • voir la cellule comme un circuit et identifier:

    • un gène peu impliqué dans d’autres fonctions

    • les conditions favorables pour le mutant

    • un second gène qui contrebalance une perte de fonction

Cellule de plante vs carte mère

Similarités ??

ADN vs Binary

Similarités ??

  • Symboles: molécules (Cytosine, Thymine, Adenine, Guanine) vs courants (0V, 5V)

Virus

Similarités ??

  • ADN/ARN qui se copie (en utilisant la machinerie cellulaire infectée)

  • Infecte les cellules en contact

  • Code binaire qui se copie (en utilisant les ressources de l’ordinateur infecté)

  • Infecte les ordinateurs connectés (en réseau)

Similarités

Ces similarités entre cellule vivante et ordinateurs montrent

  • que les biologistes sont en réalité des hackers du vivant (des geeks!)

  • mais qui des informaticiens et des biologistes gèrent le système d’information le plus puissant ?
    (cellule vivante vs cloud multiprocesseurs)

Information dans le génome humain

  • 2 bits par base, par exemple C: 00, T:01, A:10 et G:11

  • 3 milliards de bases = 6 milliards de bits

  • octet ou bytes = 8 bits

  • 6 milliards de bits = 750 millions d’octets (750 mo)

  • 1 cd-rom code un humain de 37 tera (\(10^{12}\)) cellules

Information dans un bluray

  • Chaque image (en hd) contient 1920X1080 = 2 mega (\(10^6\)) pixels (pic-cells ?)

  • 120 min de film à 25 images par seconde = 120X60X25= 180000 images

  • 180000 imagesX2 mega pixels = 37 X\(10^{10}\) pixels

  • après compression: 1 blu-ray = 40gb = 60 cd-roms

Blu-ray vs genome

  • 60 cd-roms codent pour approximativement 37x \(10^{10}\) cellules
  • 1 cd-rom code pour approximativement 37x \(10^{12}\) cellules

  • -> un codage 6000 fois plus efficace de la nature!!

  • ET les cellules humaines évoluent pendant plusieurs décénies (croissance, puberté, vieillissement)

  • mais ADN poubelle (>90% du génome humain)??

Recapitulatif

  • Biologie pour affronter les grands défis de demain

  • Pour modifier le vivant, il faut bien le comprendre

  • Une cellule vivante est comme un ordinateur:
    exécute un programme

  • Cet ordinateur du vivant est extrêmement efficace!

  • Quels outils existent pour la retroingénierie du vivant ?

Evolution technologique

  • Carte de Mercator

  • Faite au 16e siècle (la plus précise pendant un siècle)

  • Deux vies entières

  • Satellite

  • Plus précise et informative

  • Quelques secondes

Cartes géographiques en Biologie?

  • circuit génétique

  • une quinzaine de gènes

  • plusieurs décénies de travail par plusieures équipes de biologistes

  • réseau transcriptomique

  • dizaine de milliers de gènes

  • moins d’un an par un seul bioinformaticien

Satellites en biologie?

  • Microscope

  • Beaucoup de manipulations (par ex. PCR, fluorescence)

  • Sequenceurs haut débit

  • Extraction de plusieurs génomes/transcriptomes en quelques semaines

Séquençage haut débit

  • HGP (2003, Watson)
    • 15 ans sur plusieurs dizaines de laboratoires
    • plusieurs milliards d’euros
  • Illumina (2010)
    • plusieurs semaines (1 chercheur)
    • quelques milliers d’euros
  • Nanopores (2020)
    • plusieurs dizaines d’heures (1 chercheur)

    • plusieurs centaines d’euros

Inondation de données

coûts diminuent, rapidité augmente et précision augmente:

Analyse de données biologiques

On produit plus de données qu’on ne peut les analyser, besoin de

  • techniques d’analyse de données biologiques

  • super-calculateurs

  • techniques d’intelligence artificielle

  • techniques de simulations

La biologie des systèmes

L’inference des circuits biologiques divers comme

  • réseaux transcriptomiques

  • réseaux d’intéractions de protéines

  • réseaux métaboliques

  • intéractions gène avec microarn

  • (arbres phylogénétiques)

Meta-réseaux et simulations

  • (La biologie des systèmes est) une science qui utilise des ordinateurs pour comprendre des “ordinateurs” encore plus puissants

Futur

Expériences numériques (plus rapides et moins chères) précéderont les manipulations en laboratoire

On pourra prédire l’évolution d’un organisme ou le résultat d’une mutation génétique à partir de

  • ADN

  • la composition de la semence

  • l’état de l’environnement

  • idem pour l’évolution de populations à partir des conditions initiales (écologie)

Algorithmique Bioinspirée

  • Algorithmes génétiques

  • Algorithmes fourmis et recherche par essaim

  • Réseaux de neurones (chatGPT)

Ordinateurs à ADN

  • Disque durs (400 exabytes sur 1gr d’ADN)

  • Calculs à base d’hybridation fluorescente d’un brin d’adn codant pour une solution d’un problème, des enzymes dégradent les brins (solutions) insatisfaisants du problème donné (en 2011: calcul de la racine de 15 basé sur 130 brins distincts)

  • Ordinateurs quantiques (depuis les années 60) vs ordinateurs adn (depuis les années 90)

Conclusion

  • Le vivant est devenu une source d’inspiration pour l’informatique

  • L’informatique est devenu un outil indispensable aux sciences du vivant

    • Analyse de données (statistique) car explosion des données

    • Simulations numériques (informatique) car expériences couteuses en temps et argent