L’autre jour, j’avais une conversation avec un de mes amis qui avait une certaine expérience en informatique. La conversation a dévié vers mes recherches et la question suivante est apparue : Quelle est la quantité d’informations numériques stockées dans un génome humain ? J’ai commencé à chercher dans les recoins les plus sombres de mon cerveau, mais je me suis rendu compte que je ne connaissais tout simplement pas la réponse. J’ai donc décidé de faire des calculs pour estimer la quantité d’informations stockées dans notre génome.
Établir la capacité de stockage d’informations du génome
Le génome humain contient l’information génétique complète de l’organisme sous forme de séquences d’ADN stockées dans 23 chromosomes (22 chromosomes autosomiques et un chromosome sexuel X ou Y), structures organisées à partir d’ADN et de protéines. Une molécule d’ADN est constituée de deux brins qui forment l’emblématique double hélice « échelle torsadée », dont le squelette, constitué de molécules de sucre et de phosphate, est relié par des barreaux de bases azotées. L’ADN est composé de 4 bases différentes : Adénine (A), Thymine (T), Cytosine (C) et Guanine (G). Ces bases sont toujours appariées de manière à ce que l’adénine soit reliée à la thymine et la cytosine à la guanine. Ces appariements produisent 4 possibilités de paires de bases différentes : A-T, T-A, G-C et C-G. Le génome humain haploïde (qui ne contient qu’une seule copie de chaque chromosome) est constitué d’environ 3 milliards de ces paires de bases regroupées en 23 chromosomes. Un être humain hérite de deux ensembles de génomes (un de chaque parent), et donc de deux ensembles de chromosomes, pour un total de 46 chromosomes, représentant le génome diploïde, qui contient environ 6×10^9 paires de bases.
Comparer le génome au stockage des données informatiques
Pour représenter une séquence d’ADN sur un ordinateur, nous devons être capables de représenter les 4 possibilités de paires de bases dans un format binaire (0 et 1). Ces bits 0 et 1 sont généralement regroupés pour former une unité plus grande, la plus petite étant un « octet » qui représente 8 bits. Nous pouvons désigner chaque paire de bases en utilisant un minimum de 2 bits, ce qui donne 4 combinaisons de bits différentes (00, 01, 10 et 11). Chaque combinaison de 2 bits représente une paire de bases d’ADN. Un seul octet (ou 8 bits) peut représenter 4 paires de bases d’ADN. Afin de représenter l’ensemble du génome humain diploïde en termes d’octets, nous pouvons effectuer les calculs suivants :
6×10^9 paires de bases/génome diploïde x 1 octet/4 paires de bases = 1,5×10^9 octets ou 1,5 gigaoctet, soit environ 2 CD d’espace ! Ou assez petit pour faire tenir 3 génomes séparés sur un DVD standard !
Stockage de données à travers l’organisme entier
Certaines questions intéressantes pourraient suivre. Par exemple, combien de mégaoctets de données génétiques sont stockés dans le corps humain ? Pour simplifier, ignorons le microbiome (toutes les cellules non humaines qui vivent dans notre corps), et concentrons-nous uniquement sur les cellules qui composent notre corps. Les estimations du nombre de cellules dans le corps humain varient entre 10 000 et 100 000 milliards. Prenons 100 trillions de cellules comme estimation généralement admise. Ainsi, étant donné que chaque cellule diploïde contient 1,5 Go de données (ceci est très approximatif, car je ne comptabilise que les cellules diploïdes et ignore les spermatozoïdes et les ovules haploïdes de notre corps), la quantité approximative de données stockées dans le corps humain est :
1,5 Gbytes x 100 trillions de cellules = 150 trillions de Gbytes ou 150×10^12 x 10^9 octets = 150 Zettabytes (10^21) !!!
Échange d’informations sexuelles
Dans le même ordre d’idées, quelle quantité de données génétiques est échangée lors de la reproduction humaine ? Chaque spermatozoïde d’un homme est hétérogame et haploïde, c’est-à-dire qu’il ne contient qu’un seul des deux chromosomes sexuels (X ou Y) et un seul jeu des 22 chromosomes autosomiques. Ainsi, chaque spermatozoïde contient environ 3 milliards de bases d’informations génétiques, ce qui représente 750 Moctets d’informations numériques. L’éjaculat humain moyen contient environ 180 millions de spermatozoïdes. Cela représente donc 180 x 10^6 cellules haploïdes x 750 Moctets/cellule haploïde = 135 x10^9 Moctets=135000 Téraoctets !!!!. En suivant cette idée encore plus loin, alors que 13500 Toctets sont transférés, un seul spermatozoïde fusionnera avec un ovule, en utilisant seulement 750 Moctets de données, en les combinant avec un autre 750 Moctets de données de l’ovule. Ainsi, essentiellement 99,9999…% des données transférées au cours de la reproduction sexuelle sont perdues dans le pipeline… Quant à savoir si la fraction d’information restante aboutira à quelque chose de constructif, c’est au bon parentage.
Après avoir calculé les chiffres ci-dessus, on peut se poser tout un tas d’autres questions curieuses. Vous êtes-vous déjà interrogé sur la capacité de données de notre organisme biologique ? Quel est le taux de transmission des données pendant la division cellulaire ? Le taux de transmission des données pendant la fusion des gamètes ? Le taux de transmission des données lorsque les lymphocytes humains circulent dans le sang ? Quelle quantité de données est détruite chaque jour par l’apoptose ? Quelle quantité de données est créée chaque jour ? Comment cela se compare-t-il au taux de transfert de données via une fibre optique ?
N’hésitez pas à contribuer vos propres calculs douteux et vos questions ci-dessous !
Cela vous a aidé ? Alors s’il vous plaît partagez avec votre réseau.
.