Stocker des données informatiques dans de l’ADN

Le stockage de données informatiques est souvent abordé en termes de capacité et de vitesse, mais il est un autre impératif : la pérennité de ce stockage. L’utilisation d’ADN synthétique comme support fiable ouvre des perspectives intéressantes.

À quoi bon créer des archives si celles-ci ne peuvent être lues demain ? Changement de supports, d’interfaces, d’architectures compliqueront demain l’accès à nos données actuels, aussi sûrement qu’on se trouve bien désemparé aujourd’hui lorsqu’il s’agit d’extraire des photos de vacances d’une cartouche Syquest. À ces problèmes matériels s’ajoute un autre risque : la disparition pure et simple des données, en raison d’une destruction de leur support.

Depuis le début des années 2000, l’idée d’utiliser l’ADN comme support mémoire fait son chemin. Ce bio polymère stocke en effet dans la nature l’information génétique du vivant et en garantit la sauvegarde beaucoup plus efficacement qu’un disque dur : des paléobiologistes ont ainsi pu décoder le génome d’un cheval vieux de 735 000 ans à partir d’un morceau d’os trouvé dans le permafrost canadien.
Durable et fiable, l’ADN a également toutes les qualités en termes de capacité. Ainsi, un ADN synthétique pourrait atteindre en théorie une capacité de 455 millions de To… par gramme, soit 400 milliards de fois plus qu’un DVD ! Des expériences pratiques menées ont conduit à des résultats plus modestes, mais déjà dans des ordres de grandeurs qui laissent rêveurs. Une équipe de l’Institut européen de bio-informatique était parvenue en 2012 à une densité de stockage d’environ 2200 To par gramme d’ADN.
Quelques freins persistent

Jusqu’à présent, les chercheurs butaient cependant sur divers problèmes. Parce qu’il est composé de quatre bases nucléiques (adénine, cytosine, guanine et thymine), l’ADN n’est pas directement compatible avec l’informatique binaire. Comme chaque endroit de la séquence peut contenir l’une des quatre bases, on peut théoriquement coder 2 bits par position. C’est certes un avantage en termes de capacité de stockage, mais au prix d’opérations de transcodage compliquées. Plus gênant encore, il n’était pas possible d’avoir accès à seulement une partie des données, car elles étaient stockées sans organisation précise. Il fallait donc décoder l’intégralité de l’ADN à chaque fois, ce qui est extrêmement long et coûteux.

S’appuyant sur divers travaux antérieurs, Yaniv Erlich et Dina Zielinski, du New York Genome Center, ont récemment trouvé le moyen d’y remédier. Pour cela, ils ont groupé les données par paquets avant leur codage en séquence ADN plusieurs fois. C’est une méthode qui a déjà fait ses preuves dans la compression de données sans perte (fountain code).

Ces paquets sont ainsi accessibles individuellement, et comme on sait ce qui s’y trouve, cela revient à disposer du catalogue de l’archive.
Par ailleurs, un autre problème a été résolu au moyen d’un algorithme, qui élimine les séquences à risque. En effet, l’ADN est capricieux : les longues séquences comportant la même donnée (par exemple une plage de silence dans un enregistrement audio ou le ciel uniformément blanc d’une image) entraînent des erreurs lors du décodage.

Avec cette nouvelle méthode ont ainsi pu être codés 2,1 Mo de données composées de vidéos, d’un système d’exploitation graphique basique ainsi que de fichiers divers.
Comme espéré, le séquençage a permis de reconstituer l’archive. Renvoi d’ascenseur d’un domaine à un autre, ces progrès devraient également bénéficier à la recherche génétique en général. Afin de tester la correction d’erreur, certains segments ont été éliminés aléatoirement. Là aussi, les données ont pu être retrouvées par l’emploi d’une technique habituellement utilisée en bio-engineering pour reproduire de l’ADN in vitro, l’amplification PCR.

 

Il faudra sans doute attendre pas mal de temps avant de pouvoir bricoler la mémoire de son ordinateur dans une boîte de Pétri, mais ces avancées ouvrent des perspectives intéressantes. Il est vrai que stocker des données dans de l’ADN se fait couramment depuis quelques milliards d’années, grandeur nature…
Cyrille Baron

Partager cet article

Read Full Story