Connect with us

Technologie

Comment le Consortium Covid-19 Genomics UK a séquencé Sars-Cov-2

Published

on


La génomique, l’étude des gènes, est un domaine de la biologie qui repose sur l’informatique. Alors que la capacité de séquencer – efficacement, lire – le génome humain a gagné beaucoup d’attention, les chercheurs ont tranquillement travaillé à utiliser les mêmes techniques pour suivre et analyser les maladies. Ces travaux sont montés sur le devant de la scène en 2020 en se concentrant sur le Sars-Cov-2, le virus qui cause Covid-19.

Les travaux du Royaume-Uni à ce sujet ont été menés par l’intermédiaire du Covid-19 Genomics UK Consortium (Cog-UK), qui avait séquencé 428 056 échantillons au 12 avril 2021.

Les données du référentiel mondial Gis-Aid suggèrent que seuls les États-Unis s’en sont rapprochés. Emma Hodcroft, épidémiologiste moléculaire à l’Université de Berne en Suisse, a décrit les travaux de séquençage du Royaume-Uni New York Times comme « le coup de lune de la pandémie ».

Le séquençage génomique des virus permet aux chercheurs de suivre les mutations au fur et à mesure qu’elles se reproduisent, ce qui permet aux autorités de modifier leurs stratégies en conséquence. La variante B117 du Sars-Cov-2, qui est plus transmissible que les souches antérieures, a été séquencée pour la première fois en septembre 2020 et formellement identifiée comme préoccupante par Santé publique Angleterre en décembre, contribuant ainsi au confinement ce mois-là. Au Royaume-Uni, B117 est souvent appelé la variante kent, bien que d’autres pays ont tendance à l’appeler la variante britannique ou britannique.

Origines de Cog-UK

Cog-UK a été mis en place rapidement, mais il s’appuie sur la technologie et l’expertise développées au fil des ans. À la suite d’une demande du conseiller scientifique en chef du gouvernement britannique, Patrick Vallance, et d’une série de courriels et d’appels téléphoniques, un groupe d’une vingtaine de personnes s’est réuni au Wellcome Trust de Londres le 11 mars 2020.

« La plupart des objectifs et du cadre de Cog-UK ont été négociés à la fin de la réunion », écrit Sharon Peacock, professeur de santé publique et de microbiologie à l’Université de Cambridge et directeur exécutif du consortium.

Le précédent plus grand ensemble de données virales génomiques, de l’épidémie d’Ebola en Afrique de l’Ouest en 2014-2016, contenait environ 1 500 échantillons. « Cog-UK a dépassé ce total au cours du premier mois et a continué de pousser la surveillance du génome viral à une échelle entièrement différente depuis », affirme M. Peacock. Le projet a été lancé avec 20 millions de livres sterling de fonds publics britanniques le 23 mars 2020.

Peacock décrit Cog-UK comme « une coalition de volontaires » impliquant le gouvernement britannique, les quatre agences de santé publique du Royaume-Uni et un éventail d’organisations universitaires, nhs et de santé publique. À travers 16 centres, les membres séquencent des échantillons positifs de personnes atteintes de Covid-19, avec le Wellcome Sanger Institute dans le Cambridgeshire – qui a co-dirigé le premier séquençage du génome humain il y a deux décennies – agissant comme le centre central de séquençage.

L’institut s’est appuie sur ses travaux antérieurs avec la génomique du paludisme pour mettre en place un processus de pipeline hautement automatisé pour le Sars-Cov-2 qui comprend des formats de fichiers standardisés, des contrôles de qualité et des modifications pour supprimer les parties du séquençage qui ne sont pas nécessaires.

L’institut gère son propre centre de données, en fait un cloud privé flexible avec des calculs et un stockage performants. Peter Clapham, chef d’équipe pour le groupe de soutien informatique de haute performance (HPC), explique qu’une grande partie du travail de l’institut implique de grands projets, y compris la Biobanque britannique, qui suit les données génomiques et sanitaires sur 500 000 personnes, et le projet Tree of Life, qui vise à séquencer l’ADN des 70 000 organismes ayant un noyau dans les îles britanniques.

« Nous avons conçu très tôt un système flexible avec nos clients en informatique qui nous permettrait de nous adapter à ce qui est nécessaire », explique Clapham. Pour Cog-UK, elle a réutilisé l’infrastructure technologique existante plutôt que d’acheter de nouveaux équipements. « Cela a été une très bonne confirmation de la nature hybride de ce que nous avons, de la flexibilité que nous avons réussi à maintenir et à développer », ajoute-t-il.

Infrastructure cloud

Bien que le travail de séquençage soit distribué, Cog-UK avait besoin d’une plate-forme informatique centrale pour conserver les données qui en résultent et permettre l’analyse. Thomas Connor, professeur à l’école des biosciences de l’Université de Cardiff, a assisté à la réunion du 11 mars avec son collègue Nick Loman, professeur de génomique microbienne et de bioinformatique à l’Université de Birmingham. Leurs universités, avec Swansea et Warwick, collaborent depuis 2014 à l’infrastructure cloud de bioinformatique microbienne (Climb).

Climb fournit aux microbiologistes la puissance de calcul, le stockage et les outils nécessaires pour effectuer l’analyse des données génomiques, les deux universités ayant entre 3 000 et 4 000 processeurs virtuels disponibles pour soutenir la recherche à l’aide de logiciels open source, y compris OpenStack pour l’informatique en nuage et Ceph pour le stockage. « C’est probablement la plus grandesystème de microbiologie de ce type dans le monde », dit Connor.

Pour Cog-UK, Connor, Loman et ses collègues ont installé Climb-Covid, un jardin clos dans les systèmes existants de Climb dans les datacentres sur place des universités de Birmingham et cardiff. Cela a pris environ trois jours et n’utilise qu’une petite fraction de la capacité de Climb, la recherche sur d’autres agents pathogènes se poursuivant.

« C’est l’avantage d’avoir un nuage sur qui jouer », dit Connor, ajoutant que le projet a eu un impact différent sur sa propre capacité. « Ma dernière année a été Covid. »

Avec 30 000 paires de base – en fait des bits d’information génomique – le Sars-Cov-2 est un méné par rapport aux 3,1 milliards d’ADN humain. Mais les trois machines de séquençage utilisées par Public Health Wales traiter les génomes en blocs de seulement 400 paires de base, produisant jusqu’à 120 Go de données par jour.

« Le défi informatique est de prendre ce puzzle et de le reconstruire », dit Connor, qui travaille également pour l’agence galloise. Le système doit également traiter les métadonnées, y compris les détails démographiques, l’emplacement et l’information sur la façon dont l’échantillon a été traité, et il doit le faire rapidement pour qu’il soit utile.

Santé publique Pays de Galles traite généralement des échantillons en cinq jours, plutôt que les mois qui seraient normaux pour la recherche scientifique.

C’est plus facile à faire au Pays de Galles qu’en Angleterre. Le pays séquence Sars-Cov-2 à partir d’environ deux tiers des tests positifs traités en laboratoire pour Covid-19, rejetant ceux qui ont de faibles niveaux du virus parce qu’ils sont moins susceptibles d’être viables. Le NHS gallois est plus centralisé que celui de l’Angleterre, avec un système unique de gestion de l’information de laboratoire pour la pathologie, ce qui facilite la collecte des métadonnées.

« Nous pouvons faire les choses très rapidement ici », dit Connor. « En Angleterre, les choses sont un peu plus fragmentées. Climb est un moyen d’intégrer ces données.

Les deux universités ont utilisé le financement de Cog-UK pour acheter des disques à état solide (Disques SSD) pour augmenter la vitesse de Climb, portant sa capacité de stockage à 1,5PB de SSD et 2,8PB de disque. Connor dit qu’il est reconnaissant pour la façon dont le fournisseur de Cardiff Dell et le fournisseur de Birmingham Lenovo précipité de nouveaux équipements pour eux, ainsi que le soutien de ses collègues HPC Simon Thompson à Birmingham et Christine Kitchen et Martyn Guest à Cardiff.

Réorientation des travaux existants

Comme pour la génération et le stockage des données génomiques, la réorientation des travaux existants est essentielle à l’analyse logicielle de Cog-UK. David Aanensen, professeur et chef de groupe principal en surveillance génomique au Big Data Institute de l’Université d’Oxford, est également directeur du Centre for Genomic Pathogen Surveillance, basé au Big Data Institute et au Wellcome Genome Campus, également siège du Wellcome Sanger Institute.

Le centre, fondé en 2015, avait déjà largement utilisé son logiciel pour recueillir et analyser des données génomiques sur les maladies dans les pays pauvres.

Aanensen et son équipe ont commencé à travailler sur Covid-19 dès janvier 2020, principalement grâce à des fonds existants ainsi qu’à des subventions de l’Institut national de recherche en santé. « Tous les partenaires ont fait du bénévolat et mis à profit les infrastructures et les subventions existantes », dit-il à l’adresse de Cog-UK.

Deux des logiciels existants du centre, Data-flo et Microreact, ont été largement utilisés par les partenaires de Cog-UK. Il existe des cas locaux de Data-flo, qui gère les pipelines de données épidémiologiques, à Public Health Wales et Health Protection Scotland. Ceux-ci permettent aux agences d’utiliser le logiciel open source pour relier et visualiser les données génomiques avec des informations personnelles et commerciales, y compris les dossiers des patients et les noms des foyers de soins.

La microréagir, développée au cours des cinq dernières années avec le financement de Wellcome pour visualiser et partager des données sur l’épidémiologie génomique, a été particulièrement utilisée. Le centre a installé des instances locales pour Public Health Wales et Health Protection Scotland, mais aussi les Centres for Disease Control and Prevention des États-Unis et le Centre européen de prévention et de contrôle des maladies. Il a également été utilisé par d’autres autorités sanitaires en Europe, ainsi que par des organisations en Argentine, au Brésil, en Colombie et en Nouvelle-Zélande.

« L’impact est énorme, et nous voulons que les outils de données et les moyens de rassembler des informations de haute qualité pour éclairer les politiques et les actions soient mis à l’échelle », déclare M. Aanensen. « Les logiciels librement disponibles et l’éthique des données ouvertes nous tiennent à cœur. »

En plus de soutenir ses applications existantes, le centre a créé et adapté des logiciels pendant la pandémie. Cela inclut un système qui permet aux sites de séquençage de Cog-UK de télécharger des métadonnées au format speadsheet sur des échantillons jusqu’à Climb-Covid à l’aide d’une interface glisser-déposer, ainsi que d’assurer leur validité.

Il a également produit un emballage web pour Pangolin (Phylogenetic Assignment of Named Global Outbreak Lineages), logiciel qui attribue les génomes de Sars-Cov-2 à des lignées développées par une équipe dirigée par Andrew Rambaut, professeur d’évolution moléculaire à l’Université d’Édimbourg. Cela facilite l’accès à Pangolin, lui permettant de traiter des centaines de milliers d’échantillons et permettant aux utilisateurs de voir la distribution mondiale de lignées spécifiques, telles que la variante B117.

« Un logiciel librement disponible et une éthique des données ouvertes nous tiennent à cœur »

David Aanensen, Université d’Oxford

Cela signifiait augmenter la capacité des algorithmes informatiques et visuels à faire face au volume de données collectées par Cog-UK. Par exemple, la visionneuse d’arbres utilisée pour visualiser les relations entre les génomes a été déplacée de Canvas à Web GL, avec un algorithme pour réduire les détails d’un grand nombre d’échantillons. « Maintenant, nous pouvons afficher des arbres de plusieurs millions, même si nous n’en sommes pas encore là », dit Aanensen.

Ce travail s’inscrit dans l’objectif du centre de ne pas développer de logiciels étroitement définis, avec la plupart de l’accent mis sur les produits existants. « Beaucoup de processus ont été accélérés », dit Aanensen au cours de ses travaux pendant la pandémie. Pour ce faire, tout le monde en fait plus : « Essentiellement, nous venons de doubler notre charge de travail. »

Aanensen affirme que le fait d’avoir un certain nombre de laboratoires de séquençage rejoints par l’informatique a été une force clé de Cog-UK, une approche qu’il résume comme « séquençage décentralisé avec analyse centralisée ». Il ajoute : « Il faut apporter de la valeur aux sites locaux, mais contextualiser les données locales dans le tableau d’ensemble. »

Il a été rafraîchissant de travailler avec des organisations à travers le Royaume-Uni, le tout rapidement et axé sur la livraison, dit-il.

Bien que les travaux de Cog-UK sur la pandémie ne soient pas encore terminés, les personnes impliquées sont enthousiasmées par la façon dont les projets futurs peuvent s’appuyer sur elle pour aller plus loin. « Cela pourrait être appliqué à n’importe quel agent pathogène que vous voulez examiner », explique Thomas Connor de l’Université de Cardiff.

Des échantillons de tuberculose et d’agents pathogènes gastro-pathogènes sont déjà séquencés mais rarement partagés, et il est possible de séquencer d’autres maladies infectieuses, dit-il. « La valeur du partage rapide de ce type de données a été démontrée. C’est un héritage très important.

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance