Connect with us

Technologie

NetApp fournit une infrastructure de données pour EMBL

Published

on


Le Laboratoire européen de biologie moléculaire (EMBL) gère un lac de données sur deux sites de centres de données, basé sur le stockage NetApp, pour soutenir la recherche scientifique.

La recherche scientifique moderne dépend fortement de l’analyse des mégadonnées et s’appuie de plus en plus sur des méthodes basées sur l’intelligence artificielle (IA). Les groupes de recherche de l’EMBL développent leurs propres modèles d’IA, qui sont formés et exploités avec des ordinateurs portables Jupyter dans des environnements basés sur des conteneurs. EMBL gère les données sous-jacentes avec NetApp Astra Trident, fournissant un stockage de données persistant pour les environnements de conteneurs.

EMBL utilise les services cloud et de données NetApp pour fournir jusqu’à 400 Po de données scientifiques à ses plus de 80 groupes de recherche et à la communauté mondiale de la recherche.

Rupert Lueck, responsable informatique à l’EMBL, a déclaré que le laboratoire mène d’énormes expériences dans ses centres d’imagerie et de séquençage à l’aide de microscopes électroniques haut de gamme. En utilisant la cryo-microscopie électronique, la structure spatiale et la fonction des molécules individuelles peuvent être étudiées très précisément. Cette technique génère des « tonnes de données », ce qui oblige l’EMBL à stocker 10 à 15PB par an de données de recherche sur tous ses sites, a-t-il déclaré.

L’analyse des données expérimentales est souvent effectuée sur les clusters de calcul haute performance et les systèmes cloud d’EMBL. Les deux sont accessibles simultanément par de nombreux scientifiques et ont donc des exigences de débit de données extrêmement élevées. Les systèmes NetApp de l’EMBL prennent en charge ces exigences de hautes performances, tant en termes d’applications de groupes de recherche exécutées sur les clusters de calcul qu’en termes d’interaction efficace des systèmes et services impliqués.

Pour répondre aux besoins en données de ses chercheurs, le lac de données de l’EMBL comprend plusieurs clusters répartis sur les sites de l’institut. Les centres de données d’EMBL à Heidelberg et Cambridge fournissent un total de plus de 400 Po de stockage sur les systèmes NetApp.

La configuration est conçue pour offrir un accès efficace aux volumes de données étendus via le système de fichiers réseau et le système de fichiers Internet commun. Il prend en charge le déplacement ininterrompu de jeux de données exigeants, tels que ceux utilisés pour l’analyse de données basée sur l’apprentissage automatique, ou la formation de modèles d’IA, et permet de migrer le matériel et les données sans temps d’arrêt.

Dans la configuration actuelle, a déclaré Lueck, toutes les données sont validées sur disque, puis passent par un pipeline de traitement des données, où elles sont analysées pour la qualité. Les données se retrouvent dans le lac de données, mais certaines sont également transmises à l’installation de calcul haute performance de l’EMBL. D’autres jeux de données sont traités à l’aide de GPU.

Lueck a déclaré que l’infrastructure de stockage d’EMBL a évolué avec l’avènement du stockage et de la conteneurisation basés sur le cloud. « Nous déplaçons certaines charges de travail vers le cloud et nous explorons le provisionnement des données basé sur le cloud », a-t-il déclaré. « NetApp Trident nous permet de provisionner le stockage de manière flexible dans Kubernetes ou Openstack. »

Le stockage persistant basé sur des objets, disponible sur NetApp Trident pour la conteneurisation, est un élément important de la stratégie de stockage des données de l’organisation. Lueck a ajouté : « Nous devons nous assurer que les données sont stockées de manière redondante et peuvent être provisionnées très rapidement à l’aide d’une grille de stockage. »

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance