Connect with us

Technologie

Exigences de stockage pour l’IA, le ML et l’analyse en 2022

Published

on


L’intelligence artificielle (IA) et l’apprentissage automatique (ML) promettent de transformer des domaines entiers de l’économie et de la société, s’ils ne le font pas déjà. Des voitures sans conducteur aux « bots » du service client, les systèmes basés sur l’IA et le ML sont à l’origine de la prochaine vague d’automatisation des affaires.

Ce sont aussi d’énormes consommateurs de données. Après une dizaine d’années de croissance relativement régulière, les données utilisées par les modèles d’IA et de ML ont augmenté de manière exponentielle à mesure que les scientifiques et les ingénieurs s’efforcent d’améliorer la précision de leurs systèmes. Cela impose des exigences nouvelles et parfois extrêmes aux systèmes informatiques, y compris le stockage.

L’IA, le ML et l’analytique nécessitent de grands volumes de données, principalement dans des formats non structurés. « Tous ces environnements exploitent de grandes quantités de données non structurées », explique Patrick Smith, directeur technique sur le terrain pour l’Europe, le Moyen-Orient et l’Afrique (EMEA) chez le fournisseur Pure Storage. « C’est un monde de données non structurées, pas de blocs ou de bases de données. »

La formation des modèles d’IA et de ML en particulier utilise des ensembles de données plus volumineux pour des prédictions plus précises. Comme le souligne Vibin Vijay, spécialiste de l’IA et du ML chez OCF, un modèle de preuve de concept de base sur un seul serveur peut s’attendre à être précis à 80%.

Avec une formation sur un cluster de serveurs, cela passera à une précision de 98% ou même de 99,99%. Mais cela impose ses propres exigences à l’infrastructure informatique. Presque tous les développeurs travaillent sur la base que plus de données sont meilleures, en particulier dans la phase de formation. « Il en résulte des collectes massives, au moins des pétaoctets, de données que l’organisation est obligée de gérer », explique Scott Baker, CMO chez IBM Storage.

Les systèmes de stockage peuvent devenir un goulot d’étranglement. Les dernières applications d’analyse avancées font un usage intensif des processeurs et en particulier des clusters de GPU, connectés via une technologie telle que Nvidia InfiniBand. Les développeurs envisagent même de connecter le stockage directement aux GPU.

« Dans les charges de travail d’IA et de ML, la phase d’apprentissage utilise généralement des GPU puissants, coûteux et très demandés », explique Brad King, cofondateur et directeur technique sur le terrain chez le fournisseur Scality. « Ils peuvent mâcher d’énormes volumes de données et peuvent souvent attendre sans rien faire pour obtenir plus de données en raison des limitations de stockage.

« Les volumes de données sont généralement importants. Large est un terme relatif, bien sûr, mais en général, pour extraire des informations utilisables à partir de données, plus les données disponibles sont pertinentes, meilleures sont les informations.

Le défi consiste à fournir un stockage haute performance à grande échelle et dans les limites du budget. Comme le souligne Vijay d’OCF, les concepteurs peuvent vouloir tout le stockage sur un flash de niveau 0 haute performance, mais c’est rarement, voire jamais, pratique. Et en raison de la façon dont l’IA et le ML fonctionnent, en particulier dans les phases de formation, cela pourrait ne pas être nécessaire.

Au lieu de cela, les entreprises déploient un stockage hiérarchisé, déplaçant les données de haut en bas à travers les niveaux, du flash au cloud et même aux bandes. « Vous recherchez les bonnes données, au bon endroit, au bon coût », explique Vijay.

Les entreprises doivent également penser à la conservation des données. Les scientifiques des données ne peuvent pas prédire quelles informations sont nécessaires pour les futurs modèles, et les analyses s’améliorent avec l’accès aux données historiques. L’archivage rentable et à long terme des données reste important.

Quels types de stockage sont les meilleurs?

Il n’existe pas d’option unique qui réponde à tous les besoins de stockage en matière d’IA, de ML et d’analyse. L’idée conventionnelle selon laquelle l’analyse est une charge de travail à haut débit et à E/S élevée, la mieux adaptée au stockage par blocs, doit être équilibrée par rapport aux volumes de données, aux types de données, à la vitesse de prise de décision et, bien sûr, aux budgets. Un environnement de formation en IA impose des exigences différentes à celles d’un moteur de recommandation basé sur le Web fonctionnant en temps réel.

« Le stockage par blocs est traditionnellement bien adapté aux charges de travail à haut débit et aux E/S élevées, où une faible latence est importante », explique Tom Christensen, conseiller technologique mondial chez Hitachi Vantara. « Cependant, avec l’avènement des charges de travail modernes d’analyse de données, y compris l’IA, le ML et même les lacs de données, les plates-formes traditionnelles basées sur des blocs ont été jugées incapables de répondre à la demande de montée en puissance parallèle créée par le côté informatique de ces plates-formes. En tant que tel, une approche basée sur les fichiers et les objets doit être adoptée pour prendre en charge ces charges de travail modernes.

Stockage à accès par bloc

Les systèmes basés sur des blocs conservent la périphérie en termes de performances brutes et prennent en charge la centralisation des données et les fonctionnalités avancées. Selon Scott Baker d’IBM, les baies de stockage en blocs prennent en charge les interfaces de programmation d’applications (API) que les développeurs d’IA et de ML peuvent utiliser pour améliorer les opérations répétées ou même décharger le traitement spécifique au stockage pour la baie. Il serait erroné d’exclure complètement le stockage par blocs, en particulier lorsque le besoin est d’IOPS élevés et de faible latence.

Par contre, il est nécessaire de construire des réseaux de zone de stockage spécifiques pour le stockage par blocs – généralement Fibre Channel – und les frais généraux associés au stockage par blocs reposant sur un système de fichiers hors baie (basé sur l’hôte). Comme le souligne Baker, cela devient encore plus difficile si un système d’IA utilise plus d’un système d’exploitation.

Fichier et objet

Par conséquent, les architectes système privilégient le stockage basé sur des fichiers ou des objets pour l’IA et le ML. Le stockage d’objets est conçu avec une grande capacité de pétaoctets à l’esprit et est conçu pour évoluer. Il est également conçu pour prendre en charge des applications telles que l’Internet des objets (IoT).

Le codage d’effacement assure la protection des données, et la prise en charge avancée des métadonnées dans les systèmes objet peut bénéficier aux applications d’IA et de ML.

Par contre, le stockage d’objets est à la traîne par rapport aux systèmes de blocs en termes de performances, bien que l’écart se réduise avec les nouvelles technologies d’objets hautes performances. Et la prise en charge des applications varie, tous les outils d’IA, de ML ou d’analyse ne prenant pas en charge l’interface S3 d’AWS, la norme de facto pour les objets.

Stockage en nuage

Le stockage en nuage est en grande partie basé sur les objets, mais offre d’autres avantages pour les projets d’IA et de ML. Les principaux d’entre eux sont la flexibilité et les faibles coûts initiaux.

Les principaux inconvénients du stockage en nuage sont la latence et les coûts potentiels de sortie des données. Le stockage en nuage est un bon choix pour les systèmes d’IA et de ML basés sur le cloud, mais il est plus difficile de justifier où les données doivent être extraites et chargées sur des serveurs locaux pour traitement, car cela augmente les coûts. Mais le cloud est économique pour l’archivage des données à long terme.

Que recommandent les fournisseurs de stockage ?

Sans surprise, les fournisseurs ne recommandent pas une solution unique pour l’IA, le ML ou l’analyse – le nombre d’applications est trop large. Au lieu de cela, ils recommandent d’examiner les exigences commerciales derrière le projet, ainsi que de regarder vers l’avenir.

« Comprendre les résultats ou l’objectif commercial dont vous avez besoin devrait toujours être votre première pensée lorsque vous choisissez comment gérer et stocker vos données », explique Paul Brook, directeur de l’analyse des données et de l’IA pour la région EMEA chez Dell. « Parfois, les mêmes données peuvent être nécessaires à différentes occasions et à des fins différentes. »

Brook souligne la convergence entre le stockage de blocs et de fichiers dans des appliances uniques et des systèmes capables de combler l’écart entre le stockage de fichiers et d’objets via un système de fichiers unique. Cela aidera les développeurs d’IA et de ML en fournissant une architecture de stockage plus commune.

HPE, par exemple, recommande des options sur site, cloud et hybrides pour l’IA, et voit une convergence entre l’IA et le calcul haute performance. NetApp fait la promotion de son système de stockage tout flash connecté au cloud ONTAP pour l’IA.

Chez Cloudian, le CTO Gary Ogasawara s’attend à voir une convergence entre le traitement par lots haute performance de l’entrepôt de données et les architectures de traitement de données en streaming. Cela poussera les utilisateurs vers des solutions d’objets.

« Le stockage de blocs et de fichiers a des limites architecturales qui rendent la mise à l’échelle au-delà d’un certain point prohibitive », dit-il. « Le stockage d’objets offre une évolutivité illimitée et très rentable. Les capacités avancées de métadonnées du stockage d’objets sont un autre avantage clé dans la prise en charge des charges de travail IA/ML. »

Il est également essentiel de planifier le stockage dès le départ, car sans stockage adéquat, les performances du projet en souffriront.

« Afin de mettre en œuvre avec succès des charges de travail avancées d’IA et de ML, une stratégie de stockage appropriée est aussi importante que la plate-forme de calcul avancée que vous choisissez », explique Christensen d’Hitachi Vantara. « La sous-puissance d’une plate-forme de calcul distribuée complexe et très coûteuse entraînera des résultats moins performants, diminuant la qualité de vos résultats, réduisant ainsi le délai de rentabilisation. »

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance