Connect with us

Technologie

Gravité des données : qu’est-ce que c’est et comment les gérer

Published

on


Lorsqu’il s’agit d’applications d’entreprise, l’accès aux données – et à beaucoup d’entre elles – est généralement une bonne chose. Et plus le volume de données requises conservées localement là où elles sont traitées est important, mieux c’est pour l’entreprise, ses applications, sa prise de décision et, dans certains cas, sa conformité.

Mais la nécessité de stocker et de gérer les données pose également ses propres problèmes, notamment des coûts plus élevés, des performances système inférieures et des frais généraux de gestion. Il s’agit ici de l’idée de gravité des données.

Il est de plus en plus évident que les systèmes riches en données attirent davantage de données. Ceci, à son tour, attire encore plus d’applications dépendantes des données, qui en apportent encore plus.

L’idée de la gravité des données a été inventée pour la première fois par le chercheur en informatique Dave McCrory en 2010. Il a fait valoir que lorsque les organisations rassemblent des données en un seul endroit, cela « construit de la masse ». Cette masse attire les services et les applications, car plus ils sont proches des données, meilleure est la latence et le débit.

À mesure que de plus en plus de données s’assemblent, le processus s’accélère. Finalement, vous arrivez à une situation où il devient difficile, voire impossible, de déplacer des données et des applications ailleurs pour répondre aux besoins de flux de travail de l’entreprise.

En conséquence, les coûts augmentent, les flux de travail deviennent moins efficaces et les entreprises peuvent rencontrer des problèmes de conformité. McCrory, maintenant chez Digital Realty, publie un indice de gravité des données. Il s’attend à ce que la gravité des données, mesurée en gigaoctets par seconde, augmente de 139% entre 2020 et 2024. Cela mettra à rude épreuve l’infrastructure informatique, dit-il.

Chez Forrester, les chercheurs décrivent la gravité des données comme un phénomène de « poule et d’œuf ». Un rapport récent sur les tendances des centres de données expose le problème.

« Le concept stipule qu’à mesure que les données se développent à un emplacement spécifique, il est inévitable que des services et des applications supplémentaires soient attirés par les données en raison des exigences de latence et de débit », indique le concept. « Ceci, en effet, augmente la masse de données à l’emplacement d’origine. »

Plus difficile à mettre à l’échelle

Des exemples de gravité des données incluent les applications et les ensembles de données qui se rapprochent d’un magasin de données central, qui peut être sur site ou co-localisé. Cela permet d’utiliser au mieux la bande passante existante et de réduire la latence. Mais cela commence également à limiter la flexibilité et peut rendre plus difficile l’évolutivité pour traiter de nouveaux ensembles de données ou adopter de nouvelles applications.

La gravité des données se produit également dans le cloud. À mesure que les magasins de données cloud augmentent en taille, les analyses et autres applications s’y rapprochent. Cela tire parti de la capacité du cloud à évoluer rapidement et minimise les problèmes de performances.

Mais cela perpétue le problème de la gravité des données. Les frais de sortie de stockage dans le cloud sont souvent élevés et plus une organisation stocke de données, plus il est coûteux de les déplacer, au point où il peut être peu rentable de passer d’une plate-forme à l’autre.

McCrory appelle cela la gravité « artificielle » des données, causée par les modèles financiers des services cloud, plutôt que par la technologie.

Forrester souligne que les nouvelles sources et applications, y compris l’apprentissage automatique / intelligence artificielle (IA), les appareils de périphérie ou l’Internet des objets (IoT), risquent de créer leur propre gravité des données, en particulier si les organisations ne parviennent pas à planifier la croissance des données.

La croissance des données à la périphérie de l’entreprise pose un défi lors de la localisation des services et des applications, à moins que les entreprises ne puissent filtrer ou analyser les données in situ (ou éventuellement en transit). La centralisation de ces données risque d’être coûteuse et inutile si une grande partie n’est pas nécessaire.

Impact sur le stockage

L’impact de la gravité des données sur le stockage est essentiellement double : elle augmente les coûts et rend la gestion plus difficile. Les coûts augmenteront avec les besoins en capacité, mais il est peu probable que l’augmentation pour les systèmes sur site soit linéaire.

Dans la pratique, les entreprises constateront qu’elles doivent investir dans de nouvelles baies de stockage à mesure qu’elles atteignent les limites de capacité, ce qui peut nécessiter des dépenses d’investissement coûteuses. Mais il y a de fortes chances qu’ils devront également investir dans d’autres domaines pour améliorer l’utilisation et les performances.

Cela peut impliquer davantage de stockage SSD ou une hiérarchisation pour déplacer les données moins utilisées des systèmes les plus performants et des systèmes redondants pour garantir la disponibilité, et des outils de gestion du stockage pour contrôler l’ensemble du processus.

Certains fournisseurs signalent que les entreprises se tournent vers des systèmes hyperconvergés – qui incluent le stockage, le traitement et la mise en réseau dans une seule boîte – pour gérer les demandes croissantes de stockage tout en équilibrant les performances. En rapprochant le traitement et les données, les systèmes hyperconvergés offrent une proximité et réduisent la latence. Mais encore une fois, ces systèmes sont plus difficiles à mettre à l’échelle en douceur.

Dans le cloud, la capacité évolue plus facilement, de sorte que les DSI devraient être en mesure de faire correspondre le stockage de données plus étroitement aux volumes de données.

Cependant, toutes les entreprises ne peuvent pas mettre tous leurs les données dans le cloud, et même celles dont les exigences réglementaires et client le permettent devront examiner le coût et le temps nécessaires pour déplacer les données.

La proximité des données avec le traitement n’est pas garantie, de sorte que les entreprises ont besoin d’architectes cloud capables de faire correspondre la capacité de calcul et de stockage, ainsi que de s’assurer que le stockage cloud fonctionne avec leurs applications d’analyse actuelles. Ils doivent également faire attention à éviter les coûts de sortie des données, en particulier pour les données qui passent fréquemment à l’informatique décisionnelle et à d’autres outils.

Les applications cloud natives, telles qu’Amazon QuickSight, sont une option. Une autre consiste à utiliser des passerelles cloud et des technologies cloud natives, telles que le stockage d’objets, pour optimiser les données entre les emplacements sur site et dans le cloud. Par exemple, Forrester voit des entreprises colocaliser des applications critiques dans des centres de données avec un accès direct au stockage dans le cloud.

Dans le même temps, les DSI doivent être rigoureux en matière de gestion des coûts et s’assurer que les achats dans le « cloud de cartes de crédit » ne créent pas de points chauds de gravité des données. Le technologue Chris Swan a développé un modèle de coût de la gravité des données, qui peut donner une image assez granulaire, pour le stockage en nuage.

Gestion de la gravité des données

Les DSI, les analystes et les fournisseurs s’accordent à dire que la gravité des données ne peut pas être éliminée, elle doit donc être gérée.

Pour les DSI d’entreprise et les directeurs des données, cela signifie trouver un équilibre entre trop et trop peu de données. Ils devraient défier les entreprises sur les données qu’ils collectent et les données qu’ils détiennent. Toutes ces données sont-elles nécessaires? Certains pourraient-ils être analysés plus près du bord?

S’attaquer à la gravité des données signifie également disposer de stratégies robustes de gestion et de gouvernance des données. Cela devrait s’étendre à la suppression des données inutiles et à l’application d’une hiérarchisation et d’un archivage efficaces pour réduire les coûts.

Le cloud jouera son rôle, mais les coûts doivent être contrôlés. Les entreprises sont susceptibles d’utiliser plusieurs clouds, et la gravité des données peut entraîner des mouvements de données coûteux si les architectures d’application et de stockage ne sont pas bien conçues. Les applications d’analyse, en particulier, peuvent créer des silos. Les entreprises doivent examiner les ensembles de données qu’elles détiennent et se demander lesquels sont sujets à la gravité des données. Ce sont les applications qui doivent être hébergées où le stockage peut être conçu pour évoluer.

Les outils capables d’analyser les données in situ et d’éliminer le besoin de déplacer de gros volumes peuvent réduire l’impact de la gravité des données et certains des inconvénients du cloud en termes de coûts. Cela prend tout son sens lorsque les organisations doivent examiner des ensembles de données dans plusieurs régions cloud, des applications SaaS (Software-as-a-Service) ou même des fournisseurs de cloud.

Les organisations devraient également examiner la périphérie du réseau pour voir si elles peuvent réduire les volumes de données qui se déplacent vers le centre et utiliser plutôt des analyses en temps réel sur les flux de données.

Avec une demande toujours croissante de données et d’analyses d’entreprise, il est peu probable que les DSI et les CDO soient en mesure d’éliminer la gravité des données. Mais avec des sources de données nouvelles et émergentes telles que l’IA et l’IoT, ils ont au moins la possibilité de concevoir une architecture capable de les contrôler.

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance