Connect with us

Technologie

Cinq points clés sur le stockage de données non structuré sur prem et cloud

Published

on


Les données non structurées prolifèrent massivement. Il augmente en volume de plus de 50% par an, et selon IDC, il constituera 80% de toutes les données d’ici 2025 et le fait déjà pour certaines organisations.

Cela signifie que les données non structurées sont un casse-tête potentiel de stockage, mais c’est aussi une source précieuse d’intelligence.

Il y a un autre chiffre de 80 p. 100 qui va à l’égard des données non structurées, c’est-à-dire que les quatre cinquièmes de toutes les informations pertinentes à l’entreprise proviennent de données non structurées, principalement du texte.

En d’autres termes, il est dans les e-mails, rapports, articles, commentaires des clients, notes des clients et d’autres formes de texte non structuré. Il est également dans les messages sur les médias sociaux, les résultats de la recherche médicale, la vidéo, l’enregistrement vocal et les données de surveillance du système à distance (internet des objets). En d’autres termes, les données non structurées sont très variées et peuvent varier en taille de quelques octets à très grand en effet.

Ainsi, que les chiffres de 80 % soient exacts ou non, ils soulignent l’importance des données non structurées.

Dans cet article, nous examinerons la grande variété de données non structurées, les structures qui existent dans les données non structurées, le stockage nas et objet, et les services cloud qui sont destinés aux données non structurées.

Pas de taille unique en termes de stockage

En termes de taille et de format, les données non structurées peuvent comprendre tout, de l’Internet des objets (IoT) données de surveillance du système à distance à la vidéo. Cela englobe des tailles de fichiers allant de quelques octets à plusieurs gigaoctets ou au-delà. Entre les deux, il ya beaucoup de données basées sur le texte qui dérive de courriels, rapports, interaction avec les clients, et ainsi de suite.

Pour le définir, nous pouvons dis-le le type de données qui n’est pas détenu dans le format structuré que nous associons à une base de données relationnelle traditionnelle. Au lieu de cela, il pourrait résider sous n’importe quelle forme entre les données brutes et un certain type de base de données NoSQL, qui en réalité englobent une gamme de produits / méthodes de commande de données qui vont au-delà de la façon traditionnelle SQL de faire les choses.

Le type de stockage requis dépend de deux choses. Nous ne parlons pas ici de la base de données en cours d’utilisation, mais du stockage sur lequel cela se trouve.

Ici, les exigences sont en termes de capacité, mais aussi les exigences i / O qui seront placés sur elle par l’organisation.

Ainsi, le stockage de données non structuré peut aller d’un volume relativement faible, de faibles performances I/O – comme nas ou appareil de stockage d’objets ou instance cloud – à un stockage de fichiers distribués ou d’objets énorme et hautement performant.

Pas aussi déstructuré que vous pourriez le penser

« Non structuré » peut être quelque chose d’un nom erroné. En fait, vous pouvez voir des données non structurées existant sur un continuum. À une extrémité seraient des choses comme les données IoT, e-mails, documents, et peut-être certains candidats moins évidents tels que la voix et la vidéo qui ont des en-têtes de métadonnées ou viennent avec des formats (XML, JSON) qui permettent une analyse de base.
Il s’agit de données semi-structurées.

À l’autre extrémité serait de grandes quantités de texte gagné à partir de sites Web ou de messages sur les médias sociaux qui serait le plus difficile à analyser et à traiter.

Il est hors de portée de cet article d’entrer dans les détails sur les lacs de données, entrepôts, marts, marais, et ainsi de suite, et les méthodes de commande de données en leur sein, tels que NoSQL.

La décision clé du premier point demeure – le stockage back-end dépendra de la capacité requise et des temps d’accès, du profil I/O et potentiellement de la disponibilité, et de la capacité d’échelle.

Mise à l’échelle NAS

NAS n’est plus ce qu’elle était. Scale-out NAS a apporté le stockage d’accès aux fichiers dans les royaumes de très grande capacité et de performance. Nas signifiait un seul déclarant, ce qui signifiait le potentiel de devenir cloisonné.

Scale-out NAS est construit avec un système de fichiers parallèle qui fournit un espace de nom unique à travers plusieurs boîtes NAS avec la possibilité d’échelle à des milliards de fichiers. La capacité peut être ajoutée, et dans certains cas, la puissance de traitement peut aussi.

Scale-out NAS a l’avantage qu’il est conforme à Posix, fonctionne donc bien avec les applications traditionnelles et bénéficie de fonctionnalités telles que le verrouillage de fichiers, qui peut être important du point de vue de l’accès.

Scale-out NAS a également été récemment le seul choix pour les données non structurées haute performance, bien que le stockage d’objets rattrape son retard.

Le stockage NAS à l’échelle prém est disponible auprès des cinq grands fabricants de tableaux de stockage physiques – Dell EMC, NetApp, Hitachi, HPE et IBM. Ils ont également des moyens de mettre les données à niveau vers le cloud et, dans certains cas, d’offrir des instances cloud de leurs produits NAS.

Les trois grands fournisseurs de cloud – AWS, Azure et Google Cloud – fournissent un stockage de fichiers qui s’entissem standard aux niveaux de service premium, souvent basés sur le stockage NetApp.

Il existe également une nouvelle race de produits de stockage de fichiers conçus pour une utilisation hybride dans le cloud. Il s’agit notamment de Qumulo, WekaIO, Nexenta et Hedvig. Elastifile a été compté parmi ceux-ci, mais a été acheté par Google en 2019.

Stockage d’objets

Le stockage d’objets est un concurrent plus récent pour la couronne de stockage de données non structurée. Il conserve les données dans un format plat accessible via un ID unique, avec des en-têtes de métadonnées qui permettent la recherche et une analyse.

Le stockage d’objets a gagné en traction comme alternative à certains des inconvénients de la NAS à l’échelle, qui peut subir des succès de performance à mesure qu’il se développe en raison de sa structure hiérarchique.

Le stockage d’objets est sans doute le format natif du nuage, aussi. Il est extrêmement évolutif et accessible via les interfaces de programmation d’applications (API), qui s’intègre bien à la façon de faire DevOps.

Par rapport au stockage de fichiers, le stockage d’objets manque de verrouillage de fichiers, et jusqu’à récemment, il était à la traîne en termes de performances, bien que cela change et soit motivé par la nécessité d’une analyse rapide des données non structurées.

Tous les cinq grands font le stockage d’objet pour l’utilisation on-prem, avec des manières de niveau pour le stockage d’objet dans le nuage. En outre, il existe des spécialistes du stockage d’objets tels que Scality, Cloudian, Quantum, Pure Storage et l’open source Ceph.

Toutes les offres de stockage de base des grands fournisseurs de cloud sont basées sur le stockage d’objets, avec différentes classes de service/performances offertes. AWS, par exemple, offre différentes classes de stockage S3 qui varient en fonction des exigences de temps d’accès et de la valeur ou de la reproductibilité des données.

Avantages cloud et conteneurs

Tous les trois grands fournisseurs de cloud offrent leurs services de stockage d’objets de base pour une utilisation comme stockage de lac de données.

Microsoft offre un service ciblé qui traitera les données non structurées, Azure Data Lake.

Les avantages ici sont que le fournisseur de cloud offre une capacité extensible et les moyens d’obtenir des données à elle via des passerelles, etc. L’inconvénient, bien sûr, c’est que vous devez payer pour cela, et plus vous mettez de données dans le lac de données, plus il en coûte.

En outre, les hyperscalers offrent des bases de données NoSQL dans leurs nuages. Il peut s’agir de leurs propres bases de données NoSQL – Google Datastore, Amazon DynamoDB, Azure Cosmos DB – ou de bases de données tierces NoSQL qui peuvent être déployées dans leurs nuages.

Click to comment

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance