Connect with us

Technologie

Stockage des lacs de données : Lacs de données cloud vs sur place

Published

on


Le traitement de grandes quantités de données est une condition préalable à la transformation numérique, et la clé en est les concepts de lacs de données et d’entrepôts de données, ainsi que les centres de données et les data marts.

Dans cet article, nous allons commencer au sommet de cette hiérarchie et regarder les lacs de données. Alors que les organisations tentent de saisir leurs données et d’en tirer le plus de valeur possible, le lac de données est un concept fondamental.

Il s’agit d’un domaine de gestion et d’analyse des données qui dépend du stockage – parfois beaucoup – et c’est une activité qui est mûre pour passer au cloud, mais qui peut également être traitée sur place.

Nous examinerons également le type de stockage nécessaire pour un lac de données – souvent le stockage d’objets – et les avantages et les inconvénients de la construction interne ou de l’utilisation du cloud.

Lac de données vs entrepôt de données

Le lac de données est conçu comme le premier endroit où les données d’une organisation circulent. Il s’agit du référentiel de toutes les données collectées à partir des opérations de l’organisation, où il résidera dans un format plus ou moins brut.

Peut-être y aura-t-il un marquage des métadonnées pour faciliter la recherche d’éléments de données, mais il est prévu que l’accès aux données dans le lac de données sera effectué par des spécialistes comme les scientifiques des données et ceux qui développent des points de contact en aval du lac.

En aval est approprié parce que le lac de données est vu, comme un vrai lac, comme quelque chose dans lequel toutes les sources de données coulent, et ils sont potentiellement, beaucoup, variés et non transformés.

Du lac, les données iraient en aval à l’entrepôt de données, ce qui implique quelque chose de plus traité, emballé et prêt pour la consommation.

Bien que le lac de données contienne plusieurs réserves de données, dans des formats difficilement accessibles ou lisibles par la grande majorité des employés – non structurés, semi-structurés et structurés – l’entrepôt de données est composé de données structurées dans des bases de données auxquelles les applications et les employés ont accès. Un data mart ou un hub peut permettre des données encore plus facilement consommées par les départements.

Ainsi, un lac de données contient de grandes quantités de données dans sa forme originale. Contrairement aux requêtes à l’entrepôt de données ou mart, pour interroger le lac de données nécessite une approche schéma-sur-lecture.

Lac de données : Types de données et méthodes d’accès

Les sources de données d’un lac de données comprendront toutes les données d’une organisation ou d’une de ses divisions.

Il peut s’agir de données structurées provenant de bases de données relationnelles, de données semi-structurées telles que les fichiers CSV et log ainsi que de données dans les formats XML et JSON, de données non structurées comme les e-mails, les documents et les FICHIERS PDF, ainsi que de données binaires, telles que les images, l’audio et la vidéo.

En termes de protocole de stockage, cela signifie qu’il devra stocker des données provenant du stockage de fichiers, de blocs et d’objets.

Mais, parmi ceux-ci, le stockage d’objets est un choix commun de protocole pour le lac de données lui-même. N’oubliez pas que l’accès ne sera pas aux données elles-mêmes, mais aux en-têtes de métadonnées qui décrivent les données, qui pourraient être attachés à n’importe quoi, d’une base de données à une photo. La requête détaillée des données se produit souvent ailleurs, pas dans le lac de données.

Le stockage d’objets est très bien adapté au stockage de grandes quantités de données, en tant que données non structurées. C’est-à-dire, vous ne pouvez pas l’interroger comme vous pouvez une base de données dans le stockage de bloc, mais vous pouvez stocker plusieurs types d’objets dans une grande structure plate et savoir ce qui est là.

Le stockage d’objets n’est généralement pas conçu pour des performances élevées, et c’est très bien pour les cas d’utilisation de lac de données où les requêtes sont plus complexes à construire et à traiter que dans une base de données relationnelle dans un entrepôt de données. Mais c’est très bien parce que beaucoup de requêtes à l’étape du lac de données sera de fournir des magasins de données plus facilement interrogeables pour l’entrepôt de données en aval.

Lac de données on-prem vs nuage

Tous les arguments habituels sur place par rapport aux nuages s’appliquent aux opérations des lacs de données.

Le déploiement des lacs de données prém doit tenir compte des besoins en espace et en énergie, de la conception, de l’approvisionnement en matériel et en logiciels, de la gestion, des compétences nécessaires pour l’exécuter et des coûts permanents dans tous ces domaines.

L’externalisation du lac de données vers le cloud a l’avantage de décharger les coûts d’investissement (capex) de l’infrastructure à une dépense opérationnelle (opex) l’un des paiements au fournisseur de cloud. Cela pourrait toutefois entraîner des coûts inattendus à mesure que les volumes de données s’échelle et sur le flux de données vers et depuis le cloud, pour lequel vous serez également facturé.

Ainsi, une analyse attentive des avantages et des inconvénients de chacun est nécessaire. Cela pourrait également tenir compte de questions telles que la conformité et la connectivité qui vont au-delà du stockage et de l’architecture des lacs de données.

Bien sûr, vous pouvez également opérer entre les deux emplacements, d’une manière hybride cloud en éclatant à la cloud en cas de besoin.

Produits lacustres de données on-prem

En termes de stockage, un lac de données aura souvent besoin d’une bonne quantité de celui-ci. Si c’est le lac de données pour une organisation à l’échelle de l’entreprise, ce sera certainement le cas.

Au milieu de la dernière décennie, les fournisseurs de stockage semblaient tester les eaux avec des produits de lac de données. EMC, par exemple, a fait lancer en 2015 son Federation Business Data Lake, qui a livré le stockage EMC, ainsi que les produits VMware et Pivotal Big Data.

Mais cela semblait être de courte durée. En 2017, Dell EMC visait sa plate-forme de données élastiques lors des déploiements de lacs de données.

Ailleurs, Dell EMC a également ciblé sa gamme de produits Isilon de stockage par réseau à l’échelle (NAS) dans les cas d’utilisation des lacs de données.

Hitachi Vantara met peut-être davantage l’accent sur l’analytique, le Big Data et l’Internet des objets (IoT) depuis sa rebrand. Il offre une capacité de lac de données basée sur son stockage hitachi content platform en conjonction avec la plate-forme Lumada IoT et les environnements d’intégration de données Pentaho.

Pentaho Data Integration and Analytics s’adresse au Big Data. Les rapports et les analyses peuvent être consultés à distance, et une fois qu’un utilisateur accède aux données, elles peuvent être traitées et consommées n’importe où. Pentaho prend en charge les magasins de données Hadoop, Spark, NoSQL et les bases de données analytiques. La plate-forme Lumada IoT utilise des logiciels d’orchestration, de visualisation et d’analyse de données Pentaho.

IBM fait également partie de la catégorie des fournisseurs de stockage qui font du bruit au sujet des lacs de données. Elle propose ses tableaux de stockage et de conseil, en plus de s’associer à Cloudera pour proposer des solutions de lac de données. Cloudera est une plate-forme de gestion des données qui permet l’orchestration et l’analyse de grands volumes de données.

NetApp ne joue pas beaucoup sur les lacs de données en tant que tels, mais il offre ses tableaux alimentés par l’Ontap comme stockage pour le Big Data, Hadoop et Splunk, par exemple.

HPE ne fait pas non plus de jeux très spécifiques pour le déploiement des données lac, sauf pour dire que vous pouvez construire un en utilisant son GreenLake pay-per-use portefeuille de produits.

Il est juste de dire que vous pouvez construire des lacs de données sur le matériel de n’importe quel fournisseur, et kit de produits de base boîte blanche est également un choix populaire. Il semble que certains des grands fournisseurs de stockage ont traversé une brève période d’offre de produits adaptés aux lacs de données, avec parler même d’appareils de lac de données, mais ces projets sont grands avec de nombreux tentacules et se prêtent davantage à une approche de consultation et de type solutions.

Entrez dans le nuage

Les fournisseurs de matériel ont barboté avec des produits discrets de lac de données, mais semblent finalement avoir conclu qu’il s’agit d’un domaine amorphe en termes de marketing et de ventes et que leurs bras de consultation vont le ramasser.

Les grands fournisseurs de cloud, quant à eux, sont allés dans l’autre sens, les trois offrant des services de lac de données définis.

La solution AWS data lake offre une console à partir de laquelle les clients peuvent rechercher et parcourir les ensembles de données disponibles. Ensuite, ils peuvent marquer, rechercher, partager, transformer, analyser et régir des sous-ensembles spécifiques de données à travers une entreprise ou avec d’autres utilisateurs externes.

Il est basé sur le stockage d’objets S3 d’AWS et utilise une variété de services AWS pour le tricoter ensemble qui incluent les microservices AWS Lambda, Amazon Elasticsearch, l’authentification des utilisateurs Cognito, la colle AWS pour la transformation des données et l’analyse Amazon Athena.

L’offre de lac de données d’Azure s’en va dans le même sens et offre la possibilité d’exécuter des programmes de transformation et de traitement de données massivement parallèles dans u-SQL, R, Python et .Net (Azure) sur des pétaoctets de données.

Vous pouvez ensuite utiliser HDInsight d’Azure, qui est un service d’analyse open source géré qui comprend des frameworks tels que Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm et R.

Google Cloud Platform rencontre un peu moins comme un guichet unique pour le déploiement de data lake qu’AWS et Azure. Il ne fait aucun doute que vous pouvez construire des lacs de données sur GCP – et ils se vantent que Twitter le fait avec eux, d’une part – mais c’est probablement plus un projet de conseil lourd que les offres de type off-the-shelf des deux autres.

Les lacs de données mieux définis par les fournisseurs de cloud

Il ne fait aucun doute que l’idée du lac de données est un concept utile. L’idée d’un référentiel dans lequel toutes les données d’entreprise circulent et où elles sont sélectionnées puis rendues plus facilement accessibles est une bonne idée.

Et il est assez facile de voir que certains types de stockage sont mieux adaptés à elle. Ses besoins ne sont pas immédiats et rapides et donc assez bon marché et le stockage profond comme basé sur l’objet sont idéales.

Ce qui est intéressant, c’est que les fournisseurs de stockage on-prem semblait faire une grosse affaire de big data / lacs de données, et dans certains cas même vanté l’idée d’un appareil lac de données.

Mais la réalité des données lac deployment a été de quelque chose d’un peu plus grand et multi-tentacule qui l’a rendu mal adapté aux produits discrets, de sorte que les fournisseurs de matériel ont largement flirté avec elle et est passé à autre chose, à moins que la consultation et les services fournissent leur itinéraire vers elle.

Pendant ce temps, cependant, les grands fournisseurs de cloud – principalement basés sur les services – ont été en mesure de réunir des solutions pour construire des lacs de données avec une relative facilité et, au moins dans les offres d’AWS et d’Azure, les solutions de lac de données sont importantes et bien définies.

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance