Connect with us

Technologie

Stockage d’entrepôts de données : Le cloud est-il obsolète sur place ?

Published

on


Nous avons récemment examiné l’idée du lac de données, alors maintenant il est temps de se diriger vers l’aval et de regarder les entrepôts de données.

Nous définirons les entrepôts de données, examinerons les types de données qu’ils comprennent, le stockage dont ils ont besoin, ainsi que les produits et services disponibles, sur place mais de plus en plus à partir du cloud.

La clé de la définition de l’entrepôt de données est de récapituler la source des données qui s’y écoulent. C’est-à-dire, le lac de données.

Comme nous l’avons vu, le lac de données est le référentiel de toutes les données de l’organisation. Il peut être structuré, non structuré, semi-structuré, n’importe quoi vraiment, et est le domaine du scientifique des données.

Les lacs de données sont comme l’Ouest sauvage, inadaptés à l’accès par les utilisateurs ou même la plupart du personnel it. Les données peuvent être consultables et, dans une certaine mesure, demandées par leurs métadonnées pour déterminer leur utilisation en aval, mais ce n’est pas l’endroit où l’analyse opérationnelle a lieu. C’est là que les données résident avant qu’elles ne soient traitées et présentées pour le travail d’analyse.

C’est ce qui se passe dans l’entrepôt de données. Par rapport à l’anarchie du lac de données, l’entrepôt de données est un environnement ordonné, comprenant des données structurées dans les bases de données.

Tels qu’historiquement définis, les entrepôts de données sont presque toujours dédiés à l’analyse et sont tenus à l’autre moitié du traitement des transactions pour des raisons de performances.

Stockage d’entrepôt de données

Le lac de données, comme nous l’avons vu, est un environnement en grande partie non organisé et l’accès n’a pas besoin d’être terriblement rapide. Les données peuvent résider sous une myriade de formes et s’y attaquer impliquent souvent des outils de schéma sur lecture tels que Hadoop et Apache Spark, ou Amazon Athena (dans le nuage) pour aider au processus d’ingestion/analyse.

Au moment où les données arriveront à l’entrepôt de données, elles auront été évaluées, disputées et généralement soumises à un processus d’extraction, de transformation, de chargement (ETL) et conservées dans une ou plusieurs bases de données.

L’accès est à des fins analytiques, de sorte que même s’il n’a pas besoin d’être aussi rapide en termes d’accès que pour les bases de données transactionnelles, il faut s’attendre à ce que l’entrée / sortie (I / O) comprendra des quantités raisonnables de trafic en grande partie séquentiel que les ensembles de données sont consultés ou copiés pour le traitement analytique.

Ces exigences ont souvent signifié que le stockage d’entrepôt de données a été raisonnablement performant (RPM plus élevé, et SAS) disque de rotation ou flash. Aujourd’hui, si des vitesses d’accès flash-like sont nécessaires, flash QLC pourrait s’adapter à la facture avec sa pertinence à l’accès séquentiel.

Appareils d’entrepôt de données

Il est possible de construire votre propre entrepôt de données, et spécifier le stockage est une partie relativement facile du processus. Mais la spécification matérielle pâlit à côté de la conception globale, qui peut être très complexe avec des implications qui s’étendent loin dans l’avenir.

Pour atténuer ces défis, de nombreux fournisseurs ont offert des appareils d’entrepôt de données. Ces appareils offrent – ou peut-être offerts – des appareils adaptés aux charges de travail des entrepôts de données qui pourraient souvent être mis à l’échelle, avec du matériel préconfiguré, un système d’exploitation, un logiciel DBMS, du stockage et de la connectivité.

Le premier est venu de Netezza en 2001. Il a été acquis par IBM en 2010 et au milieu de la décennie a été re-marqué hors de l’existence. Cela a changé en 2019, quand IBM a acheté Red Hat et relancé la marque Netezza avec le stockage flash et le traitement FPGA ainsi que la possibilité de fonctionner sur place ou dans le cloud.

Teradata a été un pionnier de l’appareil d’entrepôt de données. Aujourd’hui, elle offre des services d’entreposage de données basés sur le cloud et le matériel, l’analyse d’entreprise et les services de conseil. Teradata Everywhere permet aux utilisateurs de soumettre des requêtes à des bases de données publiques et privées à l’aide d’un traitement massivement parallèle (MPP) dans les entrepôts de données sur place et le stockage multi-cloud hybride. IntelliFlex est la plate-forme d’entrepôt de données de Teradata qui passe à des centaines de PB avec lecteurs flash, tandis qu’intelliCloud est son cloud géré sécurisé pour les données et l’analyse en tant que service.

Pendant un certain temps, EMC a vendu des logiciels Open source Greenplum livrés avec son matériel, mais maintenant Greenplum est un logiciel uniquement, centré sur sa plate-forme d’entreposage de données et basé sur une base de données PostgreSQL hautement parallélisée. Il était en concurrence avec les grands acteurs et est fortement ciblé sur l’utilisation du cloud, bien qu’il se déroulera sur place et peut être conteneurisé.

Oracle vendait des appareils d’entrepôt de données, mais c’est maintenant dans le passé. Actuellement, Autonomous Data Warehouse est l’offre d’entrepôt de données d’Oracle, qui est basée sur la base de données du même nom de l’entreprise. Il s’agit d’une technologie basée sur le cloud conçue pour automatiser bon nombre des tâches courantes requises pour gérer les bases de données Oracle.

Evolution vers le cloud

Les appareils d’entrepôt de données étaient la meilleure solution aux défis de l’exécution datl’analyse centrée sur la base sur place à une époque avant que le nuage ne commence vraiment à prendre de l’âge adulte.

Mais essentiellement, ils sont gros fer. Cela signifiait qu’ils étaient coûteux à acquérir, à exécuter et à entretenir. En ce qui concerne l’échelle, d’autres défis se posent. Les mises à niveau ne pouvaient pas être faites par petites incréments si gros morceaux de capacité qui pourraient rester inutilisés pendant un certain temps avait besoin d’être acheté. Et ce n’est pas que du fer. En tant qu’appareil, ils sont un ensemble complexe de logiciels et de connectivité vers d’autres sources de données.

Au cours de la dernière décennie, la fourniture de services cloud a mûri à un point tel que la fourniture d’entrepôts de données est un ajustement naturel.

Au lieu des dépenses coûteuses de Capex et des coûts continus de maintenance et de fonctionnement, l’exploitation d’un entrepôt de données à partir du cloud permet au fournisseur de prendre la pression.

Tous les trois grands – AWS, Azure et Google Cloud – fournissent des offres d’entrepôt de données qui fournissent des fonctionnalités de base autour d’une base de données, avec des outils supplémentaires tels que ETL et data viz et d’autres.

Amazon Redshift

Amazon Redshift est le service géré d’entrepôt de données d’AWS dans le cloud. Vous pouvez commencer avec quelques centaines de Go de données et l’échelle des pétaoctets. Pour créer un entrepôt de données, vous lancez un ensemble de nœuds, appelé cluster Redshift. Ici, vous pouvez télécharger des ensembles de données et effectuer des requêtes d’analyse de données à l’aide d’outils SQL et d’applications d’intelligence d’affaires. Redshift peut être géré à partir d’une console dédiée ou d’un CLI, avec des API à écrire dans des applications.

Amazon cible spécifiquement les clients qui peuvent vouloir migrer d’Oracle, et offre également des paquets qui viennent avec Matillion ETL et Tableau visualisation de données.

Redshift Spectrum permet également d’analyser les données stockées dans S3.

Entrepôt de données Azure SQL

Azure SQL Data Warehouse est le service géré à l’échelle des pétaoctets de Microsoft qui utilise soit le multi-traitement symétrique, soit MPP pour traiter les données, en fonction des volumes impliqués. L’offre cloud de Microsoft souligne sa capacité à gérer la calcul et le stockage indépendamment et à mettre en pause la couche de calcul tout en persistant les données pour réduire les coûts.

Il est basé sur le service de base de données Azure SQL. Data Warehouse extrait les machines physiques et représente la calcul sous la forme d’unités d’entrepôt de données qui permettent aux utilisateurs d’utiliser et d’écaurer facilement les ressources de calcul à volonté.

ETL provient d’Azure Data Factory.

Google BigQuery

BigQuery est l’offre d’entrepôt de données de Google Cloud Platform. Comme les autres, il offre des entreposages de données à l’échelle du pétaoctet, avec requête par ANSI SQL.

Big Query dispose de modules logiciels qui ciblent l’apprentissage automatique, les systèmes d’information géographique et les cas d’utilisation de l’information commerciale, et peuvent même utiliser Google Sheets comme un substitut à une véritable base de données.

L’accès BigQuery se fait via console ou CLI et API dans le code d’application.

Les documents marketing Google Cloud ciblent spécifiquement les clients qui souhaitent migrer des déploiements Teradata sur place ainsi que ceux qui utilisent Amazon Redshift.

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance