Connect with us

Technologie

Une entreprise vidéo obtient un NAS évolutif Qumulo et des métriques ultra-fines

Published

on


La société de services numériques de diffusion Cognacq-Jay Image a déployé le stockage NAS scale-out de Qumulo. L’un des principaux attraits par rapport à ses concurrents était la surveillance et le contrôle des paramètres, en particulier pour une utilisation avec des applications qui gèrent un grand nombre de fichiers et avec des délais serrés dictés par les clients.

« Chaque jour, nous recevons plusieurs To de vidéo que nous devons traiter et retourner, avec des délais dictés par les horaires des chaînes », explique Michel Desconnets, responsable informatique chez Cognacq-Jay Image. « Nous devons maintenir le débit, mais nous dépendons autant de la performance que de la précision du processus. »

Le travail de Cognacq-Jay Image consiste en un travail de post-production sur des programmes télévisés tels que l’ajout de crédits, de publicité ou de sous-titres. Mais la majeure partie de la télévision étant désormais via des canaux numériques, la plupart des travaux sont désormais liés à l’informatique, et chaque vidéo doit être transcodée dans une variété de formats pour plusieurs décodeurs et applications.

« Pour les informations télévisées, par exemple, nous recevons des séquences récemment tournées et les renvoyons correctement formatées après 10 minutes », a déclaré Desconnets. « Mais pour un film haute résolution, il peut y avoir plusieurs heures de traitement de conversion. Certains clients nous envoient leur vidéo à la dernière minute; d’autres des semaines à l’avance.

« Le nombre de formats varie selon le client. Certaines vidéos nécessitent l’ajout de la gestion des droits numériques [DRM]par exemple. Nous devons prendre toutes ces choses en considération et gérer les priorités pour de nombreux emplois à tout moment sur nos systèmes. C’est un processus très complexe.

Les clients vont des petites chaînes indépendantes aux grands groupes de médias. Certains clients effectuent une partie du traitement en interne, tandis que d’autres ne le font pas.

Certains exigent que Cognacq-Jay Image conserve une infrastructure dédiée pour leur travail. C’est pour cette raison que la société a vu les plates-formes se multiplier dans son centre de données, avec un NAS évolutif d’Isilon (Dell EMC) et un stockage d’objets de Scality.

Le défi des délais serrés

En 2020, un client anonyme souhaitait ajouter à ses tâches de production, mais la baie Scality utilisée n’offrait pas les caractéristiques de charge de travail requises. « Il s’agissait d’une baie de 300 To et d’un débit pris en charge de 2,5 Gbit/s », a déclaré Desconnets. « La capacité n’était pas un problème car 60 To étaient dédiés à la production, le reste s’occupant de l’archivage au fur et à mesure qu’il était renvoyé au client.

« Notre principale préoccupation était le débit. Nous avions besoin de 3 Go/s pour les écritures et de 1 Go/s pour exporter les fichiers finaux. »

Desconnets a ajouté : « Les serveurs qui exécutent le transcodage prennent en charge de grandes quantités de bande passante et écrivent une grande quantité de fichiers en parallèle. Mais si leurs temps d’écriture sont 20% moins performants que leur vitesse de traitement, cela retarde les autres processus. Le problème est que nous ne savons pas lesquels ralentissent le tout.

« En d’autres termes, au-delà d’un simple goulot d’étranglement technique, nous ne savions pas comment réagir rapidement aux problèmes. Et pourtant, des problèmes comme ceux-ci – une erreur de transcodage, un mauvais fichier, etc. – sont très fréquents et nécessitent une extrême vigilance de notre part. »

Au milieu de 2020, Desconnets et son équipe ont commencé à chercher une nouvelle configuration de stockage.
« Dans toute leur offre, Scality était plus en mesure de fournir de la capacité que de la vitesse d’accès », a-t-il déclaré. « En d’autres termes, leurs solutions signifiaient que nous devions acheter beaucoup de serveurs pour compenser la latence.

« Avec Isilon, la bande passante était moins problématique. Mais il est très difficile de surveiller l’activité sur une baie Isilon, en particulier lorsque vous essayez de diagnostiquer les problèmes posés par les petits fichiers, les fichiers volumineux, etc.

Logiciel de stockage Qumulo sur matériel HPE

Au cours du processus de recherche, Desconnets est tombé sur Qumulo. « Ils ont suggéré que nous testions certaines machines pendant quelques mois », a-t-il déclaré. « Nous avons pu valider que leur solution contenait des API très riches [application programming interfaces] cela nous permettrait d’écrire des scripts complets et d’avoir des processus de test prêts à l’emploi.

La commande de Qumulo a été passée au cours du dernier trimestre de 2020. Qumulo est un produit logiciel acheté par HPE, qui a fourni du matériel préconfiguré comprenant six serveurs Apollo 2U avec une capacité de stockage de 36 To.

Qumulo fait partie d’une nouvelle vague de NAS évolutifs et de produits de stockage distribués qui cherchent à répondre au besoin croissant de stocker des données non structurées, souvent dans le cloud ainsi que dans le centre de données client.

La commande a été complétée par deux commutateurs 1U. En plus de connecter les nœuds Qumulo, les commutateurs ont permis quatre connexions de 10 Go/s aux serveurs de transcodage, qui comprenaient environ 30 machines Windows.

« Les serveurs de transcodage sont connectés au même client et cela posait la question de savoir s’il faut opter pour l’hyper-coninfrastructure à frôler [HCI] avec le calcul et le stockage dans le même nœud », a déclaré Desconnets. « Mais HCI n’est pas adapté à nos besoins lorsque le calcul est indépendant de la capacité de stockage. Nous voulons pouvoir ajouter à l’un sans nécessairement ajouter à l’autre.

« Nos processus passent également par nos serveurs d’exportation, qui ne sont pas dédiés à des clients spécifiques et nécessitent donc une infrastructure séparée. »

Les composants étaient en place à la fin de 2020, a déclaré Desconnets. « Nous devions le mettre en production dès le début de 2021, mais un client a ajouté à sa charge de travail juste avant Noël. Nous avons donc décidé d’accélérer la migration. En fin de compte, nous avons terminé les tests pour la production en deux jours. »

Et puis, la solution a déraillé.
Au début, tout s’est passé comme Cognacq-Jay Image l’imaginait. Mais deux mois plus tard, il a rencontré un problème.

« En février 2021, nous avons soudainement remarqué que des files d’attente se construisaient », a déclaré Desconnets. « Un fichier qui aurait été envoyé en une heure a pris deux, voire trois heures lors du transcodage vers certains formats. Les outils de surveillance Qumulo ont révélé que les latences ont été multipliées par 100. Mais cela ne signifiait pas que nous savions si le problème venait des disques, des logiciels ou de nos outils.

« Nous avons donc tiré parti des fonctionnalités de l’API qui nous permettent d’obtenir une surveillance en temps réel. À la suite de cela, j’ai réalisé que si j’éteignais certains transcodeurs, tout allait plus vite, ce qui signifiait que – paradoxalement – le travail parallèle était contre-productif. »

Desconnets a vite compris que le problème était dû à la façon dont le traitement était organisé. « Nous avions pris la décision de transcoder tous les fichiers dans un format initial, puis de les mettre dans un deuxième format, etc », a-t-il déclaré. « Mais en faisant cela, nous avons dû charger et décharger des fichiers dans le cache à chaque exécution de transcodage. »

Il a expliqué que le cache comprenait 1 To sur chaque nœud, avec 6 To au total, et n’était donc pas suffisant pour contenir tous les fichiers pendant leur traitement.

« La meilleure pratique consiste à transcoder un fichier dans tous les formats possibles, puis à passer au fichier suivant », a déclaré Desconnets. « Ce que nous devions faire, c’était transcoder un fichier et le sortir le plus rapidement possible, plutôt que d’en faire beaucoup en même temps. »

Possibilité de surveillance granulaire

Desconnets est fier du système de surveillance qu’il a construit pour le déploiement qu’il a fait de l’entreprise Qumulo. Il comprend Zabbix pour collecter des métriques, Kibana pour analyser les logs et Grafana, qui crée des visualisations graphiques.

« J’ai déployé une console qui nous a permis d’explorer la provenance de chaque opération », a déclaré Desconnets. « Ce système de surveillance nous permet de résoudre tous les problèmes en moins d’une semaine. Au bout de deux semaines, nous avons optimisé tous les paramètres et même découvert des bugs qui existaient depuis longtemps dans nos processus et avons réussi à les résoudre. »

Depuis lors, l’équipe a ajouté deux autres nœuds Apollo. La capacité brute est passée à 288 To (210 To utilisables), le reste étant confié à la redondance. « En moyenne, nous utilisons 100 To par jour, mais c’est parfois 180 To un jour et 85 To le lendemain », a déclaré Desconnets. « Ce n’est pas un stockage qui se développe progressivement, mais qui se remplit et se vide tout le temps.

« Néanmoins, notre cluster Qumulo a couru comme une montre. Les métriques continuent de nous permettre de surveiller l’activité des clients. Par exemple, nous avons vu où les opérations ne se sont pas terminées assez rapidement et cela nous a permis de résoudre les goulots d’étranglement. »

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance