Technologie
Pandora Papers: Comment les journalistes ont extrait des téraoctets de données offshore pour exposer les élites mondiales

Les Pandora Papers ont révélé comment les politiciens, les célébrités, les redevances et les fraudeurs utilisent les paradis fiscaux offshore pour cacher des actifs, acheter secrètement des biens, blanchir de l’argent et éviter les impôts.
Plus de 600 journalistes dans 117 pays ont collaboré, utilisant des outils de données pour extraire des connexions cachées entre des sociétés offshore et des élites riches qui utilisaient des paradis fiscaux pour cacher leurs activités financières. Leur enquête a embarrassé les politiciens, les membres de la royauté, les célébrités et les oligarques du monde entier.
Les Pandora Papers ont montré que l’un des monarques les plus anciens du monde, le roi Abdallah II de Jordanie, avait secrètement construit un empire de propriété personnelle.
Son portefeuille, comprenant des propriétés de luxe à Malibu et à Belgravia à Londres, valait plus de 100 millions de dollars. Et ils ont été achetés à un moment où les citoyens de son pays étaient confrontés à de sévères mesures d’austérité et à un chômage endémique. Leur véritable propriété était cachée par des sociétés offshore enregistrées dans les îles Vierges britanniques.
Au Chili, des politiciens de l’opposition ont lancé une procédure de destitution contre le président Sebastián Piñera pour des irrégularités dans la vente d’une société minière qui ont été révélées dans les documents.
Et au Royaume-Uni, le Premier ministre Boris Johnson a été confronté à des demandes de restitution des fonds politiques des donateurs du Parti conservateur ayant des liens présumés avec la corruption.
Les dons provenaient d’un magnat du pétrole d’origine russe et de l’épouse d’un ancien oligarque russe dont le mari canalise de l’argent par l’intermédiaire d’un réseau de sociétés « coquilles » offshore secrètes.
Un autre riche donateur du Parti conservateur a conseillé une société suisse de télécommunications sur une transaction financière complexe qui a ensuite été reconnue comme un paiement corrompu, révèlent les journaux.
Trésor complexe
Les Pandora Papers sont l’une des fuites les plus importantes reçues par le Consortium international des journalistes d’investigation (ICIJ).
Les journalistes du monde entier ont passé plus d’un an à analyser le trésor de 11,9 millions de dossiers de sociétés offshore pour découvrir des histoires importantes.
Les téraoctets de données comprenaient des copies de passeports, de relevés bancaires, de déclarations fiscales, de documents constitutifs de sociétés, de contrats immobiliers et de questionnaires de diligence raisonnable, de présentations, de fichiers audio et vidéo et de notes manuscrites.
« Nous parlions de documents très complexes », a déclaré Emilia Díaz-Struck, rédactrice en chef de la recherche de l’ICIJ et coordinatrice pour l’Amérique latine. « Nous parlons de documents financiers et de structures d’entreprise complexes. »
Les données provenaient de 14 entreprises différentes spécialisées dans les services offshore et chacune d’entre elles stockait ses données d’une manière différente.

Pour donner un sens à ce « gâchis de données », il a fallu une combinaison de journalisme et d’analyse sophistiquée des données.
Seulement 4 % des données qu’ils contenaient étaient conservées dans des feuilles de calcul. Le reste était non structuré et difficile à rechercher.
« Nous avons eu de la chance avec certains fournisseurs », a déclaré Díaz-Struck. « Il y avait des feuilles de calcul, mais nous devions encore les combiner, trouver des doublons et les rassembler dans un seul fichier. »
Dans d’autres cas, les informations étaient enfouies dans d’énormes PDF, qui devaient être analysés et examinés par les équipes de données et de technologie.
« Le pire des scénarios était quand il y avait des formulaires manuscrits », a déclaré Díaz-Struck. « Des membres de notre équipe ont extrait manuellement ces informations et les ont mises dans un format structuré. »
Équipe technologique
Pierre Romera, directeur de la technologie de l’ICIJ, a passé sa carrière à travailler avec des sources sensibles, à sécuriser les communications et à analyser d’énormes quantités de données.
Romera était là depuis le début du projet Pandora Papers lorsque l’ICIJ a eu ses premiers contacts avec un informateur confidentiel ayant accès à des millions de dossiers sur des sociétés offshore.
Il travaille avec une équipe d’environ 10 personnes sur une technologie qui permet aux journalistes d’analyser d’énormes ensembles de données. L’équipe comprend des développeurs, des administrateurs système, des concepteurs et des spécialistes en DevOps.
Depuis son travail de pionnier sur la première fuite offshore à grande échelle en 2013, l’ICIJ a développé des outils de plus en plus puissants pour indexer et rechercher des documents.
La première fuite, qui est devenue connue sous le nom de Offshore Leaks, était petite par rapport aux Pandora Papers, à seulement 260 Go d’e-mails et de bases de données divulgués.
Cette enquête a pris des impasses, a fait des erreurs et a rencontré des difficultés techniques, mais elle a également été le pionnier de nouvelles méthodes de journalisme et d’analyse de données, a rapporté Computer Weekly à l’époque.
Après avoir expérimenté des bases de données structurées, y compris SQL, pour analyser les fuites offshore, les experts en données de l’ICIJ se sont tournés vers le logiciel de récupération de texte libre NuIx.
Les spécialistes des données ont également développé un portail Web, en utilisant un autre programme de récupération de texte libre, DT Search, qui a permis à plus de 100 journalistes à travers le monde d’interroger les documents.
Au moment où les résultats d’une autre fuite offshore majeure, les Panama Papers, ont été publiés en 2016, l’ICIJ avait mis en place une petite équipe de données dédiée et avait commencé à développer ses propres outils de collaboration.
La fuite des Panama Papers était beaucoup plus importante que les fuites précédentes et il était évident que Nuix n’était pas un bon choix, a déclaré Romera.
L’équipe de données s’est tournée vers un logiciel open source pour créer un moteur de recherche de texte libre dédié utilisant Blacklight, un outil largement utilisé par les bibliothèques pour la recherche de documents, et Apache Solr, un outil de recherche d’entreprise open source.
Au fil du temps, l’équipe de données est passée à une autre technologie, Elasticsearch, qui a permis des recherches plus rapides.
« Elasticsearch est beaucoup plus puissant – il dispose d’une énorme communauté open source et possède de nombreuses fonctionnalités qui sont très utiles à ces enquêtes », a déclaré Romera.
« L’outil le plus important dont nous disposons »
Ce projet a abouti à la création de Datashare, que Romera décrit comme l’outil le plus important utilisé par les journalistes de l’ICIJ lors de collaborations. Il permet aux journalistes de rechercher rapidement et en toute sécurité de vastes archives de documents.
L’une des fonctionnalités les plus utiles de Datashare est sa capacité à effectuer des recherches en masse de données. Les journalistes peuvent télécharger des fichiers contenant, par exemple, des listes de politiciens, de membres de la royauté ou de célébrités pour trouver des histoires dans les vastes archives de données.

Le partage de données est également évolutif, ce qui permet à Romera d’ajouter plus de serveurs pour fournir la puissance de calcul nécessaire pour analyser les fuites plus importantes et soutenir les grandes équipes.
Au cours du projet Pandora Papers, l’ICIJ avait la capacité de déployer 15 à 20 serveurs. Cela a permis à plus de 600 journalistes d’effectuer des recherches par mots-clés sur les données – un pas en avant par rapport aux plus de 370 journalistes qui ont travaillé sur les Panama Papers.
« Parce que nous essayons de trouver le plus grand nombre d’histoires dans les documents, nous devons vraiment utiliser ce moteur de recherche de manière intensive », a déclaré Romera.
Datashare est conçu pour être simple et rapide à utiliser et est, selon Romera, essentiellement une interface légère construite sur Elasticsearch.
Mais il peut également prendre des plug-ins et des extensions logicielles. L’un des plus utiles est un plug-in qui extrait automatiquement les noms de personnes, d’organisations et de lieux des documents.
« Le partage de données est au centre de tout ce que nous faisons à l’ICIJ », a déclaré Romera. « C’est l’outil le plus important dont nous disposons. »

« Le partage de données est au centre de tout ce que nous faisons à l’ICIJ. C’est l’outil le plus important dont nous disposons »
Pierre Romera, ICIJ
Salle de presse numérique
Le deuxième outil clé utilisé par les collaborateurs de l’ICIJ est I-Hub, une salle de presse numérique, qui figure dans chaque enquête. Romera a décrit I-Hub comme une salle de rédaction numérique qui permet aux journalistes de plusieurs pays de travailler de manière coordonnée.
Les collaborateurs ont travaillé en groupes régionaux pendant l’opération Pandora Papers pour partager les découvertes qu’ils ont faites. D’autres ont formé des groupes pour analyser les données ou pour développer des histoires.
I-Hub est né du travail de l’ICIJ sur le projet Offshore Leaks. Un membre de l’ICIJ a suggéré la nécessité d’un outil qui permettrait aux journalistes de travailler ensemble de manière sécurisée et d’autres membres de l’ICIJ ont accepté.
La Fondation Knight a fourni une subvention pour développer I-Hub à partir d’une plate-forme open source, Oxwall, conçue à l’origine pour prendre en charge les médias sociaux et les applications de rencontres. Il a été utilisé pour la première fois dans l’enquête Swiss Leaks en 2015.
En 2019, I-Hub avait besoin d’une mise à jour pour lui permettre d’être utilisé pour gérer le volume croissant de données partagées par les journalistes. Il est passé à une nouvelle plate-forme, Discourse, qui offrait un plus grand potentiel de personnalisation.

« Pas de place pour les egos »
Des projets comme les Pandora Papers sont couronnés de succès parce que les journalistes acceptent de mettre en commun leurs informations. « Il n’y a pas de place pour les egos », a déclaré Díaz-Struck. « Tout est basé sur le partage et la confiance. »
« Il est important d’impliquer les journalistes à un stade précoce », a déclaré Romera. « Vous devez comprendre très rapidement si c’est d’intérêt public et s’il y a des histoires potentielles dans les documents. »
Au début du projet Pandora Papers, les membres de l’ICIJ ont utilisé des fichiers batch pour faire correspondre les noms contenus dans les documents avec des « listes de pays ». Ces dossiers contenaient les noms de politiciens, de célébrités, de membres de la royauté et d’autres personnes d’intérêt dans chaque région.
Les journalistes ont également comparé les enregistrements divulgués aux données des fuites précédentes, aux listes de sanctions et à d’autres sources de données.
Le exercise a donné aux collaborateurs un aperçu des pays et des individus les plus en vue dans l’ensemble de données.
« Ils ont pu faire le travail et aller beaucoup plus loin dans les documents, mais tout cela commence par leur donner quelques pistes », a déclaré Romera.
Une équipe a rassemblé des données sur les fiducies américaines; un autre a travaillé à identifier et à compter tous les milliardaires énumérés dans les données. D’autres ont travaillé à identifier la présence d’oligarques russes. Différentes équipes de recherche se sont concentrées sur différents fournisseurs de services offshore pour essayer de donner un sens à leurs données.
« En fait, nous avons réparti notre équipe de recherche de données entre les fournisseurs, de sorte que différentes personnes se sont appropriées des fournisseurs spécifiques pour voir comment nous pourrions structurer ces informations », a déclaré Díaz-Struck.
Certains journalistes ont utilisé les documents pour faire des recherches sur des sujets qui les intéressaient déjà. Une enquête a montré qu’un ordre catholique déshonoré, la Légion du Christ, avec 300 millions de dollars déposés dans des sociétés offshore, avait investi des millions dans une société immobilière qui a expulsé des locataires en difficulté pendant la pandémie.
Apprentissage automatique
L’équipe des données et de la technologie de l’ICIJ a d’abord passé du temps à parcourir manuellement d’énormes PDF trouvés dans les données pour identifier les tableaux d’informations pertinentes.
Les équipes ont pu automatiser le processus en utilisant des outils d’apprentissage automatique basés sur Python, Fonduer et Scikit-learn, pour identifier et extraire les informations. Comme toutes les données, elles devaient être examinées et nettoyées manuellement.
Lorsque les journalistes ont commencé à fouiller les documents, il est devenu évident qu’ils récupéraient un grand nombre de documents qui n’étaient pas directement utiles.
Les données contenaient un grand nombre de rapports de diligence raisonnable, y compris des listes de sociétés sanctionnées répertoriées par l’Office of Foreign Assets Control (OFAC) des États-Unis, des formulaires « connaissez votre client » et des recherches sur World-Check, une base de données de diligence raisonnable commerciale.
« Ils étaient intéressants en ce qu’ils nous disent que potentiellement [offshore service providers] font des recherches sur les clients, mais les dossiers ne signifient pas que ces personnes figuraient dans nos données », a déclaré Díaz-Struck.
L’équipe de données a de nouveau utilisé la technologie d’apprentissage automatique pour identifier et regrouper les fichiers indésirables, permettant aux journalistes de les supprimer de leurs recherches.
Mais tous les développements n’ont pas fonctionné comme prévu.
Au cours de l’enquête Pandora Papers, Romera et son équipe ont développé un plug-in pour relier I-Hub et Datashare qui a permis aux journalistes de commenter et d’entamer des discussions sur les documents d’intérêt directement sur la plate-forme Datashare.
« Nous avons passé des mois à essayer de créer cette fonctionnalité », a déclaré Romera. « Ce n’était pas un grand succès. »
Que ce soit parce que les journalistes n’étaient pas au courant de la fonctionnalité ou qu’ils n’avaient pas été formés pour l’utiliser, n’est pas encore clair.
« Peut-être que la prochaine étape est de s’assurer qu’ils savent qu’ils peuvent commenter », a-t-il ajouté.
Vérification des faits
La vérification des faits était une partie importante du projet Pandora Papers. Chaque chiffre cité dans les articles publics passe par un processus scrupuleux de vérification des faits.
Une énorme quantité de travail est investie pour vérifier, par exemple, que les données divulguées contiennent des informations sur plus de 330 politiciens et fonctionnaires dans 90 pays et territoires, et plus de 29 000 bénéficiaires effectifs.
Trouver un chiffre précis pour le nombre de politiciens dans l’ensemble de données a nécessité des efforts minutieux. Cela signifiait recouper les noms des personnalités politiques avec d’autres données, telles que leurs dates de naissance et les données contenues dans les dossiers publics, pour s’assurer qu’elles étaient correctement identifiées.
Différents pays enregistrent les dates, y compris les dates de naissance, par exemple, dans différents formats.
« Vous avez besoin de quelqu’un qui évalue un échantillon aléatoire de données et examine chaque fournisseur de services pour vérifier dans quel format se trouve la date, car ce n’est pas toujours évident », a déclaré Díaz-Struck.
Visualisation des données
Les journalistes et les scientifiques des données font la plupart de leurs recherches en utilisant les capacités de recherche de Datashare.
Vers la fin de l’enquête, les chercheurs ont utilisé les données structurées qu’ils avaient créées pour créer une base de données de graphes, qui cartographuait la relation entre les sociétés offshore et leurs bénéficiaires effectifs.
L’ICIJ a travaillé avec la base de données de graphes de Neo4j et une autre plate-forme open source, Linkurious, pour créer des visualisations interactives et les rendre consultables.
La base de données de graphes comprend des nœuds, tels que le nom d’une entreprise et un fournisseur de services individuel ou offshore, ainsi que des relations qui montrent les connexions entre eux.
L’ICIJ a commencé à examiner les graphiques après la première fuite offshore en 2013. Au début, les journalistes cartographiaient les connexions en traçant des lignes sur des documents Word.
Emil Eifrem, fondateur et CEO de Neo4j, a offert la technologie pro bono. « Nous leur avons parlé pour comprendre ce qu’ils faisaient », a-t-il dit. « Nous avons essayé d’aider autant que nous le pouvions, mais fondamentalement, nous n’avions aucune idée de ce sur quoi ils enquêtaient. Et puis, bam – les Panama Papers ont frappé. »
La force des bases de données graphiques est qu’elles permettent d’identifier facilement les connexions cachées à la vue de tous. « Il s’agit de trouver les connexions indirectes, les sauts multiples sur la ligne, ces couches d’obscurité », a déclaré Eifrem.

À l’avenir, Romera a déclaré qu’il aimerait développer des moyens d’exporter des données structurées enregistrées dans des e-mails et d’autres documents directement dans Neo4j.
Cela pourrait inclure, par exemple, l’extraction des noms des personnes qui ont envoyé des e-mails et des personnes qui les ont reçus, pour créer une carte montrant la relation entre les individus et les organisations.
« Nous aimerions pouvoir, avec Neo4j, exporter toutes ces métadonnées que nous avons dans les documents pour générer automatiquement un graphique des relations entre les personnes à l’intérieur de nos données », a-t-il déclaré. « Si nous y parvenons, la puissance de la base de données de graphes est absolument centrale. »
Il faudra probablement au moins six ou huit mois pour construire le premier prototype, et Romera espère travailler avec la communauté open source pour développer la technologie.
Entre-temps, l’ICIJ rend les résultats de la base de données de graphes disponibles sur son site web. The Power Players est un graphique interactif qui montre la relation entre les dirigeants mondiaux et leurs sociétés offshore, ainsi que des liens vers des copies expurgées de documents sélectionnés.
Cybersécurité
Romera a déclaré que l’ICIJ avait de bonnes raisons de ne pas rendre le trésor de documents divulgués entièrement public. L’organisation travaille avec ses publications partenaires pour s’assurer qu’elles suivent une méthodologie stricte pour protéger les données et les vérifier, a-t-il déclaré.
« Je pense que c’est l’une des raisons pour lesquelles, après tant d’années et après avoir exposé tant d’entreprises, nous n’avons jamais été poursuivis », a-t-il ajouté.
Assurer la sécurité des journalistes et des documents divulgués est une autre priorité. L’ICIJ travaille avec des journalistes dans 117 pays.
« Les journalistes pourraient être surveillés ou ciblés en raison de cette enquête ou d’autres enquêtes sur lesquels ils travaillent », a déclaré Díaz-Struck.

« Les journalistes pourraient être surveillés ou ciblés en raison de cette enquête ou d’autres enquêtes sur lesquels ils travaillent »
Emilia Díaz-Struck, ICIJ
Romera dispose d’une petite équipe en Espagne qui effectue régulièrement des tests de surveillance des menaces et de sécurité des serveurs de l’ICIJ. « Les journalistes ne sont pas toujours férus de technologie », a-t-il déclaré. « Nous essayons donc de créer des interfaces conviviales qui soient également sécurisées. »
Les e-mails sont cryptés avec PGP et les journalistes utilisent l’authentification à deux facteurs pour accéder à une plate-forme d’authentification unique qui leur donne accès à Datashare et I-Hub.
Dans certains cas, l’ICIJ complète également cette sécurité avec des certificats SSL, que les journalistes peuvent installer sur leur ordinateur pour fournir une couche supplémentaire d’authentification.
Les risques sont réels. L’ICIJ a été frappée par une cyberattaque alors qu’elle commençait à publier les premières histoires des Pandora Papers.
La première attaque par déni de service distribué (DDoS) a frappé le site Web le dimanche soir lorsque les premières histoires ont été publiées, le bombardant de messages. L’attaque suivante a été « beaucoup plus intelligente » et a réussi à rendre le site Web inaccessible pendant plusieurs heures.
« Nous devons être très prudents car la plupart du temps, une attaque DDoS peut être utilisée pour cacher une tentative de pénétration dans le système », a déclaré Romera.
La mission de l’ICIJ n’est pas de former les journalistes à travailler en toute sécurité, mais en raison de la sensibilité de son travail, la formation est essentielle, a-t-il ajouté. « Grâce à cette enquête, il y a maintenant 627 journalistes dans le monde entier qui savent comment utiliser PGP, qui n’étaient pas au courant de ce type de technologie. »
La technologie permettra de nouvelles façons de collaborer
Romera et l’ICIJ développent de nouvelles capacités en matière de partage de données en réponse aux demandes des journalistes effectuant la recherche. Cela peut inclure, par exemple, la possibilité de rechercher un nouveau type de document ou d’effectuer un nouveau type de recherche.
« Quand les journalistes veulent chercher quelque chose, ils nous le disent simplement et si Datashare n’est pas en mesure de le trouver pour eux, nous essayons de le construire à l’avenir », a-t-il déclaré.
L’ICIJ développe une version de bureau de Datashare qui permettra aux journalistes de rechercher des documents sur leurs ordinateurs et de partager des alertes avec d’autres journalistes de leur réseau.
Par exemple, un journaliste pourrait marquer un politicien comme un sujet d’intérêt dans sa version de bureau de Datashare et recevoir des alertes lorsque d’autres journalistes identifient des documents contenant des détails sur le même politicien.
Les journalistes auront la possibilité de se contacter et de partager des documents s’ils le souhaitent.
L’ICIJ, qui travaille en collaboration avec des chercheurs de l’École Polytechnique Fédérale de Lausanne (EPFL), est sur le point de développer le premier prototype de la technologie, qui permettra aux membres de l’ICIJ de mettre en place leurs propres enquêtes collaboratives.
« Nous voulons fournir à ce réseau de journalistes d’investigation une sorte de logiciel qui imite la façon dont nous travaillons tous ensemble sur les enquêtes », a déclaré Romera. « S’ils veulent commencer à collaborer ensemble sur des documents, c’est le scénario idéal. »
Pour Romera, le projet a prouvé que l’ICIJ a la capacité de résoudre les fuites de documents volumineux extrêmement rapidement. « Maintenant, lorsque nous avons une fuite aussi importante, nous sommes en mesure de la rendre disponible pour la recherche en, peut-être 15 jours, alors qu’avant, cela aurait pris des mois de dépannage », a-t-il déclaré.
Partie visible de l’iceberg
Les Pandora Papers ont eu un impact énorme dans le monde entier, mais les histoires publiées à ce jour ne représentent qu’une petite fraction des histoires potentielles dans les documents. Il en va de même pour les fuites antérieures des Paradise Papers et des Panama Papers.
« Nous avons des millions de documents et nous avons fait de notre mieux pour trouver les plus intéressants – mais nous continuerons à creuser », a déclaré Romera.
-
Technologie3 ans ago
Une escroquerie par hameçonnage cible les clients de la Lloyds Bank
-
Monde3 ans ago
La NASA va supprimer les noms « offensants » des planètes et des galaxies
-
Technologie1 an ago
Le forum cybercriminel ne cible que la Russie
-
Monde3 ans ago
Quelle est la taille de Barron Trump?
-
Monde3 ans ago
Qui est le mari de Candace Owens, George Farmer?
-
Monde3 ans ago
Qui est le chef de la mafia sicilienne Matteo Messina Denaro?
-
France3 ans ago
L’enseignant primaire accro au tatouage avec EYEBALLS noirci terrifie les enfants avec l’art corporel
-
France3 ans ago
Qui est Luce Douady et comment l’alpiniste de 16 ans est-il mort?