Tim Smith et Sünje Dallmeier-Tiessen ont écrit cet article
Le lancement du Portail des données ouvertes (Open Data Portal) marque une étape importante, mais la route est encore longue… la science ouverte ne se limite pas à une somme d’actions dites « ouvertes », c’est un idéal, et pour nous ici au CERN, c’est un retour aux sources.
Le CERN est l’expression même de l’ouverture, qui va de pair avec la nature collaborative de notre recherche de pointe. Le principe d’ouverture est inscrit dans notre Convention et n’est pas considéré comme une obligation, au contraire, il est l’expression de la force de nos convictions. Nous avons participé au développement de l’internet, nous avons été parmi les premiers à adopter les codes sources ouverts, nous avons contribué à instaurer la culture de la prépublication, et nous lançons des initiatives pour promouvoir le libre accès aux publications.
La science repose sur le principe que les hypothèses que nous proposons pour expliquer les phénomènes que nous observons peuvent être vérifiées par des expériences qui peuvent être répétées. Nous devrions donc partager nos observations et nos conclusions de façon suffisamment détaillée pour permettre leur examen, leur reproduction et leur vérification par des tiers. En cette époque où sont produits d’énormes volumes de données, nous avons en quelque sorte manqué à cet idéal, en continuant à « partager » au moyen de processus de publication qui ne permettent pas de publier des données, en tout cas pas des volumes importants, ni les codes nécessaires à leur interprétation. La science ouverte s’efforce ainsi de rééquilibrer les processus et de présenter à nouveau les données et les codes comme des sujets de recherche de première importance à partager, examiner et réutiliser.
En lançant le Portail des données ouvertes, nous faisons un nouveau pas en direction de la science ouverte, poursuivant l’évolution amorcée ces dernières années. Mais c’est un nouveau pas qui provoque chez beaucoup un sentiment proche de celui ressenti avant de sauter pour la première fois en parachute : excitation, peur, ou un mélange des deux !
Récemment, un large public a pu accéder à des données et des codes d'analyse à travers une multitude d’initiatives en physique des particules, telles que HEPDATA, Rivet, Recast, les master classes, sans parler du récent défi Kaggle sur le boson de Higgs, et bien d’autres encore. En lançant le Portail des données ouvertes, le CERN appuie ces initiatives en offrant une plateforme pour le partage, la publication et l’archivage de données issues de son programme expérimental, permettant ainsi à TOUS d’y avoir accès. À cette fin, le Portail des données ouvertes attribue des identificateurs d’objets numériques (DOI) à des ensembles de données et de codes, de façon que ceux-ci puissent être cités dans des articles scientifiques standard. Il permet aussi de les télécharger librement, car elles sont publiées sous une licence Creative Commons (CC0). Le portail constitue ainsi un élément de base pour l’établissement de plans de gestion des données et joue un rôle clé dans la préservation des données.
La construction du Portail des données ouvertes illustre également de façon éclatante l’esprit de collaboration qui anime notre discipline. Le portail est le fruit d’une collaboration très étroite entre experts en bibliothèques numériques, conservateurs de données et spécialistes en métadonnées des départements IT et GS du CERN, mais aussi experts en données, chercheurs et équipes chargées de communication grand public des quatre expériences LHC. Le portail représente également le rapprochement de deux courants dont nous avons été aux avant-postes ces dernières années, à savoir les bibliothèques numériques et la gestion des données (big data). Il s’appuie ainsi sur des années de travail avec Invenio, le logiciel de bibliothèque numérique sur lequel reposent CDS, INSPIRE, Zenodo et divers autres services à travers le monde.
Il est important de noter toutefois que ces données sont issues de véritables collisions dans le LHC ; il ne faut donc pas sous-estimer leur complexité ni le temps et les efforts que nos nouveaux collaborateurs investissent dans l’apprentissage des outils et des techniques nécessaires à leur interprétation. Outre les données qui permettent une analyse détaillée (« bas niveau »), nous sélectionnons et publions sur le portail des séries de données et d’outils synthétisés (« haut niveau »), qui bien que plus faciles à manipuler et à étudier, ne sont pas si faciles à interpréter ! Ainsi, la sensation de sauter en parachute nous l’éprouvons moins pour le lancement du portail que pour le moment où nos amis du monde entier pourront accéder aux données et les utiliser. Nous échangeons librement nos données et souhaitons savoir où et comment elles sont utilisées, non seulement parce que nous sommes curieux, mais aussi parce que nous devons comprendre quelle est la meilleure façon de présenter nos données ouvertes, pour qu’elles puissent être utilisées aujourd’hui comme demain. Notre Portail des données ouvertes n’est qu’un point de départ : nous espérons que beaucoup pourront l’expérimenter. Dans les prochains mois, nous travaillerons avec des spécialistes au sein des expériences afin d’ajouter des codes et des données pour une plus grande facilité d’emploi.