Le glossaire JEMS
Le glossaire JEMS facilite la compréhension des termes techniques utilisés dans le monde de la data. Cela permet à tous les acteurs d’un même projet de parler une langue commune. Voilà un ensemble de définitions utilisées dans notre site
- Apache Kafka : Plateforme open-source de streaming de données distribuée pour publier et vous abonner à des flux de messages en temps réel.
- API (Application Programming Interface) : Il s’agit d’un ensemble de règles et de protocoles établis pour permettre la communication entre différents logiciels.
- Back-end : C’est la partie du site web qui fonctionne en arrière-plan. Il est responsable de la gestion des données et de la logique métier. Les langages couramment utilisés pour le développement back-end comprennent PHP, Ruby, Python et Java.
- Big Data : Volume massif de données hétérogènes qui nécessitent des outils spécifiques pour être traitées et analysées.
- Cloud computing : Modèle permettant l’accès ubiquitaire via le réseau à des ressources informatiques partagées configurables et rapidement provisionnables.
- Data : Ensemble de faits ou d’informations numériques représentant des données brutes ou analysées.
- Data Access Control : Mécanisme garantissant l’autorisation et l’authentification adéquates des personnes tentant d’accéder aux données sensibles de l’entreprise.
- Data Asset : Élément essentiel constituant le patrimoine informationnel de l’entreprise. Une donnée asset se compose typiquement de metadata (informations contextuelles concernant ladite donnée) et de l’élément de donnée lui-même.
- Database (Base de données) : C’est un ensemble organisé de données. Les types courants de bases de données comprennent les bases de données relationnelles (SQL) et non relationnelles (NoSQL).
- Data Catalog : Infrastructure cataloguant les data assets disponibles au sein de l’entreprise, accompagnée de descriptions détaillées et de metadata pertinentes. Un tel catalogue de données facilite grandement la recherche, l’exploration et l’identification des bonnes données aux bons endroits et moments opportuns.
- Data Contract : Accord formel décrivant les conditions d’interaction entre deux parties consentantes dans le but d’échanger, de partager ou de mutualiser des données. Le contract stipule explicitement les droits et obligations de chacun, clarifiant ainsi les expectations mutuelles et renforçant la confiance réciproque.
- Data Distribution : Démarcation horizontale de la structure organisationnelle de l’entreprise en segments distincts, chacun étant responsable de la diffusion et de la distribution appropriées des données aux parties prenantes internes et externes autorisées.
- Data Federation : Regroupement virtuel de données dispersées physiquement sur différents systèmes source ou silos de données. La federation de données permet de fournir une vision consolidée et unified de l’information, accessible via une interface commune normalisée.
- Data Governance : Pratique visant à assurer la qualité, la sécurité, la fiabilité et la conformité réglementaire des données.
- Data Lake : Référentiel centralisé et hautement évolutif contenant des données brutes et semi-structurées.
- Data Lineage : Représentation visuelle complète illustrant le parcours suivi par une donnée asset au sein de l’environnement IT de l’entreprise, incluant ses transformations successives et ses mouvements entre les divers systèmes et data stores.
- Data Mart : Sous-ensemble d’un entrepôt de données dédié à un domaine métier particulier.
- Data Mesh Engineering : Ensemble de principes et de technologies servant à mettre en oeuvre une architecture DATA Mesh. On trouve notamment des frameworks de microservices, des API standards, des systèmes de messaging, etc.
- Data Mesh Governance : Cadre normatif régissant les comportements attendus et les activités permises dans le contexte d’une infrastructure DATA Mesh. La governance porte tant sur la dimension technologique que sur les aspects organisationnels et culturels, elle assure l’alignement stratégique de l’initiative DATA Mesh avec les objectifs business globaux de l’entreprise.
- Data Mesh Operating Model : Schema directeur conceptualisant l’organisation, les interactions et les processus supportant une initiative DATA Mesh réussie. L’operating model doit prendre en considération les besoins et aspirations des différentes parties prenantes, tout en alignant les structures hiérarchiques traditionnelles avec les nouvelles réalités induites par la nature décentralisée du paradigme DATA Mesh.
- Domain-Oriented Design : Conception orientée domaines impliquant la division d’un système informatique en unités logiques correspondant à des secteurs d’activité spécifiques de l’entreprise. Chaque unité possède ses propres contrats de service de données ainsi que ses capacités de production, de curation et de publication desdites données.
- Data Product : Unité logique encapsulant une portion bien identifiée des données et exposant une interface standardisée pour accéder à celle-ci. Ces data products peuvent être assemblés pour construire de nouveaux services ou effectuer des analyses sophistiquées.
- Data Observability : Capacité intrinsèque de superviser et de surveiller activement l’état de santé des divers éléments constituant le mesh de données de l’entreprise. Grâce à des indicateurs clés de performance (KPI) et alertes intelligentes, on peut anticiper et solutionner rapidement les incidents affectant les data products.
- DataOps : Culture collaborative axée sur l’automatisation, la livraison continue, le monitoring et l’optimisation de pipeline de données alliant équipes DevOps, Data Engineers et Data Scientists. La philosophie DataOps promeut le développement itératif de data products soutenus par des tests rigoureux et une feedback loop constante.
- Data Security : Ensemble de stratégies, politiques, procédures et technologies adoptées pour assurer la confidentialité, l’intégrité et la disponibilité permanente des données cruciales de l’entreprise. La security des données englobe aussi le respect des normes législatives et réglementaires applicables.
- Data Stewardship : Rôle professionnel attribué à un membre du personnel ayant la charge de veiller sur les intérêts stratégiques de l’entreprise en matière de gestion et de gouvernance de ses données. Les stewards collaborent avec les experts métiers et les spécialistes techniques afin de maximiser la valeur extractible des données tout en minimisant les risques associés.
- Data Trustworthiness : Qualité des données faisant référence à leur crédibilité, exhaustivité et actualité. Dans le contexte du DATA Mesh, la confiance accordée aux données repose sur la collaboration harmonieuse des différentes équipes contributeurs ainsi que sur l’adoption de best practices éprouvées.
- Data Virtualization : Abstraction technologique dissociant la présentation logique des données de leurs emplacements physiques de stockage. Avec la virtualisation, les utilisateurs finaux peuvent interroger et manipuler les données comme si elles étaient locales, même si celles-ci sont effectivement réparties géographiquement sur divers systèmes disparates.
- Data Warehouse : Système de gestion de données destiné au reporting analytique et aux opérations décisionnelles.
- DevOps : C’est une philosophie de travail qui vise à unifier le développement de logiciels (Dev) et l’exploitation informatique (Ops). L’objectif principal est de raccourcir le cycle de vie du développement des systèmes et de fournir une livraison continue de logiciels de haute qualité.
- Docker : Plateforme de développement logiciel open-source fournissant des solutions de création, de déploiement et de gestion d’applications sous forme de conteneurs.
- EAI : Enterprise Application Integration. Echanges Inter-applicatifs de Données en français. Désigne une architecture SI qui permet à plusieurs logiciels de communiquer entre eux et de gérer les différents échanges.
- ESB : Enterprise Service Bus. Bus de Service Entreprise en francais. Middleware qui permet la communication des applications qui n’ont pas été conçues pour fonctionner ensemble.
- ELT : Extract Load Transform. Approche d’intégration qui extrait des données à partir d’une ou plusieurs sources distantes, et les charge ensuite dans l’entrepôt de données cible sans changement de format.
- ETL : Extract Transform Load. Approche d’intégration qui extrait des données à partir d’une ou plusieurs sources distantes, les transforme en formats et styles définis et les charge ensuite dans l’entrepôt de données cible
- Framework : Il s’agit d’un ensemble de bibliothèques et de composants logiciels réutilisables qui fournissent une structure de base pour le développement de logiciels.
- Front-end : C’est la partie d’un site web que les utilisateurs voient et interagissent avec. Il est généralement construit avec des langages comme HTML, CSS et JavaScript.
- Full Stack : Un développeur full stack est capable de travailler à la fois sur le front-end et le back-end d’un site web ou d’une application.
- Hadoop : Framework open-source Java distribué pour le stockage et le traitement de grands volumes de données structurées et non structurées.
- Kubernetes : Système open-source automatisant le déploiement, l’évolution et la mise à l’échelle des applications conteneurisées.
- Microservices : Architecture software design consistant en une collection de petits services indépendants, autonomes et fortement liés aux données qu’ils manipulent.
- Natural Language Processing (NLP) : Technologie permettant aux ordinateurs de comprendre, interpréter et générer du langage humain.
- NoSQL : Famille de bases de données non relationnelles conçues pour gérer des charges de travail volumineuses avec une latence faible.
- Server (Serveur) : C’est un ordinateur ou un système qui gère l’accès aux ressources centralisées dans un réseau.
- Serverless Computing : Exécution sans serveur, où l’allocation dynamique des ressources est entièrement gérée par le cloud provider.
- Spark : Moteur de calcul en mémoire rapide et généraliste utilisé pour le traitement de grandes quantités de données.
- Version Control (Git) : Il s’agit d’un système qui enregistre les modifications apportées à un fichier ou à un ensemble de fichiers au fil du temps, permettant ainsi de rappeler des versions spécifiques ultérieurement.