Qualité des données : standardiser, pourquoi et comment

05/08/2016

La standardisation des données a pour objectif d’assurer une interopérabilité optimale des données, en vue de leur réutilisation. L’application d’une « commune mesure » permet d’améliorer la qualité des données, notamment pour des activités de data cleaning, data profiling et data matching.

Comment standardiser ? Il existe tout un éventail de normes ISO (Organisation internationale de normalisation), prévues pour un usage général dans les divers domaines scientifiques et techniques :

Références bibliographiques (ISO 690 :2010) : donne des principes directeurs pour la rédaction des références bibliographiques, en organisant un ordre dans les mentions. Exemple pour un livre : NOM, Prénom. Titre. Édition, collection, année.

Représentation des pays (ISOISO3166-3:2013) : énonce les principes pour une représentation des pays, BE pour Belgique, FR pour France…

Représentation des monnaies (ISO 4217 :2015) : définit le code de trois lettres attribué aux devises dans le monde, EUR pour l’euro, USD pour le dollar américain..

Représentation normalisée de la localisation des points géographiques par coordonnées (ISO6709:2008): spécifie notamment la représentation des coordonnées, dont la latitude et la longitude, utilisées pour l’échange de données. La norme ISO 19101-1 :2014 définit le modèle de référence pour la normalisation dans le domaine de l’information géographique, lequel décrit la notion d’interopérabilité et établit les principes de base sur lesquels s’appuiera la normalisation.

Représentation de la date et de l’heure (ISO 8601 :2004) : mode de représentation numérique de la date et de l’heure accepté à l’échelon international. Elle pour objet de lever l’ambiguïté d’interprétation lorsque les dates sont exprimées en chiffres : YYYY-MM-DD pour les dates, HH :MM :SS pour les heures, YYYY-MM-DD HH :MM :SS pour la date et l’heure.

Grandeurs et mesures (ISO800001:2009): informations générales à propos des grandeurs, des systèmes de grandeurs, des unités, des symboles de grandeurs et d’unités, et des systèmes cohérents d’unités. La norme s’appuie notamment sur le Système international de grandeurs (ISQ) et sur le Système international d’unités (SI). Elle concerne notamment le poids (µg, mg, g, kg, Mg), la longueur (nm, µm, mm, cm, dm, m, hm, km), a surface (mm2, cm2, dm2, hm2, km2, a28, ha29), la masse (mm3, cm3, dm3, m3), la vitesse (m/s, km/h), le temps (s, m, h) et la température (ex. degrés Celsius = ◦C). La norme précise aussi les conventions de rédaction/d’encodage pour les chiffres : les décimaux sont séparés des unités par une virgule pour répondre aux conventions internationales.

ISO ne standardise pas tout, d’autres normes sont ainsi utilisée pour les :

Standards d’adressage : chaque pays fixant ses règles, l’UPU (Universal Post Union) rassemble les informations relatives à ses membres et propose la norme S42, pour faciliter les échanges en uniformisant les pratiques d’encodage à partir de la nomenclature prénom – NOM – numéro de rue – type de rue – numéro –ville – région – code postal – pays.

Numérotation téléphonique : l’UIT/ITU (Union Internationale des Télécommunications) propose la recommandation E123 an vue d’harmoniser la nomenclature des numérotations téléphoniques. Elle prévoit deux modes de numérotations : national (dix chiffres séparés par des espaces, dont les deux premiers numéros correspondent au code territorial) et international (la numérotation débute par deux chiffres, correspondant à l’indicatif du pays, précédés du sigle « + », le troisième chiffre est celui du code territorial avec la suppression du premier 0 : + 32 2 222 22 22 pour Bruxelles, par exemple).

Format des données numériques : le W3C propose une série de recommandations par exemple sur l’utilisation de données tabulaires (format CSV), sur l’organisation de données dans le métalangage XML, sur l’usage des métadonnées et des linked data (RDF et OWL), sur le vocabulaire contrôlé SKOS (organisation des thésaurus) ou encore sur le langage de requête SPARQL (qui interagit avec le format RDF).


Pour en savoir plus :

Mots-clés: |