Altares France vous invite à son événement

WEBINAR Est-il nécessaire de structurer l'open data ?

À propos de cet événement

Avec le décret n° 2017-638 du 27 avril 2017 de la république numérique ouvrant l’accès aux données publiques, les fournisseurs d’informations sur les entreprises, les nouveaux acteurs digitaux et les grandes entreprises se sont mises à récolter et intégrer la plupart de ces données disponibles pour identifier et prospecter de manière plus efficace certains profils d’entreprises.

Cette profusion de données disponibles apporte une vraie richesse mais nécessite de bien identifier la source et de s’assurer de sa fiabilité avant de pouvoir les exploiter de manière efficace, sans que cela ne devienne un vrai sac de nœuds.

Comme le dit Christian Quest de l’Etalab, « la valeur de la donnée ne se révèle que lorsqu’on les relie entre elles ». Et c’est tout l’enjeu : relier les données de façon cohérente afin d’en tirer le meilleur parti.

Face à la croissance exponentielle de la data, la gouvernance des données apparait de plus en plus comme une nécessité pour les entreprises. Pour mettre en place cette gouvernance, il est important de s’entourer des bonnes compétences et de déployer les processus et la méthodologie adéquats.

OPEN-DATA : UNE MULTITUDE DE SOURCES

L’open-data est un formidable atout et outil pour faire une photographie d’un marché ou d’un acteur dans son environnement. Même sans connaître l’écosystème, on obtient, de suite, une première impression et des pistes qui éveillent l’intérêt. Face à tant de données, trois interrogations essentielles doivent être posées :

  • Les pistes et signes (manifestes) que l’on constate ont-ils un réel potentiel ?
  • Comment vont vivre ces signes dans le temps ?
  • Comment les relativiser et/ou les challenger avec d’autres sources ?

Une expertise plus fine est nécessaire pour mieux appréhender les subtilités des données captées, ainsi que l’évolution de celles-ci.

La photo est donc facile à faire mais la réalisation d’un film devient une gageure, à savoir faire évoluer ces photographies dans le temps, et les comparer avec d’autres sources gratuites disponibles : cela revient à faire un montage vidéo avec une panoplie de caméras radicalement différentes.

LA TOILE DE PÉNÉLOPE OU LA GESTION MULTI-SOURCES DE L’OPEN-DATA

Dès que l’on rattache plusieurs sources open-data, on constate des incohérences d’informations.

D’une part, il faut éviter de croire que l’open-data vertical offre une garantie de couverture et de fraîcheur de données. Non, cela apporte une couverture officielle, une homogénéité dans la collecte (quoique…) et une certaine justesse dans le temps, si les tiers « collectés » ont fait leur devoir : toutes les entreprises n’indiquent pas leur changement d’adresse, encore moins de métiers, de dirigeants et de publications bilantielles. Certains organismes de l’état sont d’ailleurs non identifiés mais vous seriez surpris par le nombre d’établissements ayant pignon sur rue sans leur indispensable siret.

D’autre part, il faut bien prendre en compte la collecte de l’information initiale. La plupart des sources open-data de la république numérique se base en effet sur l’information SIRENE de l’INSEE, mais le plus souvent sur une vue annuelle, et donc pas vraiment à jour.

Dans une gestion multi-sources de référentiel, il est impératif d’appréhender les effets asynchrones et contradictoires d’informations analogues (INSEE vs Bodacc vs Greffe). Ce télescopage d’informations va s’accroitre avec les jeux de données locales issues des métropoles et des grandes villes qui sont désormais soumises à publication depuis octobre 2018. Et le fait que la donnée soit locale ne signifie pas qu’elle soit plus fraîche ou de meilleure qualité. Ces sources locales se basent souvent sur un « extract annuel » de l’INSEE, sur lequel ils ajoutent leurs propres données. Il faut donc bien distinguer quelle est la donnée de souche, et celle de référence, si on ne veut pas effacer une information plus fraîche et rendre ainsi caduque tout le travail de constitution du data-lake.

Au final, c’est en identifiant dans chaque source open-data quelles sont les vraies données enrichies ou spécifiques, que vous pourrez tirer le meilleur parti de votre collecte et vous éviter ainsi de défaire la toile de pénélope en écrasant une donnée à jour par une donnée plus ancienne.

Par ailleurs, dans le domaine de l’information sur les entreprises, ces sources open-data ne sont pas toutes rapprochables au simple siren ou siret (l’identifiant unique de l’entreprise et de son établissement sur le territoire français), il va vous falloir effectuer du rapprochement sémantique et géographique.


Pour en apprendre plus sur ce sujet, inscrivez-vous dès aujourd'hui à notre webinar animé par Frédéric Paresy et Michaël Lisch, deux experts data Altares.

Proposé par

  • Membre de l'équipe
    FP M
    Frédéric Paresy

  • Intervenant externe
    ML I
    Michael Lisch Expert en solutions achats et référentiel tiers chez Altares D&B @ Altares D&B

  • Membre de l'équipe
    M
    Damien Tanguy Altares D&B

Altares France

Notre Data au service de votre business

Altares collecte et harmonise + de 10 milliards de data sur les entreprises pour vous aider à piloter et optimiser les ventes, la gestion du risque, et la conformité.