Les mégadonnées, les données ouvertes - Maxicours

Les mégadonnées, les données ouvertes

Objectifs
  • Identifier les mégadonnées.
  • Comprendre l’enjeu des mégadonnées.
  • Caractériser une donnée ouverte.
Points clés
  • Les mégadonnées sont des données devenues tellement importantes en terme de volume qu’un être humain ne peut pas les analyser.
  • L’enjeu pour les organisations est donc de posséder des programmes capables de les traiter automatiquement afin d’en tirer profit.
  • Les données ouvertes sont des données qui ne dépendent pas d’un logiciel précis pour être lues et analysées.
Pour bien comprendre

Les données à caractères personnel

1. La notion de mégadonnées
a. Définition des mégadonnées
Les mégadonnées (en anglais big data) sont des données en nombre et en taille trop importants pour être analysées, traitées et exploitées par une activité humaine.

C’est le résultat cumulé de la baisse du cout de stockage des données numériques, du nombre croissant d’enregistrement des données et des besoins de plus en plus fins des organisations.

Exemple
Une journaliste américaine avait demandé à Facebook en 2011 son historique personnel. Inscrite depuis 2007 sur ce réseau social, elle a reçu un fichier PDF de 880 pages !
b. Caractérisation des mégadonnées
La bonne utilisation des mégadonnées est fonction de trois critères nommés les 3V.
Le volume 

Le nombre de données présentes doit pouvoir être stocké par l’organisation qui souhaite en faire usage, et celui-ci est par définition très important dans le cas des mégadonnées.

Exemple
Le catalogue de produits vendus par Amazon comporte 288 millions de références. Chaque référence possède au minimum un code, une désignation, un prix, un taux de TVA, un vendeur, une photo, une description, etc.
Ce sont donc plus d’un milliard de champs à stocker par la plateforme.
La vitesse 

La vitesse de traitement des données est également primordiale car certaines informations ont une durée de vie très limitée. L’enjeu pour les organisations est donc de pouvoir analyser en temps réel certaines données.

Exemple
Les données de navigation d’un internaute sont exploitées en temps réel par les vendeurs en ligne car c’est au moment où l’utilisateur recherche des informations sur une voiture, un vêtement ou un voyage qu’il faut lui proposer d’en acheter sinon le risque est grand de perdre la vente.
La variété 

Les données ne sont pas linéaires et d’une seule forme. Les organisations doivent pouvoir traiter une grande variété de données : historique de navigation, géolocalisation, utilisation RFID lors d’un paiement sans contact, données personnelles, photos, musiques, vidéos, etc.

Exemple
Afin de proposer des choix pertinents à ses utilisateurs, Google mélange les données de géolocalisation de l’utilisateur (les endroits où l’on se rend mais aussi les itinéraires que l’on planifie), ses données personnelles (homme ou femme, l’âge, l’adresse, etc.), son historique de recherche, etc.
c. Sécurisation des mégadonnées

Un enjeu majeur pour les organisations est de sécuriser leurs mégadonnées. Celles-ci sont de plus en plus composées de données à caractère personnel, et sont bien souvent captées sans un consentement explicite de leur propriétaire.

Une fuite de telles données par maladresse ou via un acte de malveillance peut avoir des conséquences judiciaires et publicitaires catastrophiques.

Les organisations ont l’obligation de sécuriser ces données et de signaler à la CNIL toute suspicion de fuite.

Exemple
La CNIL, qui est l’autorité française de protection des données, révèle avoir reçu un total de 742 signalements de fuites de données personnelles entre le 25 mai et le 1er octobre 2018.

Au total, ce sont les données de 33,7 millions de personnes qui ont été compromises par ces différents incidents.

Précisons que les victimes ne sont pas toutes françaises, mais que les organismes qui détenaient les données sont basés en France.
2. La notion de données ouvertes
a. Définition
Les données ouvertes (en anglais open data) sont des données accessibles à tous et qui, par définition, ne nécessitent pas de logiciel précis pour être lues.

C’est le cas par exemple des données en accès libre qui sont au format texte et qui peuvent être lues par tous les éditeurs de textes, ou des données au format PDF par exemple.

Exemple
Un tableau au format Excel n’est pas composé de données ouvertes car il nécessite le tableur de Microsoft pour être lu. L’équivalent en données ouvertes est un fichier au format CSV (fichier texte délimité par des virgules) qui peut être lu par Excel mais également par n’importe quel tableur.
b. Caractéristiques d’une donnée ouverte

Pour qu'une donnée soit complètement « ouverte », elle doit remplir dix conditions.

Elle doit donc être :

  1. complète ;
  2. primaire ;
  3. opportune ;
  4. accessible ;
  5. exploitable ;
  6. non-discriminatoire ;
  7. non-propriétaire ;
  8. libre de droits ;
  9. permanente ;
  10. gratuite.

Ces dix critères permettent ainsi d’évaluer le degré d’ouverture d’une donnée.

Exemples de données ouvertes
Le site data.gouv.fr recense des données gouvernementales françaises dans différents domaines économiques (agriculture, culture, économie, éducation, environnement, etc.).

Vous avez déjà mis une note à ce cours.

Découvrez les autres cours offerts par Maxicours !

Découvrez Maxicours

Comment as-tu trouvé ce cours ?

Évalue ce cours !

 

quote blanc icon

Découvrez Maxicours

Exerce toi en t’abonnant

Fiches de cours les plus recherchées

Gestion et systèmes d'information

L'impact du numérique sur l'organisation

Gestion et systèmes d'information

Les tableaux de bord

Gestion et systèmes d'information

La prévention et la gestion des risques externes

Gestion et systèmes d'information

La prévention et la gestion des risques internes

Gestion et systèmes d'information

Les différents types d'organisations

Gestion et systèmes d'information

Les compétences

Gestion et systèmes d'information

L'émotion et la perception

Gestion et systèmes d'information

Le système d'information

Découvrir le reste du programme

Des profs en ligne

  • 6j/7 de 17 h à 20 h
  • Par chat, audio, vidéo
  • Sur les matières principales

Des ressources riches

  • Fiches, vidéos de cours
  • Exercices & corrigés
  • Modules de révisions Bac et Brevet

Des outils ludiques

  • Coach virtuel
  • Quiz interactifs
  • Planning de révision

Des tableaux de bord

  • Suivi de la progression
  • Score d’assiduité
  • Un compte Parent