Lycée   >   Premiere techno   >   Gestion et systèmes d'information   >   Les mégadonnées, les données ouvertes

Les mégadonnées, les données ouvertes

  • Fiche de cours
  • Quiz
  • Profs en ligne
Objectifs
  • Identifier les mégadonnées.
  • Comprendre l’enjeu des mégadonnées.
  • Caractériser une donnée ouverte.
Points clés
  • Les mégadonnées sont des données devenues tellement importantes en terme de volume qu’un être humain ne peut pas les analyser.
  • L’enjeu pour les organisations est donc de posséder des programmes capables de les traiter automatiquement afin d’en tirer profit.
  • Les données ouvertes sont des données qui ne dépendent pas d’un logiciel précis pour être lues et analysées.
Pour bien comprendre

Les données à caractères personnel

1. La notion de mégadonnées
a. Définition des mégadonnées
Les mégadonnées (en anglais big data) sont des données en nombre et en taille trop importants pour être analysées, traitées et exploitées par une activité humaine.

C’est le résultat cumulé de la baisse du cout de stockage des données numériques, du nombre croissant d’enregistrement des données et des besoins de plus en plus fins des organisations.

Exemple
Une journaliste américaine avait demandé à Facebook en 2011 son historique personnel. Inscrite depuis 2007 sur ce réseau social, elle a reçu un fichier PDF de 880 pages !
b. Caractérisation des mégadonnées
La bonne utilisation des mégadonnées est fonction de trois critères nommés les 3V.
Le volume 

Le nombre de données présentes doit pouvoir être stocké par l’organisation qui souhaite en faire usage, et celui-ci est par définition très important dans le cas des mégadonnées.

Exemple
Le catalogue de produits vendus par Amazon comporte 288 millions de références. Chaque référence possède au minimum un code, une désignation, un prix, un taux de TVA, un vendeur, une photo, une description, etc.
Ce sont donc plus d’un milliard de champs à stocker par la plateforme.
La vitesse 

La vitesse de traitement des données est également primordiale car certaines informations ont une durée de vie très limitée. L’enjeu pour les organisations est donc de pouvoir analyser en temps réel certaines données.

Exemple
Les données de navigation d’un internaute sont exploitées en temps réel par les vendeurs en ligne car c’est au moment où l’utilisateur recherche des informations sur une voiture, un vêtement ou un voyage qu’il faut lui proposer d’en acheter sinon le risque est grand de perdre la vente.
La variété 

Les données ne sont pas linéaires et d’une seule forme. Les organisations doivent pouvoir traiter une grande variété de données : historique de navigation, géolocalisation, utilisation RFID lors d’un paiement sans contact, données personnelles, photos, musiques, vidéos, etc.

Exemple
Afin de proposer des choix pertinents à ses utilisateurs, Google mélange les données de géolocalisation de l’utilisateur (les endroits où l’on se rend mais aussi les itinéraires que l’on planifie), ses données personnelles (homme ou femme, l’âge, l’adresse, etc.), son historique de recherche, etc.
c. Sécurisation des mégadonnées

Un enjeu majeur pour les organisations est de sécuriser leurs mégadonnées. Celles-ci sont de plus en plus composées de données à caractère personnel, et sont bien souvent captées sans un consentement explicite de leur propriétaire.

Une fuite de telles données par maladresse ou via un acte de malveillance peut avoir des conséquences judiciaires et publicitaires catastrophiques.

Les organisations ont l’obligation de sécuriser ces données et de signaler à la CNIL toute suspicion de fuite.

Exemple
La CNIL, qui est l’autorité française de protection des données, révèle avoir reçu un total de 742 signalements de fuites de données personnelles entre le 25 mai et le 1er octobre 2018.

Au total, ce sont les données de 33,7 millions de personnes qui ont été compromises par ces différents incidents.

Précisons que les victimes ne sont pas toutes françaises, mais que les organismes qui détenaient les données sont basés en France.
2. La notion de données ouvertes
a. Définition
Les données ouvertes (en anglais open data) sont des données accessibles à tous et qui, par définition, ne nécessitent pas de logiciel précis pour être lues.

C’est le cas par exemple des données en accès libre qui sont au format texte et qui peuvent être lues par tous les éditeurs de textes, ou des données au format PDF par exemple.

Exemple
Un tableau au format Excel n’est pas composé de données ouvertes car il nécessite le tableur de Microsoft pour être lu. L’équivalent en données ouvertes est un fichier au format CSV (fichier texte délimité par des virgules) qui peut être lu par Excel mais également par n’importe quel tableur.
b. Caractéristiques d’une donnée ouverte

Pour qu'une donnée soit complètement « ouverte », elle doit remplir dix conditions.

Elle doit donc être :

  1. complète ;
  2. primaire ;
  3. opportune ;
  4. accessible ;
  5. exploitable ;
  6. non-discriminatoire ;
  7. non-propriétaire ;
  8. libre de droits ;
  9. permanente ;
  10. gratuite.

Ces dix critères permettent ainsi d’évaluer le degré d’ouverture d’une donnée.

Exemples de données ouvertes
Le site data.gouv.fr recense des données gouvernementales françaises dans différents domaines économiques (agriculture, culture, économie, éducation, environnement, etc.).

Comment as-tu trouvé ce cours ?

Évalue ce cours !

 

Question 1/5

La médiane de 6 notes est 13. Cela signifie que :

Question 2/5

On a obtenu la série statistique suivante :

Combien vaut la médiane ?

Question 3/5

On a obtenu la série ci-dessous :

Quelle est la médiane de cette série ?

Question 4/5

On a relevé les tailles en cm des élèves d’une classe :

 

Parmi les propositions suivantes, laquelle est vraie ?

Question 5/5

Les notes en français de deux classes littéraires sont données dans le tableau suivant :

Quelle est la note médiane ?

Vous avez obtenu75%de bonnes réponses !

Recevez l'intégralité des bonnes réponses ainsi que les rappels de cours associés :

Votre adresse e-mail sera exclusivement utilisée pour vous envoyer notre newsletter. Vous pourrez vous désinscrire à tout moment, à travers le lien de désinscription présent dans chaque newsletter. Pour en savoir plus sur la gestion de vos données personnelles et pour exercer vos droits, vous pouvez consulter notre charte.

Une erreur s'est produite, veuillez ré-essayer

Consultez votre boite email, vous y trouverez vos résultats de quiz!

Découvrez le soutien scolaire en ligne avec myMaxicours

Le service propose une plateforme de contenus interactifs, ludiques et variés pour les élèves du CP à la Terminale. Nous proposons des univers adaptés aux tranches d'âge afin de favoriser la concentration, encourager et motiver quel que soit le niveau. Nous souhaitons que chacun se sente bien pour apprendre et progresser en toute sérénité ! 

Fiches de cours les plus recherchées

Gestion et systèmes d'information

La diversité des usages dans le numérique dans l'organisation du travail

Gestion et systèmes d'information

L'impact du numérique sur le partage de l'information d'une organisation

Gestion et systèmes d'information

L'impact du numérique sur l'organisation

Gestion et systèmes d'information

Les tableaux de bord

Gestion et systèmes d'information

La prévention et la gestion des risques externes

Gestion et systèmes d'information

La prévention et la gestion des risques internes

Gestion et systèmes d'information

Les différents types d'organisations

Gestion et systèmes d'information

Les compétences

Gestion et systèmes d'information

L'émotion et la perception

Gestion et systèmes d'information

Le système d'information