Lycée   >   Seconde   >   SNT   >   Le traitement des données structurées

Le traitement des données structurées

  • Fiche de cours
  • Quiz
  • Profs en ligne
Objectifs
  • Utiliser un site de données ouvertes.
  • Savoir récupérer des données.
  • Savoir traiter des données via le tableur et via Python.
Points clés
  • Traiter des données permet de donner du sens et d’extraire des informations qui répondent à un besoin.
  • Les données ouvertes sont des données d’origine publique ou privée, diffusées de manière structurée selon une méthode et une licence libre, ce qui garantit leur libre accès et leur réutilisation par toutes et tous, sans restriction technique, juridique ou financière.
  • Le traitement des données s’effectue en réalisant une opération ou un ensemble d’opérations (tri, filtrage, calcul, visualisation, etc.)
Pour bien comprendre

Les données sont souvent disponibles au format CSV.

1. Généralités

Il est primordial d’organiser les données afin de les structurer. Cette étape d’organisation est le point de départ des différents traitements que l’on va effectuer sur ces données, afin d’extraire des informations et de donner du sens à des données brutes.

Le traitement des données consiste à effectuer sur les données structurées des actions ou des combinaisons d’actions afin d’obtenir un ou plusieurs résultats (des informations) correspondant à un besoin précis.

Ces actions peuvent être de nature complexe, il s’agit cependant dans dans la majorité des cas d’actions élémentaires comme l’affichage, la recherche, le tri et le filtrage.

Dans cette fiche, on illustre ces actions à partir des données issues de l’Institut National de la Statistique et des Études Économiques (INSEE), et notamment à partir des données issues du recensement de la population française en vigueur au 1er janvier 2019.


Extrait du fichier contenant ces données
2. L'affichage des données

La première action qu’il est souvent utile de réaliser sur des données est de visualiser ces données de manière à les interpréter plus facilement.

Exemple
Notre besoin est de savoir quel est le département le plus peuplé.

De façon classique, on visualise les données par les graphiques simples déjà vus au collège en mathématiques : histogrammes et diagrammes circulaires.

On utilise pour cela le tableur avec l’outil « insertion de graphique ».

Exemple

Histogramme représentant
la population des départements français
On voit clairement que le département le plus peuplé est le département du Nord.
3. Trier des données
Le tri dans une table consiste à modifier l’ordre des données pour qu’elles soient présentées dans un ordre croissant ou décroissant selon le choix d’un ou plusieurs critères.
Exemple
Notre besoin est de trier ces données par région, et au sein de ces régions de trier les département par ordre alphabétique.

De base, nos données sont classées par le code département (colonne C).

Pour répondre à notre besoin, toujours avec le tableur, on sélectionne toutes les données (sauf la ligne 1 qui correspond au nom des colonnes) et on effectue un tri avec 2 niveaux, le premier critère étant le tri par région (colonne B) et le second par le département (colonne D).

Paramétrage du tri sous le tableur Excel

Extrait du fichier contenant les données triées
4. Filtrer des données
Le filtrage dans une table consiste à sélectionner des données contenant une information particulière afin de n’afficher que ces données-là.
Exemple
Notre besoin est d’avoir uniquement les données relatives à la région Provence-Alpes-Côte d’Azur.
Dans le tableur, on sélectionne toutes les données, y compris la ligne 1, et on effectue un filtre (commande « Filtrer »).

Cela a pour effet de faire apparaitre une petite flèche sur la première ligne, à côté des noms de colonnes, ce qui permet d’accéder aux différentes valeurs de la colonne.
Dans notre cas, on sélectionne dans la colonne B la région « Provence-Alpes-Côte d’Azur ».

Paramétrage du filtre sous le tableur Excel

Fichier contenant les données filtrées
5. Réaliser des calculs à partir des données

À partir des données existantes, on peut calculer d’autres données.

Exemple
Notre besoin est d’avoir la densité de population départementale.

Dans notre cas, la densité de population se calcule à partir de la population et de la superficie avec la formule : densité de population = population ÷ superficie

Il suffit alors :
  1. de créer une colonne supplémentaire dans le tableur, que l’on appelle « Densité de population » dans la cellule J1 ;
  2. d’écrire la formule dans la cellule J2 : « =H2/I2 » ;
  3. et d’étirer cette formule sur toute la colonne.

Extrait du fichier contenant la colonne supplémentaire obtenue par calcul

On peut programmer le traitement, notamment en Python :

  • pour réaliser une analyse de données spécifique ;
  • pour traiter un fichier contenant un nombre de lignes de données très important ;
  • ou encore pour éviter de refaire les manipulations avec le tableur.
Exemple
Le script Python suivant permet de lire le fichier CSV ligne par ligne et de calculer la population totale.

Exemple de calcul de la population française à partir du fichier CSV de données

Comment as-tu trouvé ce cours ?

Évalue ce cours !

 

Question 1/5

La médiane de 6 notes est 13. Cela signifie que :

Question 2/5

On a obtenu la série statistique suivante :

Combien vaut la médiane ?

Question 3/5

On a obtenu la série ci-dessous :

Quelle est la médiane de cette série ?

Question 4/5

On a relevé les tailles en cm des élèves d’une classe :

 

Parmi les propositions suivantes, laquelle est vraie ?

Question 5/5

Les notes en français de deux classes littéraires sont données dans le tableau suivant :

Quelle est la note médiane ?

Vous avez obtenu75%de bonnes réponses !

Recevez l'intégralité des bonnes réponses ainsi que les rappels de cours associés :

Votre adresse e-mail sera exclusivement utilisée pour vous envoyer notre newsletter. Vous pourrez vous désinscrire à tout moment, à travers le lien de désinscription présent dans chaque newsletter. Pour en savoir plus sur la gestion de vos données personnelles et pour exercer vos droits, vous pouvez consulter notre charte.

Une erreur s'est produite, veuillez ré-essayer

Consultez votre boite email, vous y trouverez vos résultats de quiz!

Découvrez le soutien scolaire en ligne avec myMaxicours

Le service propose une plateforme de contenus interactifs, ludiques et variés pour les élèves du CP à la Terminale. Nous proposons des univers adaptés aux tranches d'âge afin de favoriser la concentration, encourager et motiver quel que soit le niveau. Nous souhaitons que chacun se sente bien pour apprendre et progresser en toute sérénité ! 

Fiches de cours les plus recherchées

SNT

La sauvegarde des données

SNT

Le big data et le cloud

SNT

Le principe de géolocalisation

SNT

Cartographie et couches d'information d'une carte numérique

SNT

Les coordonnées géographiques et standard NMEA

SNT

Carte routable et calcul d'un itinéraire

SNT

La confidentialité de la localisation

SNT

Capteurs et actionneurs

SNT

Les interfaces homme-machine

SNT

La conception d'une IHM