Le traitement des données structurées
- Fiche de cours
- Quiz
- Profs en ligne
- Videos
- Application mobile
- Utiliser un site de données ouvertes.
- Savoir récupérer des données.
- Savoir traiter des données via le tableur et via Python.
- Traiter des données permet de donner du sens et d’extraire des informations qui répondent à un besoin.
- Les données ouvertes sont des données d’origine publique ou privée, diffusées de manière structurée selon une méthode et une licence libre, ce qui garantit leur libre accès et leur réutilisation par toutes et tous, sans restriction technique, juridique ou financière.
- Le traitement des données s’effectue en réalisant une opération ou un ensemble d’opérations (tri, filtrage, calcul, visualisation, etc.)
Les données sont souvent disponibles au format CSV.
Il est primordial d’organiser les données afin de les structurer. Cette étape d’organisation est le point de départ des différents traitements que l’on va effectuer sur ces données, afin d’extraire des informations et de donner du sens à des données brutes.
Ces actions peuvent être de nature complexe, il s’agit cependant dans dans la majorité des cas d’actions élémentaires comme l’affichage, la recherche, le tri et le filtrage.
Dans cette fiche, on illustre ces actions à partir des données issues de l’Institut National de la Statistique et des Études Économiques (INSEE), et notamment à partir des données issues du recensement de la population française en vigueur au 1er janvier 2019.
Extrait du fichier contenant ces données
La première action qu’il est souvent utile de réaliser sur des données est de visualiser ces données de manière à les interpréter plus facilement.
Notre besoin est de savoir quel est le département le plus peuplé.
De façon classique, on visualise les données par les graphiques simples déjà vus au collège en mathématiques : histogrammes et diagrammes circulaires.
On utilise pour cela le tableur avec l’outil « insertion de graphique ».
Histogramme représentant
la population des départements français
Notre besoin est de trier ces données par région, et au sein de ces régions de trier les département par ordre alphabétique.
De base, nos données sont classées par le code département (colonne C).
Pour répondre à notre besoin, toujours avec le tableur, on sélectionne toutes les données (sauf la ligne 1 qui correspond au nom des colonnes) et on effectue un tri avec 2 niveaux, le premier critère étant le tri par région (colonne B) et le second par le département (colonne D).
Paramétrage du tri sous le tableur Excel
Extrait du fichier contenant les données triées
Notre besoin est d’avoir uniquement les données relatives à la région Provence-Alpes-Côte d’Azur.
Dans le tableur, on sélectionne toutes les données, y compris la ligne 1, et on effectue un filtre (commande « Filtrer »).
Cela a pour effet de faire apparaitre une petite flèche sur la première ligne, à côté des noms de colonnes, ce qui permet d’accéder aux différentes valeurs de la colonne.
Dans notre cas, on sélectionne dans la colonne B la région « Provence-Alpes-Côte d’Azur ».
Paramétrage du filtre sous le tableur Excel
Fichier contenant les données filtrées
À partir des données existantes, on peut calculer d’autres données.
Notre besoin est d’avoir la densité de population départementale.
Dans notre cas, la densité de population se calcule à partir de la population et de la superficie avec la formule : densité de population = population ÷ superficie
Il suffit alors :
- de créer une colonne supplémentaire dans le tableur, que l’on appelle « Densité de population » dans la cellule J1 ;
- d’écrire la formule dans la cellule J2 : « =H2/I2 » ;
- et d’étirer cette formule sur toute la colonne.
Extrait du fichier contenant la colonne supplémentaire obtenue par calcul
On peut programmer le traitement, notamment en Python :
- pour réaliser une analyse de données spécifique ;
- pour traiter un fichier contenant un nombre de lignes de données très important ;
- ou encore pour éviter de refaire les manipulations avec le tableur.
Le script Python suivant permet de lire le fichier CSV ligne par ligne et de calculer la population totale.
Exemple de calcul de la population française à partir du fichier CSV de données
Vous avez obtenu75%de bonnes réponses !