Rechercher et supprimer des doublons d'un fichier CSV
- Fiche de cours
- Quiz
- Profs en ligne
- Videos
- Application mobile
Rechercher et supprimer des éléments d’un tableau, en particulier les doublons.
Les tableurs permettent de repérer les valeurs identiques des cellules, mais on utilise Python pour repérer et supprimer les lignes doublons d’un fichier CSV imposant.
- L’indexation d’un tableau
- L’utilisation de la bibliothèque CSV de Python pour lire un fichier CSV
- L’utilisation de if … not in …
La recherche de cellules doublons dans un tableur se fait aisément, il faut juste appliquer les étapes suivantes.
- Sélectionner l’ensemble des valeurs du tableau.
- Dans « Accueil », choisir « Mise en forme conditionnelle ».
- Choisir « Règles de mise en surbrillance des cellules ».
- Choisir « Valeurs en double ».
Mise en surbrillance des doublons sous Excel
C’est très efficace pour les fichiers CSV qui comportent un nombre de lignes pas trop grand.
Pour supprimer les lignes doublons avec Python, on utilise la bibliothèque CSV et on ouvre le fichier CSV.
Les lignes de code suivantes permettent d’obtenir un tableau.
« donnee » est un itérable, c’est-à-dire qu’il s’agit d’un objet dont on peut parcourir les valeurs.
Pour rechercher des doublons et les supprimer, il va donc falloir parcourir l’ensemble des lignes de ce tableau et les stocker dans une table vide tant qu’elles sont uniques.
table[] | Création de la variable table |
for elem in donnee: | Parcours des lignes du tableau |
if elem not in table: table.append(elem) |
Si la ligne n’est pas déjà
présente, on l’ajoute à la table |
print(table) | On affiche la table sans aucun doublon |
Vous avez obtenu75%de bonnes réponses !