Celui qui trouve sans chercher est celui qui a longtemps cherché sans trouver. (Bachelard)
La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information. (Einstein)
07/07/2018, 16h37
#2
Membre actif
Supprimer les doublons
Bonjour fred1599,
Ton script a pour objectif de supprimer les doublons contenu dans un fichier. Je l'ai testé avec des mots et des phrases. Le contenu du fichier source s'affiche à l'écran, le script ne modifie pas le texte original. Ou visualise-t-on le résultat? Discussions similaires
Réponses: 47
Dernier message: 25/07/2012, 08h19
Réponses: 2
Dernier message: 11/07/2007, 09h34
Réponses: 16
Dernier message: 26/01/2006, 20h07
Réponses: 3
Dernier message: 07/10/2003, 14h13
× Vous avez un bloqueur de publicités installé. Le Club n'affiche que des publicités IT, discrètes et non intrusives. Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité,
merci de nous soutenir en désactivant votre bloqueur de publicités sur
- Supprimer les doublons python example
- Supprimer les doublons python en
- Supprimer les doublons dataframe python
Supprimer Les Doublons Python Example
Une question? Pas de panique, on va vous aider! Il y a environ 23 heures
Bonjour,
J'ai un code fonctionnel qui me retourne une liste des catastrophes naturelles pour un insee donné par l'utilisateur. Dans la liste des catastrophes naturelles retournée, certaines s'affichent plusieurs fois (exemple avec insee = 75056 qui retourne 10 fois "Inondations et/ou Coulées de Boue"). Pourriez-vous m'aider à supprimer les doublons svp? J'ai déjà essayé avec set () mais ce n'est pas adapté au type de réponse que me retourne le code. Ci-joint le code utilisé.
Supprimer Les Doublons Python En
Si True, modifiez l'appelant DataFrame. ignore_index Booléen. Si True, les index de la DataFrame originale sont ignorés. La valeur par défaut est False, ce qui signifie que les index sont utilisés. Renvoie Si inplace est True, un DataFrame supprimant toutes les lignes en double du DataFrame; sinon None. Exemples de codes: Supprimer les lignes en double en utilisant Pandas t_index() Méthode import pandas as pd
fruit_list = [ ('Orange', 34, 'Yes', 'ABC'),
('Mango', 24, 'No', 'XYZ'),
('banana', 14, 'No', 'BCD'),
('Orange', 34, 'Yes', 'ABC')]
df = Frame(fruit_list,
columns = ['Name',
'Price',
'In_Stock',
'Supplier'])
print("DataFrame:")
print(df)
df_unique=df. drop_duplicates()
print("DataFrame with Unique Rows:")
print(df_unique)
Production: DataFrame:
Name Price In_Stock Supplier
0 Orange 34 Yes ABC
1 Mango 24 No XYZ
2 banana 14 No BCD
3 Orange 34 Yes ABC
DataFrame with Unique Rows:
Le DataFrame original a la 1ère et la 4ème ligne identiques. Vous pouvez supprimer toutes les lignes dupliquées du DataFrame en utilisant la méthode drop_duplicates().
Supprimer Les Doublons Dataframe Python
Ou tu veux supprimer des fichiers en double dans ton système de fichiers? 12 janvier 2014 à 17:24:38
Les doublons dans le fichier. Excusez moi si je me suis mal exprimé. Mon fichier est organisé de cette sorte:
DIM qqch
DIM uneaurechose
DIM qqch <- a supprimer. - Edité par Vaslyn 12 janvier 2014 à 17:25:54
12 janvier 2014 à 17:57:36
Dans ce cas là, rien de plus simple.
sort_values ( by = 'B', ascending = False)
df = df. drop_duplicates ( subset = 'A', keep = "first")
sans aucun groupby
Je pense que dans votre cas, vous n'avez pas vraiment besoin d'un groupby. Je trierais par ordre décroissant votre colonne B, puis déposerais les doublons dans la colonne A et si vous le souhaitez, vous pouvez également avoir un nouvel index agréable et propre comme celui-ci:
df. sort_index (). reset_index ( drop = True)
Voici une variante que j'ai dû résoudre et qui mérite d'être partagée: pour chaque chaîne unique dans, columnA je voulais trouver la chaîne associée la plus courante dans columnB. oupby('columnA')({'columnB': lambda x: ()()}). reset_index()
Il en () choisit un s'il y a égalité pour le mode. (Notez que l'utilisation () sur une série de int s renvoie un booléen plutôt que d'en choisir un. ) Pour la question d'origine, l'approche correspondante se simplifie en
oupby('columnA'). ('max'). reset_index(). Lorsque des messages déjà donnés répondent à la question, j'ai fait un petit changement en ajoutant le nom de la colonne sur laquelle la fonction max () est appliquée pour une meilleure lisibilité du code.
Peut-on afficher un message d'erreur si le nom spécifié est incorrect? Là ca me met une erreur et ca ferme directement (ce qui est normal ^^). J'avais pensé a la structure
try:
#Code
except IOError:
print ('Le fichier n\'existe pas')
Mais est elle la meilleure pour ce genre de choses? Et quel code mettre après le try:? Merci,
EDIT:
Ceci ne marche pas:/
filename = input("Nom du script: ")
print ('\n\nLes lignes en doublons ont correctement été enlevées. ') input ('Appuyez sur Entrée pour terminer')
input ('')
Quand je le fais en mode "live", j'ai une série de chiffres qui s'affichent:
60
11
51... Mais le fichier est correctement modifié...
- Edité par Vaslyn 15 janvier 2014 à 13:45:31
15 janvier 2014 à 14:23:21
L'exception IOError sert bien à relever ce genre d'erreur. Par contre, vu que l'erreur pourrait être autre chose qu'un fichier inexistant, tu devrais directement afficher sa représentation pour être sûr. except IOError as err:
print(err)
La fonction (... ) retourne le nombre de bytes écrites.