Comment mettre à jour des lignes et des colonnes à l'aide de Python Pandas

De Get Docs
Aller à :navigation, rechercher

Voyons comment mettre à jour des lignes et des colonnes à l'aide de pandas Python. Dans le monde réel, la plupart du temps, nous n'obtenons pas d'ensembles de données prêts à être analysés. Il peut y avoir de nombreuses incohérences, des valeurs non valides, des étiquettes incorrectes et bien plus encore. Cela dit, c'est au mésentère de mettre à jour ces valeurs pour parvenir à l'uniformité des données. Dans ce didacticiel, nous nous concentrerons sur la manière de mettre à jour les lignes et les colonnes en python à l'aide de pandas. Sans passer beaucoup de temps sur l'intro, passons à l'action !.



1. Créer une trame de données Pandas

Dans tout ce didacticiel, nous utiliserons une trame de données que nous allons créer maintenant. Cela vous donnera une idée des opérations de mise à jour sur les données. Après cela, vous pouvez appliquer ces méthodes à vos données.

Pour créer une dataframe, pandas propose des noms de fonctions pd.DataFrame, qui vous aide à créer une trame de données à partir de certaines données. Voyons voir comment ça fonctionne.

#create a dictionary 

import pandas as pd

fruit_data = {"Fruit": ['Apple','Avacado','Banana','Strawberry','Grape'],"Color": ['Red','Green','Yellow','Pink','Green'],
"Price": [45, 90, 60, 37, 49]
}

fruit_data

Ici, nous avons créé un dictionnaire python contenant des valeurs de données. Maintenant, on nous a demandé de transformer ce dictionnaire en une base de données pandas.

#Dataframe 

data = pd.DataFrame(fruit_data)
data

C'est parfait!. En utilisant le pd.DataFrame fonction par pandas, vous pouvez facilement transformer un dictionnaire en une base de données pandas. Notre ensemble de données est maintenant prêt à effectuer de futures opérations.

Plus de lecture : Comment changer l'ordre des colonnes à l'aide de Pandas



2. Mise à jour des colonnes

Parfois, la colonne ou les noms des fonctionnalités seront incohérents. Cela peut être avec le cas de l'alphabet et plus encore. Avoir une conception uniforme nous aide à travailler efficacement avec les fonctionnalités.

Ainsi, dans un premier temps, nous verrons comment nous pouvons mettre à jour/modifier les noms de colonnes ou de fonctionnalités dans nos données.

#update the column name

data.rename(columns = {'Fruit':'Fruit Name'})

C'est ça. Aussi simple que montré ci-dessus. Vous pouvez même mettre à jour plusieurs noms de colonne en même temps. Pour cela, vous devez ajouter d'autres noms de colonne séparés par une virgule sous les accolades.

#multile column update

data.rename(columns = {'Fruit':'Fruit Name','Colour':'Color','Price':'Cost'})

De la même manière, vous pouvez mettre à jour toutes vos colonnes en même temps.



3. Mettre à jour la casse des noms de colonne

Vous avez peut-être rencontré des incohérences dans le cas des noms de colonne lorsque vous travaillez avec des ensembles de données comportant de nombreuses colonnes.

Dans nos données, vous pouvez observer que tous les noms de colonnes ont leur première lettre en majuscule. Il est toujours conseillé d'avoir une casse commune pour tous vos noms de colonne.

Eh bien, vous pouvez soit les convertir en majuscules ou en minuscules.

#lower case

data.columns.str.lower()
data

Maintenant, toutes nos colonnes sont en minuscules.



4. Mise à jour des valeurs de ligne

Comme la mise à jour des colonnes, la mise à jour de la valeur des lignes est également très simple. Vous devez d'abord localiser la valeur de la ligne, puis mettre à jour cette ligne avec de nouvelles valeurs.

Vous pouvez utiliser les pandas loc fonction pour localiser les lignes.

#updating rows

data.loc[3]
Fruit    Strawberry
Color          Pink
Price            37
Name: 3, dtype: object

Nous avons localisé la ligne numéro 3, qui contient les détails du fruit, la fraise. Maintenant, nous devons mettre à jour cette ligne avec un nouveau fruit nommé Ananas et ses détails.

Roulons !

#update

data.loc[3] = ['PineApple','Yellow','48']
data

C'est ça. J'espère que vous aussi trouverez cela facile pour mettre à jour les valeurs des lignes dans les données. Supposons maintenant que vous n'ayez besoin de mettre à jour que quelques détails dans la ligne et non l'intégralité. Alors, quelle est votre approche à ce sujet ?

#update specific values

data.loc[3, ['Price']]
Price    48
Name: 3, dtype: object

nous devons mettre à jour uniquement le prix du fruit situé au 3e rang. Nous apprenons que le prix actuel de ce fruit est de 48. Mais, nous devons le mettre à jour à 65. Faisons cela.

#updating 

data.loc[3, ['Price']] = [65]
data

Génial :P

Nous avons mis à jour le prix du fruit Ananas à 65 avec une seule ligne de code python. C'est comme ça que ça marche. Simple.



5. Mettre à jour les lignes et les colonnes en fonction de la condition

Oui, nous allons maintenant mettre à jour les valeurs des lignes en fonction de certaines conditions. Enfin, nous voulons des valeurs significatives qui devraient être utiles pour notre analyse.

Définissons notre condition.

#Condition

updated = data['Price'] > 60
updated

Ce que nous allons faire ici, c'est mettre à jour le prix des fruits qui coûtent plus de 60 comme Cher.

0    False
1     True
2    False
3     True
4    False
Name: Price, dtype: bool

Sur la base de la sortie, nous avons 2 fruits dont le prix est supérieur à 60. Citons ces fruits comme chers dans les données.

#Updating

data.loc[updated, 'Price'] = 'Expensive'
data

Croyez-moi, vous êtes génial :).

Vous l'avez fait d'une manière incroyable et avec perfection. Dans tout ce tutoriel, je n'ai jamais utilisé plus de 2 lignes de code. La meilleure suggestion que je puisse faire est d'essayer d'apprendre les pandas autant que possible. C'est une bibliothèque tellement robuste, qui offre de nombreuses fonctions qui ne sont qu'une seule ligne, mais capables de faire le travail de manière épique.



Conclusion - Mettre à jour les lignes et les colonnes

La mise à jour des lignes et des colonnes dans les données est une chose primordiale sur laquelle nous devons nous concentrer avant toute analyse. Avec des fonctions et un code simples, nous pouvons rendre les données beaucoup plus significatives et dans ce processus, nous aurons certainement un aperçu de la qualité des données et de toute autre exigence également. Si nos données sont correctes, croyez-moi, vous pouvez découvrir de nombreuses histoires précieuses inédites.

J'espère que vous trouverez ce tutoriel utile d'une manière ou d'une autre et n'oubliez pas de mettre en œuvre ces pratiques dans votre travail d'analyse.

C'est tout pour le moment. Heureux Python !!!

Plus de lecture : Cadre de données Pandas