如何用Python資料進行去重? 只需要一行程式碼解決!

今天同事發給我一張20w+資料的表格，中間包含了許多的重複資料，如果用office去重的話，提示只支援刪除1w+個重複資料，用蘋果自帶的libreoffice就會出現卡頓的情況，面對如此的龐大的資料，只需要一行程式碼解決：

1、匯入資料

首先我們透過pandas將資料匯入進來：

import pandas as pd

df=pd。read_excel（‘分類詞。xlsx’）

這大約20萬資料長這樣：

2、去重資料：

透過drop函式將資料進行去重：

df。drop_duplicates

簡單介紹一下這個函式的用法：

1）如果我們要對完全重複的行進行去重，直接輸入以下程式碼就可以了，預設會保留第一次出現的資料，將後面重複的資料刪除：

data。drop_duplicates

2）如果我們要去重某幾列重複的行資料：

data。drop_duplicates（subset=［‘A’，‘B’］，keep=‘first’，inplace=True）

subset：列名，可選，預設為None

keep： {‘first’， ‘last’， False}，預設值 ‘first’

first：保留第一次出現的重複行，刪除後面的重複行。

last：刪除重複項，除了最後一次出現。

False：刪除所有重複項。

3、匯出資料：

我們透過to_excel將去重後的資料匯出：

df。to_excel（‘分類詞去重。xlsx’）

好了，今天的內容就先到這裡了，明天見！

相關文章