每天資訊如何用Python資料進行去重? 只需要一行程式碼解決!

菜單

如何用Python資料進行去重? 只需要一行程式碼解決!

今天同事發給我一張20w+資料的表格,中間包含了許多的重複資料,如果用office去重的話,提示只支援刪除1w+個重複資料,用蘋果自帶的libreoffice就會出現卡頓的情況,面對如此的龐大的資料,只需要一行程式碼解決:

1、匯入資料

首先我們透過pandas將資料匯入進來:

import pandas as pd

df=pd。read_excel(‘分類詞。xlsx’)

這大約20萬資料長這樣:

如何用Python資料進行去重? 只需要一行程式碼解決!

2、去重資料:

透過drop函式將資料進行去重:

df。drop_duplicates

簡單介紹一下這個函式的用法:

1)如果我們要對完全重複的行進行去重,直接輸入以下程式碼就可以了,預設會保留第一次出現的資料,將後面重複的資料刪除:

data。drop_duplicates

2)如果我們要去重某幾列重複的行資料:

data。drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

subset: 列名,可選,預設為None

keep: {‘first’, ‘last’, False}, 預設值 ‘first’

first: 保留第一次出現的重複行,刪除後面的重複行。

last: 刪除重複項,除了最後一次出現。

False: 刪除所有重複項。

3、匯出資料:

我們透過to_excel將去重後的資料匯出:

df。to_excel(‘分類詞去重。xlsx’)

好了,今天的內容就先到這裡了,明天見!