[Python pandas] 데이터프레임(dataframe)에서 중복 데이터 확인하기

728x90

라이브러리 및 데이터 불러오기

# 라이브러리
import pandas as pd

# 데이터
mock_data = pd.read_csv('MOCK_DATA.csv')

# 데이터에 중복 데이터 하나 더 추가하기(여기서는 id 값이 중복되는 것으로 투입)
mock_data.loc[1001] = [1000,'558-13-3915', 'Hong Gildong', 'Stainson','astainsonrr@t-online.de','Female', 
                           '168.198.40.197', 'Jinxiang', 'China', 'Mercury', 'Villager']

# 1001번에 추가시켜줬으니 tail로 확인
mock_data.tail(5)
  id ssn first_name last_name email gender ip_address city country car_make car_model
996 997 220-14-4524 Clywd Kilduff ckilduffro@trellian.com Male 44.213.94.141 Iúna Brazil Suzuki Verona
997 998 796-12-2336 Leann Flaxman NaN Female 143.113.203.86 Picoto Portugal Mercedes-Benz CLK-Class
998 999 292-06-1002 Ilario Hallt ihalltrq@google.nl Male NaN Ouanaminthe Haiti Chevrolet Monte Carlo
999 1000 558-13-3915 Ange Stainson astainsonrr@t-online.de Female 168.198.40.197 Jinxiang China Mercury Villager
1001 1000 558-13-3915 Hong Gildong Stainson astainsonrr@t-online.de Female 168.198.40.197 Jinxiang China Mercury Villager
중복값 찾기 - id 칼럼을 기준으로 중복값을 출력하게 됨
duplicateRowsDF = mock_data[mock_data['id'].duplicated()]
duplicateRowsDF
  id ssn first_name last_name email gender ip_address city country car_make car_model
1001 1000 558-13-3915 Hong Gildong Stainson astainsonrr@t-online.de Female 168.198.40.197 Jinxiang China Mercury Villager

 

728x90