[Python pandas] 데이터프레임(dataframe)에서 중복 데이터 확인하기

728x90

라이브러리 및 데이터 불러오기

# 라이브러리
import pandas as pd

# 데이터
mock_data = pd.read_csv('MOCK_DATA.csv')

# 데이터에 중복 데이터 하나 더 추가하기(여기서는 id 값이 중복되는 것으로 투입)
mock_data.loc[1001] = [1000,'558-13-3915', 'Hong Gildong', 'Stainson','astainsonrr@t-online.de','Female', 
                           '168.198.40.197', 'Jinxiang', 'China', 'Mercury', 'Villager']

# 1001번에 추가시켜줬으니 tail로 확인
mock_data.tail(5)

	id	ssn	first_name	last_name	email	gender	ip_address	city	country	car_make	car_model
996	997	220-14-4524	Clywd	Kilduff	ckilduffro@trellian.com	Male	44.213.94.141	Iúna	Brazil	Suzuki	Verona
997	998	796-12-2336	Leann	Flaxman	NaN	Female	143.113.203.86	Picoto	Portugal	Mercedes-Benz	CLK-Class
998	999	292-06-1002	Ilario	Hallt	ihalltrq@google.nl	Male	NaN	Ouanaminthe	Haiti	Chevrolet	Monte Carlo
999	1000	558-13-3915	Ange	Stainson	astainsonrr@t-online.de	Female	168.198.40.197	Jinxiang	China	Mercury	Villager
1001	1000	558-13-3915	Hong Gildong	Stainson	astainsonrr@t-online.de	Female	168.198.40.197	Jinxiang	China	Mercury	Villager

중복값 찾기 - id 칼럼을 기준으로 중복값을 출력하게 됨

duplicateRowsDF = mock_data[mock_data['id'].duplicated()]
duplicateRowsDF

	id	ssn	first_name	last_name	email	gender	ip_address	city	country	car_make	car_model
1001	1000	558-13-3915	Hong Gildong	Stainson	astainsonrr@t-online.de	Female	168.198.40.197	Jinxiang	China	Mercury	Villager

728x90

저작자표시 비영리 (새창열림)

'DATA' 카테고리의 다른 글

[Python pandas] 데이터프레임(dataframe)에서 null 값만 찾아내기 (0)	2019.10.08
[Python pandas] 리스트의 값을 기반으로 순열 조합 만들기 (0)	2019.10.06
[Python pandas] ONE HOT ENCODING 수행 예제 (0)	2019.10.06
[Python pandas] 데이터프레임(dataframe)에서 특정 칼럼을 제외한 칼럼만 선택하기 (0)	2019.10.06
[Python pandas] 데이터프레임(dataframe)에서 데이터타입(dtype)에 부합하는 칼럼만 가져오기 (0)	2019.10.06
Python 데이터 분석 #2 : CSV 데이터 불러오기 (0)	2019.01.03

라이브러리 및 데이터 불러오기

중복값 찾기 - id 칼럼을 기준으로 중복값을 출력하게 됨

'DATA' 카테고리의 다른 글

티스토리툴바