728x90
라이브러리 및 데이터 불러오기
# 라이브러리
import pandas as pd
# 데이터
mock_data = pd.read_csv('MOCK_DATA.csv')
# 데이터에 중복 데이터 하나 더 추가하기(여기서는 id 값이 중복되는 것으로 투입)
mock_data.loc[1001] = [1000,'558-13-3915', 'Hong Gildong', 'Stainson','astainsonrr@t-online.de','Female',
'168.198.40.197', 'Jinxiang', 'China', 'Mercury', 'Villager']
# 1001번에 추가시켜줬으니 tail로 확인
mock_data.tail(5)
id | ssn | first_name | last_name | gender | ip_address | city | country | car_make | car_model | ||
---|---|---|---|---|---|---|---|---|---|---|---|
996 | 997 | 220-14-4524 | Clywd | Kilduff | ckilduffro@trellian.com | Male | 44.213.94.141 | Iúna | Brazil | Suzuki | Verona |
997 | 998 | 796-12-2336 | Leann | Flaxman | NaN | Female | 143.113.203.86 | Picoto | Portugal | Mercedes-Benz | CLK-Class |
998 | 999 | 292-06-1002 | Ilario | Hallt | ihalltrq@google.nl | Male | NaN | Ouanaminthe | Haiti | Chevrolet | Monte Carlo |
999 | 1000 | 558-13-3915 | Ange | Stainson | astainsonrr@t-online.de | Female | 168.198.40.197 | Jinxiang | China | Mercury | Villager |
1001 | 1000 | 558-13-3915 | Hong Gildong | Stainson | astainsonrr@t-online.de | Female | 168.198.40.197 | Jinxiang | China | Mercury | Villager |
중복값 찾기 - id 칼럼을 기준으로 중복값을 출력하게 됨
duplicateRowsDF = mock_data[mock_data['id'].duplicated()]
duplicateRowsDF
id | ssn | first_name | last_name | gender | ip_address | city | country | car_make | car_model | ||
---|---|---|---|---|---|---|---|---|---|---|---|
1001 | 1000 | 558-13-3915 | Hong Gildong | Stainson | astainsonrr@t-online.de | Female | 168.198.40.197 | Jinxiang | China | Mercury | Villager |
728x90
'DATA' 카테고리의 다른 글
[Python pandas] 데이터프레임(dataframe)에서 null 값만 찾아내기 (0) | 2019.10.08 |
---|---|
[Python pandas] 리스트의 값을 기반으로 순열 조합 만들기 (0) | 2019.10.06 |
[Python pandas] ONE HOT ENCODING 수행 예제 (0) | 2019.10.06 |
[Python pandas] 데이터프레임(dataframe)에서 특정 칼럼을 제외한 칼럼만 선택하기 (0) | 2019.10.06 |
[Python pandas] 데이터프레임(dataframe)에서 데이터타입(dtype)에 부합하는 칼럼만 가져오기 (0) | 2019.10.06 |
Python 데이터 분석 #2 : CSV 데이터 불러오기 (0) | 2019.01.03 |