반응형
pandas를 사용하기 위해 기본적인 걸 import 해준다.
이건 변수의 상태를 보기 위해 간단하게 만들어줬다.
#생성
pd.Series( [data] , index=[])
그리고 간단하게 series을 만들었다.
이 명령어를 통해 series를 만든다.
# 수정
series['컬럼'] = value
series['index'] = value
# 라벨링 인덱싱
이런식으로 라벨링 인덱스로도 가능하다
# 배열 인덱싱
이렇게 배열 인덱싱으로 지정하고 새로 정정해주는 것이 가능하다.
# 추가
series['기존에 없던 컬럼'] = value
데이터를 추가하기 위해서는 위와 같이 없던 값을 정의해주면 데이터가 추가된다.
#삭제
del series['인덱스']
삭제하기 위해서는 del을 써서 해당 인덱스를 지정해준다.
# NULL
series[인덱스] = np.NaN
이러한 데이터프레임이 있을 때
Null 값을 넣기위해서는 Numpy의 NaN을 사용하는 게 좋다.
#데이터 프레임 연산
value = series + series
이런 식으로 연산이 가능하나 같은 인덱스를 가진 것들끼리 연산이 된다.
index 값이 같지 않은 것들에 대해서는 NaN 값이 들어간다.
만약 값이 다 나오게끔 하고 싶다면
이런 식으로 add를 넣어서 ser01에 ser02를 추가하는 식으로 한다.
# - 결측값을 채워 넣는 함수 fillna()
series = series.fillna(value)
해당 데이터프레임에 fillna()를 넣고 값을 넣는다. 여기서는 0으로 대체한다고 지정해준다.
만약 평균으로 하고싶다면 해당 데이터 프레임의 mean을 한다.
# 결측치 제거
series[pd.nutnull(series)]
이렇게 값이 있었을 때 이 boolean을 boolean index로 이용해서 결측치를 제거할 수 있다.
반응형
'Base > Python' 카테고리의 다른 글
[Python] Pandas 사용법 - 다양한 함수 사용(데이터 입출력, 대소문자변환, 공백제거, 문자열 접근) (0) | 2020.10.15 |
---|---|
[Python] Pandas 사용법 - DataFrame 생성, 추가 , 수정, 삭제, indexing (0) | 2020.10.15 |
[Python] Pandas의 이론과 기초적인 사용법 (0) | 2020.10.14 |
[Python] Numpy를 통한 난수생성, 카운팅, 통계함수 사용법 (0) | 2020.10.13 |
[Python] Numpy를 통한 정렬하기 (0) | 2020.10.13 |