Base/Python

[Python] Pandas 사용법 - series 에 대한 추가 , 수정, 삭제, 연산, 결측치

반응형

 

 

pandas를 사용하기 위해 기본적인 걸 import 해준다.

 

이건 변수의 상태를 보기 위해 간단하게 만들어줬다.

 

 

#생성

pd.Series( [data] , index=[])

 

그리고 간단하게 series을 만들었다. 

이 명령어를 통해 series를 만든다.

 


# 수정

series['컬럼'] = value

series['index'] = value

 

# 라벨링 인덱싱

이런식으로 라벨링 인덱스로도 가능하다

 

# 배열 인덱싱

이렇게 배열 인덱싱으로 지정하고 새로 정정해주는 것이 가능하다.

 


# 추가

series['기존에 없던 컬럼'] = value 

 

데이터를 추가하기 위해서는 위와 같이 없던 값을 정의해주면 데이터가 추가된다.

 


#삭제

del series['인덱스']

 

 

삭제하기 위해서는 del을 써서 해당 인덱스를 지정해준다.

 

 


# NULL

series[인덱스] = np.NaN

 

이러한 데이터프레임이 있을 때 

 

Null 값을 넣기위해서는 Numpy의 NaN을 사용하는 게 좋다.

 


 

#데이터 프레임 연산

value = series + series

 

이런 식으로 연산이 가능하나 같은 인덱스를 가진 것들끼리 연산이 된다.

index 값이 같지 않은 것들에 대해서는 NaN 값이 들어간다.

만약 값이 다 나오게끔 하고 싶다면 

 

이런 식으로 add를 넣어서 ser01에 ser02를 추가하는 식으로 한다.

 


 

# - 결측값을 채워 넣는 함수 fillna()

 

series = series.fillna(value)

 

해당 데이터프레임에 fillna()를 넣고 값을 넣는다. 여기서는 0으로 대체한다고 지정해준다. 

 

만약 평균으로 하고싶다면 해당 데이터 프레임의 mean을 한다.

 


 

# 결측치 제거

 

series[pd.nutnull(series)]

이렇게 값이 있었을 때 이 boolean을 boolean index로 이용해서 결측치를 제거할 수 있다.

 

 

반응형