Base/Python
[Python] Pandas 사용법 - 다양한 함수 사용(데이터 입출력, 대소문자변환, 공백제거, 문자열 접근)
나아무늘보
2020. 10. 15. 23:48
반응형
# 데이터 입출력
read_csv를 통해 해당 파일을 읽을 수 있다.
sep는 간격을 어떤거로 두냐는 뜻이다.
encoding 은 파일이 구성되어 있는 형식이라고 보면 된다.
#head()
맨앞에 5개의 값을 가져온다.
# tail()
맨뒤에 5개의 값을 가져온다.
# info()
데이터의 전반적인 내용을 보여준다.
예제
# 1. 폐지 여부가 존재인 것들만 데이터 프레임으로 만든다.
# str 를 통한 문자열 접근
. str을 통해 해당하는 부분의 문자열에 접근해 인덱싱을 통해 내가 원하는 식으로 출력할 수 있다.
# 특정 글자로 시작하는 startswith()
# 특정 글자로 끝나는 endswith()
#특정 글자를 포함하는 데이터만 필터링 : str.contains()
# 특정 문자(공백)를 다른 문자(_)로 대체 : str.replace()
# 공백제거(strip, lstrip, rstrip)
strip() - 전체 공백 제거
lstrip() - 왼쪽 공백 제거
rstrip() - 오른쪽 공백 제거
# 대문자 , 소문자 변환 (upper, lower, swapcase)
lower() - 소문자 변환
lower() - 대문자 변환
lower() - 대소문자 변환
실습
# 정렬 : sort_values(by= , ascending=)
# 타입변환 : astype(type)
#rank
rank를 통해 순위를 매겨준다.
rank 줬던 것의 타입을 astype 을통해 바꿔주고 해당 rank를 기존에 있던 sort_df에 새로운 칼럼명으로
값을 넣어준다. 그러면 위에화 같이 count에 따라 순위가 매겨진 걸 볼 수 있다.
#실습
이 상황에서는 합쳐지지 않는다. 배열의 인덱스가 다르기 때문이다.
그래서 m_df의 index를 초기화해준다
그 후 다 시 합치면 정상적으로 합쳐진다.
마지막으로 rank를 통해 순위를 매기고 그것을 새로운 변수에 넣어준다.
반응형