티스토리

나무늘보의 블로그

검색하기

[Python] Pandas 사용법 - 다양한 함수 사용(데이터 입출력, 대소문자변환, 공백제거, 문자열 접근)

Base/Python

[Python] Pandas 사용법 - 다양한 함수 사용(데이터 입출력, 대소문자변환, 공백제거, 문자열 접근)

나아무늘보 2020. 10. 15. 23:48

# 데이터 입출력

read_csv를 통해 해당 파일을 읽을 수 있다.

sep는 간격을 어떤거로 두냐는 뜻이다.

encoding 은 파일이 구성되어 있는 형식이라고 보면 된다.

#head()

맨앞에 5개의 값을 가져온다.

# tail()

맨뒤에 5개의 값을 가져온다.

# info()

데이터의 전반적인 내용을 보여준다.

예제

# 1. 폐지 여부가 존재인 것들만 데이터 프레임으로 만든다.

# str 를 통한 문자열 접근

. str을 통해 해당하는 부분의 문자열에 접근해 인덱싱을 통해 내가 원하는 식으로 출력할 수 있다.

# 특정 글자로 시작하는 startswith()

# 특정 글자로 끝나는 endswith()

#특정 글자를 포함하는 데이터만 필터링 : str.contains()

# 특정 문자(공백)를 다른 문자(_)로 대체 : str.replace()

# 공백제거(strip, lstrip, rstrip)

strip() - 전체 공백 제거

lstrip() - 왼쪽 공백 제거

rstrip() - 오른쪽 공백 제거

# 대문자 , 소문자 변환 (upper, lower, swapcase)

lower() - 소문자 변환

lower() - 대문자 변환

lower() - 대소문자 변환

실습

# 정렬 : sort_values(by= , ascending=)

# 타입변환 : astype(type)

#rank

rank를 통해 순위를 매겨준다.

rank 줬던 것의 타입을 astype 을통해 바꿔주고 해당 rank를 기존에 있던 sort_df에 새로운 칼럼명으로

값을 넣어준다. 그러면 위에화 같이 count에 따라 순위가 매겨진 걸 볼 수 있다.

#실습

이 상황에서는 합쳐지지 않는다. 배열의 인덱스가 다르기 때문이다.

그래서 m_df의 index를 초기화해준다

그 후 다 시 합치면 정상적으로 합쳐진다.

마지막으로 rank를 통해 순위를 매기고 그것을 새로운 변수에 넣어준다.

저작자표시 비영리 변경금지