Base/Python

[Python] Pandas의 이론과 기초적인 사용법

반응형

# Pandas


컴퓨터 프로그래밍에서 pandas는 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리입니다. 특히 숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공합니다. 

 

- 분석할려는 데이터는 대부분 시계열(Series) 이거나 표(table) 형태로 정의해야 한다.

- 1차원의 Series 클래스와 2차원의 DataFrame 클래스를 제공한다.

 

 

import pandas as pd - 기본 import 하는 방법이다.

 

#Series 생성

 value = pd.Series([data])

 

 

#Series와 numpy array를 비교

array는 여러 타입의 값들이 들어갈 수 있지만

 

의 형태고 Series를 만들 수 있다. dtype는 Series의 타입을 지정해준다.

Series는 같은 타입의 값들이 들어가야 된다.

 

 

간단하게 여러 형태로 값을 보기 위해 간단한 함수를 만들었다.

 

series를 만들고 , index=[인덱스 값]을 통해서 해당 series의 인덱스를 부여할 수 있다.

 

이런 식으로 arrange를 이용해서 인덱스를 만들 수 있다.

 

인덱스를 한글로도 가능하다.

 

dtype을 바꿔 줄 수도 있다.

 

또한 이렇게 series.index.name = 이름 series. s의 index 자체의 이름을 지어줄 수 있다.

 

 

 

series를 연산자를 통해 연산할 수 있다.

 

 

 

#series indexing

 

 

# series slicing

 

 

# series in

 

 

 

# dictonary를 통한 Series

 

 

 

# Fancy indexing , boolean indexing

 

 

아래에 있는 index가 먼저이다. 이때 이름이 안 맞으면 아래 index에 만 있는 값은 Nan이 되어 나온다.

 

 


 

 

# 예제)

 

 

 

 

 

이런 식으로 계산할 수도 있다.

 

 

 

 

반응형