Pandas

Overview

Pandas는 구조화된 데이터를 효율적으로 다룰 수 있는 대표적인 라이브러리로, 데이터 분석과 데이터 사이언스 분야의 필수 도구이다.

pd.date_range()
fillna
dropna
append?
set_index
reset_index

Pandas는 파이썬 프로그래밍 언어를 기반으로 한 빠르고 강력하며 유연하며 사용하기 쉬운 오픈 소스 데이터 분석 및 조작 도구이다.

import pandas as pd

Series

Series는 인덱스를 가진 배열 형태의 1차원 데이터 구조이다. pd.Series(data=None, index=None, dtype=None, name=None, copy=None)

sr = pd.Series([10, 20, 30, 55, 100],
               index=["a", "b", "c", "d", "e"],
               name="score")
sr
# a     10
# b     20
# c     30
# d     55
# e    100
# Name: score, dtype: int64

다양한 선언 방법

DataFrame

DataFrame은 행과 열로 구성된 2차원 데이터 구조이다. pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

data = {"a": [10, 14, 15],
        "b": [20, 21, 18],
        "c": [30, 29, 31],
        "d": [55, 50, 60],
        "e": [100, 92, 96]
        }
df = pd.DataFrame(data)
#     a   b   c   d    e
# 0  10  20  30  55  100
# 1  14  21  29  50   92
# 2  15  18  31  60   96

주요 옵션
- inplace는 DataFrame 원본을 해당 함수 또는 메서드의 결과에 따라 변경하는 옵션이다.
  - True: 변경
  - False: 변경하지 않음
- axis는 행 또는 열을 지정하는 옵션이다.
  - 0 or "index": 인덱스
  - 1 or "columns": 열 이름

Basic

df = pd.DataFrame({
        "height": [158, 177, 163, 170, 165, 180, 155, 172, 168, 175],
        "weight": [45, 70, 65, 60, 55, 78, 48, 68, 58, 72],
        "blood": ["A", "O", "B", "AB", "A", "O", "B", "A", "AB", "O"]
        })

Viewing Data

데이터 미리보기: DataFrame.head(n=5) or DataFrame.tail(n=5)

df.head()
#    height  weight blood
# 0     158      45     A
# 1     177      70     O
# 2     163      65     B
# 3     170      60    AB
# 4     165      55     A

df.tail()
#    height  weight blood
# 5     180      78     O
# 6     155      48     B
# 7     172      68     A
# 8     168      58    AB
# 9     175      72     O

데이터 차원 확인: DataFrame.shape
- (행, 열)
```
df.shape
# (10, 3)
```
원소 개수 확인: DataFrame.size
```
df.size
# 40
```