Overview

Pandas는 구조화된 데이터를 효율적으로 다룰 수 있는 대표적인 라이브러리로, 데이터 분석과 데이터 사이언스 분야의 필수 도구이다.

10 minutes to pandas — pandas 3.0.0 documentation

Pandas

Pandas는 파이썬 프로그래밍 언어를 기반으로 한 빠르고 강력하며 유연하며 사용하기 쉬운 오픈 소스 데이터 분석 및 조작 도구이다.

import pandas as pd

Series

Series는 인덱스를 가진 배열 형태의 1차원 데이터 구조이다. pd.Series(data=None, index=None, dtype=None, name=None, copy=None)

sr = pd.Series([10, 20, 30, 55, 100],
               index=["a", "b", "c", "d", "e"],
               name="score")
sr
# a     10
# b     20
# c     30
# d     55
# e    100
# Name: score, dtype: int64

Series Method (-)

sr.index
sr.get("c")
s.name
s.rename("new_score")

DataFrame

DataFrame은 행과 열로 구성된 2차원 데이터 구조이다. pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

data = {"a": [10, 14, 15],
        "b": [20, 21, 18],
        "c": [30, 29, 31],
        "d": [55, 50, 60],
        "e": [100, 92, 96]
        }
df = pd.DataFrame(data)
#     a   b   c   d    e
# 0  10  20  30  55  100
# 1  14  21  29  50   92
# 2  15  18  31  60   96

Basic

df = pd.DataFrame({
        "height": [158, 177, 163, 170, 165, 180, 155, 172, 168, 175],
        "weight": [45, 70, 65, 60, 55, 78, 48, 68, 58, 72],
        "blood_type": ["A", "O", "B", "AB", "A", "O", "B", "A", "AB", "O"]
        })

Data 어쩌구