Pandas는 구조화된 데이터를 효율적으로 다룰 수 있는 대표적인 라이브러리로, 데이터 분석과 데이터 사이언스 분야의 필수 도구이다.
10 minutes to pandas — pandas 3.0.0 documentation
Pandas는 파이썬 프로그래밍 언어를 기반으로 한 빠르고 강력하며 유연하며 사용하기 쉬운 오픈 소스 데이터 분석 및 조작 도구이다.
import pandas as pd
Series는 인덱스를 가진 배열 형태의 1차원 데이터 구조이다. pd.Series(data=None, index=None, dtype=None, name=None, copy=None)
sr = pd.Series([10, 20, 30, 55, 100],
index=["a", "b", "c", "d", "e"],
name="score")
sr
# a 10
# b 20
# c 30
# d 55
# e 100
# Name: score, dtype: int64
sr.index
sr.get("c")
s.name
s.rename("new_score")
DataFrame은 행과 열로 구성된 2차원 데이터 구조이다. pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
data = {"a": [10, 14, 15],
"b": [20, 21, 18],
"c": [30, 29, 31],
"d": [55, 50, 60],
"e": [100, 92, 96]
}
df = pd.DataFrame(data)
# a b c d e
# 0 10 20 30 55 100
# 1 14 21 29 50 92
# 2 15 18 31 60 96
inplace는 DataFrame 원본을 해당 함수 또는 메서드의 결과에 따라 변경하는 옵션이다.
True: 변경False: 변경하지 않음axis는 행 또는 열을 지정하는 옵션이다.
0 or "index": 인덱스1 or "columns": 열 이름df = pd.DataFrame({
"height": [158, 177, 163, 170, 165, 180, 155, 172, 168, 175],
"weight": [45, 70, 65, 60, 55, 78, 48, 68, 58, 72],
"blood_type": ["A", "O", "B", "AB", "A", "O", "B", "A", "AB", "O"]
})
데이터 미리보기: DataFrame.head(n=5) or DataFrame.tail(n=5)
df.head()
# height weight blood_type
# 0 158 45 A
# 1 177 70 O
# 2 163 65 B
# 3 170 60 AB
# 4 165 55 A
df.tail()
# height weight blood_type
# 5 180 78 O
# 6 155 48 B
# 7 172 68 A
# 8 168 58 AB
# 9 175 72 O