Overview (-)
데이터는 객관적 사실을 내포하는 값이며, 데이터를 통해 추론, 예측, 전망, 추정을 수행할 수 있다.
현대통계학 p.2
Data
Data(자료)는 관찰, 측정, 수집을 통해 얻은 사실 또는 값들의 집합이다. 데이터는 가공되지 않은 상태이며, 분석과 처리 과정을 통해 정보와 지식으로 발전할 수 있다.
Types of Data
데이터는 구조, 형태, 목적 등 다양한 기준으로 분류할 수 있다.
Structure
- Structured Data(정형 데이터)는 정해진 형식(스키마)에 따라 행과 열로 저장된 데이터이다.
- tabular(표 형태) 데이터
- 스프레드시트, 관계형 데이터베이스, 데이터 웨어하우스 등에 저장
- Unstructured Data(비정형 데이터)는 정해진 형식이 없거나 구성 방식이 일정하지 않은 데이터이다.
- 텍스트, 이미지, 영상 데이터 등
- 데이터 레이크, HDFS 등에 저장
- Semi-structured Data(반정형 데이터)는 완전한 표 형태는 아니지만, 태그나 계층 구조 등으로 규칙성이나 구조 정보를 가진 데이터이다.
- JSON, XML, 로그 데이터 등
- 파일 형태, NoSQL DB 등에 저장
Nature of Values
- Qualitative Data(정성적 데이터)는 수치로 표기하기 어려운 데이터이다.
- Ordinal Data(순서형 데이터): 순서가 존재하는 값
- Nominal Data(명목형 데이터): 순서가 없는 값
- Quantitative Data(정량적 데이터)는 수치로 표현할 수 있는 데이터이다.
- Discrete Data(이산형 데이터): 셀 수 있는 정수 값
- Continuous Data(연속형 데이터): 셀 수 없는 실수 값
DIKW Pyramid
DIKW Pyramid는 Data, Information, Knowledge, Wisdom로 이어지는 계층적 과정을 설명하는 피라미드 모델이다.
- Data(데이터): 객관적인 사실이나 수치, 문자 등 가공되지 않은 원시적인 데이터
- Information(정보): 데이터를 처리하고 해석하여 의미를 부여한 것
- Knowledge(지식): 정보를 이해하고 해석하여 문제 해결에 활용할 수 있는 상태
- Wisdom(지혜): 지식을 바탕으로 올바른 판단을 내리고 미래의 행동을 이끄는 통찰(insight)