디지털 환경에서 생성되는 대량의 데이터(빅데이터)를 활용하여 새로운 가치를 창출하거나 사회적 문제를 해결할 수 있다.
대규모연산 week1 - Big Data Applications
ADsP p.75~
Big Data(빅데이터)는 기존의 데이터 처리 방식이나 도구로는 수집, 저장, 관리 분석하기 어려울 정도로 규모가 매우 크고 복잡한 데이터를 의미한다. 넷플릭스나 유튜브의 추천 시스템, 은행의 이상 거래 탐지, 병원에서의 질병 예측 등 기업과 사회에서 의사결정을 데이터 기반으로 바꾸는 핵심 역할을 한다.
Gartner group(가트너 그룹)에서 빅데이터의 특성을 3V로 정의한 것을 시작으로, 현재는 7V까지 확장되었다.
Volume(규모)은 데이터의 방대한 양을 의미한다. TB(테라바이트), PB(페타바이트), EB(엑사바이트), ZB(제타바이트) 수준의 대용량 데이터가 지속적으로 생성되며, 기존의 하드웨어나 데이터베이스로는 저장 및 처리하는 것이 어렵다. 이를 해결하기 위해 HDFS 등 분산 저장 및 처리 기술의 필요성이 증가하게 되었다.
Variety(다양성)는 데이터의 다양한 유형을 의미한다. 표 형태의 정형 데이터 뿐만 아니라 텍스트, 이미지, 영상, 음성 등의 비정형 데이터와 JSON, XML, 로그 데이터와 같은 반정형 데이터가 포함된다.
Velocity(속도)는 데이터가 매우 빠르게 생성되고 동시에 빠르게 처리되어야 한다는 특성을 의미한다. 스트리밍 데이터, 실시간 거래 데이터, 센서 데이터 등은 실시간으로 생성되며, 이를 즉시 분석하여 빠른 의사결정을 내릴 필요성이 증가하였다. 이에 따라 Streaming Processing(실시간 처리)의 중요성이 강조되고 있다.
Veracity(신뢰성)는 데이터의 신뢰성과 품질을 의미한다. 실제 데이터에는 노이즈, 결측치, 중복, 오류, 편향 등의 문제가 존재하며, 이러한 문제는 분석 결과의 정확성을 저하시킬 수 있다. 따라서 Data Cleaning(데이터 정제) 및 Data Quality Management(데이터 품질 관리)가 매우 중요하다.