Overview
대규모연산 w1 - Data Mining Applications, ADsP 책 384~
데이터마이닝의 개념
- 패턴 인식(Pattern Recognition): 데이터 내의 특정 규칙이나 패턴을 식별한다.
- 데이터 분류(Data Classification): 주어진 데이터셋을 사전 정의된 클래스나 그룹으로 분류한다.
- 클러스터링(Clustering): 비슷한 특성을 가진 데이터들을 그룹화한다.
- 연관 규칙 발견(Association Rule Mining): 데이터 내에서 항목 간의 상관관계를 찾는다.
- 이상 탐지(Anomaly Detection): 일반적인 패턴과 다르게 나타나는 이상값을 식별한다.
- 회귀 분석(Regression Analysis): 변수들 간의 관계를 모델링하여 연속적인 값을 예측한다.
데이터마이닝의 과정
- 데이터 수집(Data Collection): 데이터베이스, 데이터 웨어하우스, 인터넷 등에서 데이터를 수집한다.
- 데이터 전처리(Data Preprocessing):
- 데이터 정제(Cleansing): 결측치 처리, 중복 제거, 오류 수정 등을 통해 데이터를 정제한다.
- 데이터 변환(Transformation): 데이터 정규화, 차원 축소 등을 통해 분석에 적합하게 변환한다.
- 데이터 탐색(Data Exploration): 기초 통계와 시각화 도구를 사용하여 데이터의 분포와 특성을 파악한다.
- 모델링(Modeling): 다양한 데이터마이닝 알고리즘을 적용하여 모델을 구축한다.
- 기계 학습 알고리즘(Machine Learning Algorithms): 지도학습, 비지도학습, 강화학습 알고리즘 등이 포함한다.
- 모델 평가(Model Evaluation): 교차 검증, 혼동 행렬 등의 방법을 통해 모델의 성능을 평가한다.
- 지식 표현(Knowledge Representation): 분석 결과를 이해하기 쉬운 형태로 표현합니다. 예를 들어, 보고서, 대시보드, 시각화 등을 사용한다.
- 의사 결정 지원(Decision Support): 발견된 지식을 실제 비즈니스 문제 해결이나 전략적 의사결정에 활용합니다.