친구와 이야기를 하는 도중 데이터 마이닝이란 단어가 나왔다. 문득 "데이터 마이닝이 뭐지?"란 의문이 들어 알아보고자 한다.

 

데이터 마이닝이란 사전적 의미로는 다음과 같다.

 " 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.

다른 말로는 KDD(데이터베이스 속의 지식 발견: Knowledge-discovery in databases)라고도 일컫는다. "

잘 모르겠다면 단어를 따로 따로 떼어서 살펴보자.

 

데이 (Data)   : 우리가 알고있는 그 데이터이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말한다.

마이닝 (Mining) : 채굴, 채광, 채광 산업을 말한다. 채광이란 광산에서 광석을 캐내는것을 의미한다.

즉, 데이터마이닝이란 광산에서 광석을 캐내는 것에 비유한 것으로, 금광석에 극히 미량으로 포함된 금을 여러 단계를 거쳐 추출하듯이 "수 많은 데이터의 산에서 가치있는 유용한 정보를 찾아 내는 것" 이다.

 

그러면, 이런 데이터 마이닝은 왜 필요한 걸까?

 

요즘은 빅데이터의 시대라고 하여 정말 상상도 할수 없을 만큼의 많은 데이터가 만들어 지고 있다. 흔히들 사용하는 SNS중 하나인 Facebxxx만 해도 하루 평균 25억개의 컨텐츠 공유 및 500TB이상의 데이터를 처리한다고 한다. 그야말로 어마어마한 데이터 이다.

이렇게 데이터도 많아져 가며, 기업의 업무 또한 복잡해져 가면서 업무 전문가의 통찰력에도 한계가 오게 되고, 수 많은 데이터 속에서 유용한 지식을 찾아 내는 것을 사람의 손으로 하기엔 이미 너무 벅찬 일이 되었다.

그래서 데이터 마이닝 기술이 탄생하였다.

 

데이터 마이닝 기법은 전적으로 데이터에 기반하여 지식 패턴을 추출하기 때문에 사람이 간과해 버릴 수도 있는 지식 패턴들까지 모두 찾아낼 수 있다. 

데이터 마이닝의 기법으로는 OLAP, 군집 분석, 연결 분석, 사례기반 추론, 연관성 규칙 발견, 인공 신경망, 의사 결정 나무, 유전자 알고리즘 등이 있다.

이 기법들에 대한 자세한 설명은 넘어가도록 하겠다.

 

데이터 마이닝의 절차는 다음과 같다.

 데이터 추출 → 데이터 정제 → 데이터 변경 → 데이터 분석 → 데이터 해석 → 보고서 작성

 

마지막으로 데이터 마이닝의 활용 분야 에 대해 3가지 정도만 알아보고 마치도록 하겠다.

1. 데이터 베이스 마케팅

데이터를 분석해 얻는 사람들이 원하는 정보를 이용하여 마케팅 전략을 구축한다.

그 예로는 목표 마케팅, 고객 세분화, 고객 성향 변동 분석, 교차 판매, 시장 바구니 분석등이 있다.

 

2. 신용 평가

특정인의 신용 상태를 점수화 하는 과정으로서 신용거래 대출 한도를 결정하는 것이 주요 목표이며, 이를 통해 불량 채권과 대손을 추정하여 최소화 한다.

그 적용 분야로는 신용카드, 주택 할부 금융, 소비자 대출, 상업 대출 등이 있다.

 

3. 통계적 품질 관리

불량품을 찾고 그 원인을 밝혀서 궁극적으로 이를 예방하는 것을 목적으로 한다.

그 예로는 의료 보험 조합에서는 불필요한 장기 입원이나, 보험료 과다 청구를 탐지하려 SPC를 사용하며, 제조 업체에서는 불량품 감소를 통한 이윤 증가를 추구하는 것들이 있다.

마무리 하며..

글쓴이는 간단하게 데이터 마이닝이 무엇인지 정리하였지만, 데이터 마이닝에해 더 깊이 알고 싶다면 강좌 또는 논문을 읽어보는 것을 추천한다.

 

 

참고할만한 블로그

(강좌) 데이터마이닝 (Data Mining) 소개

 

Posted by minji7