본문 바로가기
AI_Student/빅데이터&데이터마이닝

데이터 마이닝 분석 프로세스란?

by AndrewL 2020. 9. 22.

데이터 마이닝 분석 프로세스란?

 

저번 글에서 데이터 마이닝 분석이란?

 

데이터마이닝(Data mining) 분석이란?

데이터마이닝(Data mining) 분석이란? 저번 글 https://ralp0217.tistory.com/20에 이어 데이터 마이닝 분석이란 무엇인가와 데이터 분석에는 어떤 요소들이 있고 전반적인 흐름에 대해서 이론적인 내용 을

ralp0217.tistory.com

에 대해서 다뤄 보았습니다.

 

이번 글에서는 데이터 마이닝 개념의 마지막 챕터로 "데이터 마이닝 분석 프로세스"에 대해서 사례와 함께 설명을 드리겠습니다. 

 

*저번 글까지 보면 데이터 마이닝이 무슨 일을 하고 어떻게 데이터를 가지고 유의미한 가치를 만들어 내느냐에 대해서 이해를 하실 수 있었을 텐데, 그 데이터 마이닝 실질적으로 산업 프로세스 과정에서 작업 과정의 순서가 어떻게 되고 과정을 분류한다는 것을 이해하기 위해 설명을 하겠습니다.


전체적인 데이터 마이닝 절차를 보면

 

1. 문제 정의

-문제가 무엇인가?

-관련 데이터가 있는가?

-무엇을 예측하기를 원하는가?

 


 

2. 데이터 수집

 

-데이터 수집에 문제는 없는가?

-데이터 목적에 부합하는가?

-프라이버시 이슈는 없는가?

 


 

3. 데이터 탐색

 

-데이터 내면을 살펴본다

-데이터 분석에 문제는 없는가?(결측치와 불균형)-> '전처리'라고 생각하면 되는데, 제일 복잡하고 신경써줘야 할 것들이 많아 작업이 오래 걸리고 까다롭습니다.

 


 

4.데이터 모델링

-학습 모델의 알고리즘 선정, 예측 모델 학습, 모델 검증 -> 스마트한 인공지능을 만드는 과정이라고 생각하시면 편합니다.

 


5. 결과 요약 및 배포

-데이터 패턴 가시화

-도메인 지식과 cross checking -> (프로세스을 다시 보고 데이터들이 잘 들어보고 적용이 잘 되었나 확인하는 것)

-legacy 시스템에 배포에 문제가 없는가? -> (legacy시스템이라는 게 최신 기술/시스템은 아니지만 쓰이고 있는 좀 오래되기도 한 시스템들을 말합니다)

-새로운 문제는 없는가?


앞의 5가지 단계가 기본적인 데이터 마이닝 분석 프로세스입니다.

이러한 데이터 마이닝 프로세스 과정들을 자동으로 할 수 있게 만들어진 기술이 바로 AutoML입니다.

 

AutoML

-소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스

-목표 : Data Scientist가 없는 머신러닝

주요내용은 데이터 획득/ 전처리 -> 모델/하이퍼파라미터 선정 -> 리포팅 자동화 처리.

 

 

 

 

 

댓글