데이터 마이닝 분석 프로세스란?
저번 글에서 데이터 마이닝 분석이란?
데이터마이닝(Data mining) 분석이란?
데이터마이닝(Data mining) 분석이란? 저번 글 https://ralp0217.tistory.com/20에 이어 데이터 마이닝 분석이란 무엇인가와 데이터 분석에는 어떤 요소들이 있고 전반적인 흐름에 대해서 이론적인 내용 을
ralp0217.tistory.com
에 대해서 다뤄 보았습니다.
이번 글에서는 데이터 마이닝 개념의 마지막 챕터로 "데이터 마이닝 분석 프로세스"에 대해서 사례와 함께 설명을 드리겠습니다.
*저번 글까지 보면 데이터 마이닝이 무슨 일을 하고 어떻게 데이터를 가지고 유의미한 가치를 만들어 내느냐에 대해서 이해를 하실 수 있었을 텐데, 그 데이터 마이닝 실질적으로 산업 프로세스 과정에서 작업 과정의 순서가 어떻게 되고 과정을 분류한다는 것을 이해하기 위해 설명을 하겠습니다.
전체적인 데이터 마이닝 절차를 보면
1. 문제 정의
-문제가 무엇인가?
-관련 데이터가 있는가?
-무엇을 예측하기를 원하는가?
2. 데이터 수집
-데이터 수집에 문제는 없는가?
-데이터 목적에 부합하는가?
-프라이버시 이슈는 없는가?
3. 데이터 탐색
-데이터 내면을 살펴본다
-데이터 분석에 문제는 없는가?(결측치와 불균형)-> '전처리'라고 생각하면 되는데, 제일 복잡하고 신경써줘야 할 것들이 많아 작업이 오래 걸리고 까다롭습니다.
4.데이터 모델링
-학습 모델의 알고리즘 선정, 예측 모델 학습, 모델 검증 -> 스마트한 인공지능을 만드는 과정이라고 생각하시면 편합니다.
5. 결과 요약 및 배포
-데이터 패턴 가시화
-도메인 지식과 cross checking -> (프로세스을 다시 보고 데이터들이 잘 들어보고 적용이 잘 되었나 확인하는 것)
-legacy 시스템에 배포에 문제가 없는가? -> (legacy시스템이라는 게 최신 기술/시스템은 아니지만 쓰이고 있는 좀 오래되기도 한 시스템들을 말합니다)
-새로운 문제는 없는가?
앞의 5가지 단계가 기본적인 데이터 마이닝 분석 프로세스입니다.
이러한 데이터 마이닝 프로세스 과정들을 자동으로 할 수 있게 만들어진 기술이 바로 AutoML입니다.
AutoML
-소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스
-목표 : Data Scientist가 없는 머신러닝
주요내용은 데이터 획득/ 전처리 -> 모델/하이퍼파라미터 선정 -> 리포팅 자동화 처리.
'AI 기술 정리 > 빅데이터&데이터마이닝' 카테고리의 다른 글
MMDS(mining massive data sets)와 분산 파일 시스템(Distributed File System) (6) | 2020.09.26 |
---|---|
데이터마이닝(Data mining) 분석이란? (14) | 2020.09.14 |
데이터 마이닝의 개념과 활용 사례 (4) | 2020.09.08 |
댓글