본문 바로가기
AI_Student/빅데이터&데이터마이닝

데이터 마이닝의 개념과 활용 사례

by AndrewL 2020. 9. 8.

데이터 마이닝이란 무엇일까를 쉽게 설명해 보는 시간을 가지려 합니다.

이 글을 끝까지 보시면 데이터 마이닝의 개념에 대해서 확실히 알고, 왜 필요한 기술하고 방법 알 수 있을 겁니다.

추가적으로 어떤식으로 산업에서 활용되고 있는지 사례들을 살펴보겠습니다.

 

데이터 마이닝(Data mining)의 개념

먼저 데이터 마이닝의 사전적 의미를 보면 데이터를 마이닝한다? 마이닝이란 광산에서 채굴하는 작업을 말합니다.

데이터를 채굴한다는 표현은 즉, 광산에서 정말 유용한 광석을 채굴하는 작업과 같이 데이터로 쌓여있는 산에서 정말 유용한(필요한) 데이터를 추출해낸다라는 개념으로 이해하시면 됩니다.

 

그러면 왜 데이터 마이닝이 필요하냐고 하면, 데이터 마이닝의 등장배경을 살펴봐야 합니다.

 

모든 영역에서 데이터들이 엄청난 쌓여가고 있습니다.

대표적으로 비지니스(웹, 온라인 회의 등)에서 데이터 자원을 사용하고, 과학 분야(센서, 의학), 소셜 네트워크(sns,facebook, instagram 등)에서 매 분마다 막대한 양의 데이터가 쌓여가고 있습니다.

 

빅데이터 예시)

10m 길이 책꽂이 = 1GB라고 한다면 

미국 의회 도서관 = 1.5TB

2010년 웹 자원 = 1.2ZB

2020년 웹 자원 = 35ZB라고 합니다. 즉, 10년에 35배 가까이 데이터의 양이 폭발적으로 증가한 점을 알 수 있습니다.

빅 데이터 규모,유형, 특성

 

왜 빅데이터인가? 많을 수록 뭐가 좋냐?

1. 데이터가 많을수록 배워서 써먹을 것이 많습니다. 즉, 활용도가 다양합니다.

2. 데이터가 많을수록 학습 성능이 좋습니다(정확도 성능). 쉽게 말하면 많은 데이터에 간단한 알고리즘을 적용하는 것이 적은 데이터에 복잡한 알고리즘을 적용하는 것보다 우수하다는 말입니다.

3. 데이터가 많을수록 다양한 도구들이 많이 나옵니다. 옛날에는 정형데이터(데이터베이스, 사무정보)보다 최근에는 비정형데이터(이메일, 멀티미디어, sns) 같은 다양한 유형의 데이터가 혼용되서 나오므로 그에 맞는 Tool들을 쉽게 사용할 수 있습니다.

 

'데이터가 좋지 않으면 어떠한 알고리즘을 적용하더라도 좋지 않은 결과를 나타낸다'라는 말이 있습니다.

즉, 최고의 성능의 모델을 만드려면 데이터의 질(quality)도 좋아야하고 양(quantity)도 많아야 한다는 말입니다.

 

빅데이터의 주요 요소5V라고 합니다.(3V에서 2V가 추가됨)

-Variety(다양성)

-Velocity(속도)

-Volume(부피)

-Veracity(신뢰성, 정확도)

-Value(가치)

 


여기까지 이해를 하셨다면 약간의 개념에 대해서 헷갈릴 수 있습니다.

데이터 마이닝? 머신러닝? 인공지능?에 대해서 개념이 약간씩 비슷한데, 머신러닝의 한 기술이 데이터 마이닝입니다.

->데이터 마이닝

그러면, 데이터 마이닝의 정의는 "데이터로 부터 지식이나 패턴을 찾아내는 일련의 과정"입니다. 예를 들면 기저귀를 많이 사는 아버지들이 맥주를 많이 산다, 이것은 데이터에 의한 일종의 패턴이고 이를 활용해 비지니스 시스템으로 만들면 데이터마이닝을 한 것으로 이해하면 됩니다. 데이터로부터 의미를 발견해 내는 것(데이터 마이닝)과 달리 인공지능은 그 데이터 의미로 부터 액션(컨트롤)을 취하는 것이 인공지능입니다.

->인공지능

 

비슷하게 혼동되는 개념이 있을 수 있습니다.

바로 인공지능, 머신러닝, 딥러닝인데 간단히 설명하면

*인공지능 : 인간 인지능력과 지능의 단면을 모방한 시스템 추론 능력을 구현한 것

*머신러닝 : 주어진 데이터에 패턴을 탐지하고 지식을 추출하여 미래상황을 더 정확하게 예측할 수 있도록 알고리즘 및 모델을 개발하는 것.

*딥러닝 : 수 많은 머신러닝 알고리즘 중 하나(신경망 neural network기반)

라고 구분할 수 있고, 더 자세한 차이 설명은 아래의 링크를 들어가시면 확인하실 수 있습니다.

딥러닝(Deep learning) 이란?

 

딥러닝(Deep Learning) 이란?

인공지능을 공부하며 딥러닝의 개념에 대해서 정확한 이해를 위해 다시 한 번 정리해보는 시간을 가져보려 한다. 최근 들어 인공지능이라는 말과 머신러닝, 딥러닝이라는 말은 거의 같은 의미��

ralp0217.tistory.com


데이터 마이닝의 활용사례

기존 비지니스의 혁신
문제: 세관 통관 각종 불법 행위 적발 어려움
-세관 통관 속임수 적발하는 알고리즘 개발(불법 확률 예측 + 예상 세수 예측)
->40배 이상 세관사기 적발, 통관 세수 확대

COVID-19 진단 혁신을 위한 영상 AI 기술 개발
문제 : 코로나 검사 비용 및 검사 시간 문제(CT기반->양성, 음성 판정이 오래걸림)
효과 : 96%정확도, 감염 여부 확인 20초 혁신

인공지능 기반 미디어 품질 개선 솔루션
문제: 영상 음원의 화질 개선을 위한 처리속도-> 5G네트워킹에 슈퍼노바 적용 후 작업속도 대폭향상
효과: 품질 개선 작업시간 단축, 제조 공정 제품 품질 검사 시간 단축(SK 하이닉스에 적용)


웨어러블 로봇(GEMS)의 비지니스 모델
문제: GEMS의 다양한 활용 사례 도출 필요
아이디어 : 할아버지할머니 와 즐거운 등산, 팔자 걸음 교정기 개발, 상향 자세 작업용 GEMS래발
효과: 신규 비지니스 시장 창출, 기술 활용 극대화, 이윤 창출

 

+ 데이터 사이언스 어플리케이션에서 필요한 덕목


1. 가시화

예) (대통령의 연설을 분석해서 해당 대통령의 특징을 단어로써 word cloud형식으로 뽑아낼 수 있고 방탄소년단 음원을 보면 음악의 특징을 가시화 ,트와이스 연관 검색어 보면 다양한 키워드에 의해서 연관성 분석을 할 수 있음.)

2. 감정 분석(Sentimental Analysis)
예) (빌보드 TOp100 노래 가사의 감정 분석(Sentimental Analysis)을 진행하면 음성이 시그널 데이터로 분석되어 어떤 노래가 어떤 노래와 비슷한 특성을 가지는 지 확인할 수 있음.)
-> 기법은 basic topology, twork Degree Analysis, modularity Cluster 등 이 사용되었다.
3. 분류
예) (반도체 물류시스템의 비정상 분석을 위한 시그널 패턴 분류 -> 시그널 데이터의 움직이는 표를 보고 이게 어떤 이상인지 탐지를 해줌)--> 반도체 물류시스템 정체 이상탐지 및 분류 기법 개발
4. 예측
예) 

-multimodal 딥러닝 기반 프로야구 팀별 순위 및 승률 예측.
-인공지능 기반 공장 자동화 문제 해결 방안
  반도체 불량 위치 탐색, 데이터 생성 기반 품질 예측, 자율주행차량 긴급 정지, Visual AI기반 설비 스케줄링.

 

 

다음 글에서는 데이터 마이닝을 하는 방법(Descriptive methods, Predictive methods), MapReduce에 대해서 알아보겠습니다.

 

 

 

 

 

 

 

댓글