[문과도 읽히는 기술] 2 빅데이터가 뭐야? 먹는거 - 2) 비정형데이터
지난 이야기
지금까지는 설문조사나 매출정보 같은 것으로 데이터를 모았죠.
이런 것의 특성은
- 태생부터 이미 항목별 구분이 되어 있다.
- 기안자의 주관이 녹아 있다.
- 손으로 입력할 수 있는 사이즈다.
정도가 되겠습니다.
그리고 그 정도라면, 여러분은
엑셀이나 구글 스프레드시트로 하고 싶은 통계를 다 낼 수도 있었죠.
그 때는 그래도 좋습니다.
데이터 줄 수가 200~300개 이 정도면 엑셀로 분석하는 것이 훨씬 편리하고 좋습니다.
그런데 문제는 원초적인 규칙 규명 욕구죠.
여러 제약때문에 안 되는 건 알고 있지만,
제약이 하나씩 풀릴 때마다, 못 했던 것들을 하나씩 해 보고 싶어하죠.
이를테면,
이 애가 나를 좋아하는 지 아닌지 마음 파악이라든가,
도둑이 많이 나오는 곳 탐구라든가,
...
그래서 지금까지는 설문 같은 걸로 미리 들어간 데이터를 넘어서,
미지의 영역으로 남겨졌던 부분까지 분석의 칼을 들이대게 됩니다.
이를테면, CCTV 영상으로 고객 동선 분석,
고객 포스팅의 단어 빈도 분석
출퇴근 지역 분석
등등...
예전에는 이런 것들을 분석하기 위한 컴퓨팅 파워가 충분하지 않았어요.
그렇다보니, 이런 데이터들은 데이터로 취급하지 않았죠.
그런데 클럭수 올라가고, GPU가 나오는 등, 컴퓨터가 비약적 발전을 하면서,
이제 계산량 빡센 것도 한 번 만져볼 만 해진 시대가 온 겁니다.
그래서 분석 컨셉이 바뀌었습니다.
분석할 항목을 정해서 데이터를 수집하자 에서
닥치고 뭐라도 모으면 어딘간 쓸모가 있겠지
로 말이죠.
그래서 센서 값이 싸지니깐, 이 데이터가 필요한 지 아닌지 알 바 없고,
그냥 냅다 붙여서 데이터를 모읍니다.
이렇게 되면 조사 방법도 달라집니다.
조사자 가설 설정 -> 조사 항목 설정 -> 데이터 수집 및 분석 -> 가설 검증
이란 순서도 깨지게 됩니다.
뭔진 모르겠고 데이터수집 -> 데이터 분석 -> 패턴 도출
이렇게 됩니다.
가설 세울 필요 없이
데이터 모아서 이래저래 보니 이런 패턴이 있네 하면서
소 뒷다리로 쥐잡는 패턴이 걸리는 시대가 되었습니다.
그런데 문제는....
이런 비정형 데이터는 데이터를 받아와도
이렇게 엑셀형처럼 바뀌지 않으면
이렇게 그래프로 그려서 패턴을 보는 일은 절대 할 수 없게 된다는 것이죠.
그래서 이런 비정형 데이터들을 엑셀화(DB화) 시켜주는 분들이 생겨나게 되었습니다.
분석하시는 분들은 어떤 데이터가 있어야 분석하기 좋다고 공돌이에게 말해주면,
공돌이는 혼돈의 카오스에서 필요한 것을 필터링하여 엑셀스러운 곳에 정리해서 기록하게 됩니다.
이 때 영상을 예로 들어 볼까요?
고객 1의 동선을 따려고 하면,
동영상에서 고객 1의 얼굴을 계속 인식할 수 있어야 하고,
고객 1의 실내 위치를 알고 있어야 하죠?
그럼
- 안면 인식 기술
- 그리고 실내 위치 파악 기술
들이 필요하겠네요?
이런 기술들이 과연 만만할까요?
그렇기때문에, 카오스에서 질서를 양산하는 과정이 기술이고,
그 분들의 몸값은 비쌉니다.
혹시나 회사에서 이런 일들 하시는 분들을 보시면,
꼭 토닥토닥해 주세요...
몸값이 비싸기는 해도,
데이터를 분석해서 현상을 규명하는 사람들이 아니기에,
(즉, 실적을 광고하는 사람들이 아니기에)
그리고 묵묵히 일만 하시는 분들이기 때문에,
업적은 가려지고, 데이터 늦게 주면 타박 맞기 일쑤예요..
마음으로 감싸주세요...!
그럼 이렇게 한 번 정형화가 되었다?
그러면 이젠 쉬워집니다.
X-Y 축 노가다를 해서 패턴 나올때까지 파라미터들을 조합해보면 됩니다.
물론 이게 쉬운 건 아니죠.
하지만, 기술장벽에서,
그래도 노가다를 하면 무언가 찾을 수 있겠구나 싶을 정도가 된 거라면
난이도는 매우 낮아졌다고 생각합니다. :)
요즘은 이런 시각화 툴도 많이 나와서
분석가 분들이 쉽게 패턴을 찾아볼 수 있게 되었어요.
그래서 이겁니다.
지금 빅데이터를 한 줄로 요약하면,
정형화와의 전쟁
이라고 말씀드릴 수 있을 것 같습니다!
다음 편 -> 3. DB
커다란 혼돈 속에서 어떻게 질서를 세울 수 있느냐가 문제였군요! 역시 빅데이터를 다루는 건 그만큼의 능력적 책임감을 필요로 하는 것 같습니다.
좋은글 감사드립니다 브라이언님!
능력적...이라기보다는
사수 밑에서 잘 배우면 됩니다 ㅎㅎ
엑ㅋㅋㅋ그것이 진실이로군요
물론 코딩은 할 줄 알아야 사수가 노하지 않습니다 ㅡ.ㅡㅋ
'정형화와의 전쟁' 그러네요! 의미 없어 보이는 것을 의미 있게 만드는 과정인 것 같습니다 ㅎㅎ 좋은 글 감사해요!
우리 눈엔 의미들이 참 잘 보이는데
컴퓨터는 이런 쪽엔 까막눈인게
참 아쉬워요 ㅠㅠ
바보라서 그런가봐요 ㅠㅠ 똑똑한 바보 녀석,, 우리가 잘 가르쳐줍시다 ㅎㅎㅎㅎ
처절하게 채찍질을 해야겠어요...쿨럭