[문과도 읽히는 기술] 2 빅데이터가 뭐야? 먹는거 - 3) DB

in #kr7 years ago

지난 이야기

  1. 블록체인
    1. 암호화
    2. 블록체인
    3. 거래검증

  2. 빅데이터
    1. 본질은?
    2. 비정형데이터


스크린샷 2018-01-15 오전 1.21.15.png

전 편에서 빅데이터의 핵심은 데이터의 정형화라고 했죠?
보통 이런 데이터를 DB에 집어 넣게 되는데,

DB는 과연 무엇일까요?

설명드리면 너무 길기 때문에 결론만 말씀드릴게요.

DB는 엑셀과 별 다를 게 없습니다. 정리된 데이터를 넣어 놓는 본질에는 큰 차이가 없습니다.

그래서 DB는 겁나 크고 빠른 엑셀 정도로 아시면 됩니다.



정리 기준 분류 빡세게 안하고 마구 박는 MongoDB 같은 놈도 있지만,
이런 건 예외로 치죠.

그런데, 본질은 그냥 그런데, 왜 이런 곳에 개발자들이 엄청 하이테크질을 할까요?

스크린샷 2018-01-15 오전 1.25.42.png

우리의 대표님들은, 그리고 분석가분들은
그래프를 빨리 보고 싶어합니다.
죽이 되든 밥이 되든 뭐라도 그래프가 나와야
이 분석이 쓸모 있는 분석인지 아닌지 판단을 하니깐요.

스크린샷 2018-01-15 오전 1.28.34.png

하지만, 큰 회사는 데이터가 너무 많죠.
이를테면, 삼성생명 같은 곳은 한 달에 쌓이는 데이터가
(보험사라 숫자밖에 없음에도 불구) 1TB입니다.
수십TB 데이터를 지지고 볶고 계산해서 그래프를 그리는데 매우 신속해야 합니다.

빨리 그려져야 결정권자들이 판단을 빠르게 합니다.

스크린샷 2018-01-15 오전 1.31.23.png

그런데... 이 그래프 뽑아내는 속도가 생각보다 매~~~우 심하게 오래 걸립니다.
명령 내리고 그래프 나오는 데, 재수 없으면 1달 걸려요.
(데이터 만져봐야 엑셀 사이즈라 상상 잘 안가죠? 정말입니다!)
(꽤 괜찮은 DBMS로 서버 5대, 16대 붙여서 동시에 계산 돌리면 2시간? 6시간?)

1달이면 유행 하나가 생겼다면 베리에이션 몇 개는 쳤을 시간입니다.
결과가 나오는 동시에 그 결과는 Outdated되겠죠?
우리 사장님들 몸에서 사리 나옵니다.

빨라야 합니다. 사람 인지의 레벨에서.
(1초에 돌아가는 놈 0.001초로 빠르게 만드는 것 보고는
Overtechnology라고 합니다. 쓸데없는 고퀄)

스크린샷 2018-01-15 오전 1.35.43.png

그래서 빅데이터 레벨로 올라가게 되면, DB는 속도와의 전쟁이 되시겠습니다.

스크린샷 2018-01-15 오전 1.37.30.png

이 속도를 빠르게 하기 위해서 엔지니어들은 별 지랄 별 생쇼를 다 하게 됩니다.

일정 기준으로 자료들을 미리 정렬해놓는다든지,
미리 순서를 별도로 보관한다든지 (INDEX)
빨리 검색할 수 있도록 괴상한 자료구조에 저장을 해 놓는다든지 (TREE)
아니면 데이터의 저장 규칙을 희한하게 한다든지

등등을 해요.
정렬 알고리즘 돌아가는 속도가 데이터의 n * logn 에 비례했는데,
n 비례로 개조한 알고리즘을 만든다면 당장 박사 논문 쓰고 졸업도 가능한 정도랄까요?
(08년엔 그랬는데 지금은 모르겠습니다.)

제가 지금 스타트업을 하기 전에는 DB 회사에서 월급을 축내고 있었어요.
보통은 데이터를 하드에 저장을 하죠?
이 회사의 DB를 이용하면 모든 데이터를 RAM 에 올리게 됩니다.
그런데 DB 용량이 4TB다, 이러면 정말 컴퓨터에 RAM을 4TB 꽂아야 합니다. 부르주아
램값만 4~5억 정도 들어가요.

대신에 속도는 비약적으로 빨라집니다.
10000배 정도.
레포트 뽑는데 한 달 돌아가던 놈이 몇 억 투자하면 3시간만에도 뽑아낼 수 있습니다.

이런 식으로 눈물겹게 속도를 쥐어짭니다.

스크린샷 2018-01-15 오전 1.47.30.png

이렇게 눈물겹게 성능을 쥐어짰으면 자랑을 해야겠죠?

DB는 표준화된 테스트와 테스트 데이터를 가지고 서로 성능을 자랑하는 벤치마크 사이트가 있습니다.

TPC-H, TPC-CC 등등이 있는데요,
컴퓨터의 하드웨어 스펙은 가능하면 표준화시키고,
DB 프로그램을 바꿔갈 때 성능이 어떻게 달라지는지 비교하는 곳입니다.
그래서 큰 회사들은 이 사이트를 눈여겨보다가, DB를 도입할 시즌에 하나 골라서 들여오게 됩니다.

스크린샷 2018-01-15 오전 1.50.29.png

그런데, 분석가 여러분들은 DB에서 X-Y축 그래프 노가다도 지겨울 거예요.
그러면 누가 참 해줬으면 좋겠죠.
하지만, 버티셔야 합니다.
안 그러면.. 개발자들이 너무 힘들어져요 ㅜㅜ

진심레알 지겹다면 인공지능까지 손 대야 합니다.
빅데이터와 인공지능은 필요성으로는 연결되어 있지만,
또 기술 셋을 보면 서로 큰 연관은 없어서 좀 신기해요.

최대한.. 묵묵히 차트질을 해 주길 바래요.. 마케터분들!

오늘은 여기까지입니다!
인공지능은 다음주에 들고올 지, 더 다음에 들고올 지
제 컨디션 따라 가도록 할게요 ㅋㅋㅋㅋㅋ

그럼 늦은 밤까지 읽어주셔서 감사하오며, 업봇 리스팀 뿜뿜 광클 해 주시기 바라겠습니다!

내일부터는 다시 월화수목금 여행기로 찾아뵙겠습니다 -_-)/

Sort:  

알기 쉽게 정리해주셔서 감사합니다
이런 유익한 글들이 보팅을 많이 받아야 하는데
숨 쉰 이야기나 풀어놓은 글들이 더 많은 보팅을 받는 현실이 참 안타깝네요 ㅠㅠ

뭐, 블로그했을 시절엔 그렇게 느꼈는데
지금은 맘을 비웠어요
여러분들 밥먹고 살기 바쁜데 어느 세월에 텍스트 읽고 음미하거나 판단을 하겠어요 ㅠㅠ
빨리 보고 빨리 소화가 가능한 그림이 짱입니다 ㅋ

지금이야 세이브한 게 있어서 텍스트천지 여행기 걍 올리지만
다음에 여행갈 일 있으면 좋은 사진 찍는데 주력하려 해요

바뀌면 바뀌는 대로 움직여야죠