[씨세론이야기] 번역 데이터 활용의 첫단계, 기계 번역기 MARO를 소개합니다.

ciceron (52)in #kr-newbie • 8 years ago (edited)

안녕하세요 ! 어김없이 돌아온 @ciceron 입니다!
오늘은 특별히 지난 이야기를 무려 3컷 요약 만화로 보여드릴게요 ㅎㅎ
(~~※발그림주의※~~)

MARO를 소개합니다.

마로 MARO는 데이터를 학습하는 인공지능 기계 번역기 입니다. 다들 AI 들어보셨죠? (~~아뤼쀠셜인텔리젼스ㅎㅎ~~) 씨세론의 전문 번역가 인력단의 손을 거친 1,589,772개 이상의 고품질 단어 쌍 데이터를 통해 마로가 탄생하였습니다. 현재는 간단한 번역이 필요할 때 도움을 받는 정도이지만, 점점 더 번역가의 작업을 도울 수 있는 효율성 향상의 도구로 활용될 수 있도록 마로는 오늘도 번역 데이터를 학습하고 있습니다.

AI번역기? 그건 파파X가 짱이라고?

구X번역기, 네이X번역기, 엠에X 번역기 등 이미 많은 기계 번역기가 존재합니다. 하지만 그 중에서도 씨세론의 마로 번역기가번역기가 특별해질 수 있는 점은 바로 분야별로 특화된 학습입니다.

세분화 된 데이터 저장 방식

하나의 저장소에 단어를 저장하는 것이 기존의 기계 번역기의 데이터 관리 방식이라면, 씨세론의 마로 번역기는 의료, 과학, 법률, 인문, 문학, 무역, 정치, 컴퓨터 등 13개의 전문 분야로 단어 데이터를 세분화하여 마로를 학습시킵니다. 사람이 하는 데이터 분류와는 별개로 마로가 스스로 데이터를 군집화 하여 분야를 나누기도 합니다. 마로는 분야별, 산업별 단어 쌍 데이터를 각각 따로 저장하기 때문에, 보다 정확하고 주제를 고려한 번역 결과를 보여주겠죠?

실제로 번역기 성능을 나타내는 지표 BLEU 스코어도 타사 기계 번역기들 보다 높은 수치를 자랑한다구요! ~~(아 물론 아직은 한국어->영어 번역에서만,, 헤헤)~~

분야별 전문 번역기

아직은 초기버전이라 분야 특화 번역기 모델은 아니지만, 데이터가 충분히 축적되면 각 전문분야에 특화된 번역기 모델을 만들 수 있습니다. 필요한 데이터를 합성하여 특정 분야, 특정 산업에 특화된 번역기 모델을 만들어 낼 수 있는게 마로만의 강점이라는 것이죠. 예를들면 특허 번역기, 문학 번역기, 예술 번역기는 물론 기업별로 사용하는 단어만 저장하여 기업전용 번역기 모델도 생산 가능하죠 :)

오늘은 마로에 대한 소개와 자랑을 좀 늘어놓았는데요 (팔불출)
다음시간에는 마로의 모습을 보여드리고 사용법을 공개할게요 :)

기다려 주실꺼죠? (강요)
~~제발 기다려주세요,, ㅋㅋㅋ~~

다음편에 계속