최근 3년간 예산까지 건드리면서 기술발전 막은건 국민의힘이다 **

in #avle2 days ago

image.png

한국 대표 거대언어모델(LMM)들이 해외 모델들과 비교해 수학 수능·논술 문제 풀이에서 성능이 뒤지는 것으로 나왔다.

김종락 서강대 수학과 교수 연구팀은 국내 대표 AI 도전 5개 팀의 LLM 모델과 챗GPT·제미나이 등 5개 모델을 대상으로 수능 수학 20문제·논술 30문제를 풀게 한 결과를 공개했다.
연구팀은 수능 수학의 ▲공통과목 ▲확률과 통계 ▲미적분 ▲기하 영역에서 가장 어려운 5문항씩 총 20문제, 서울 주요대학 10곳의 논술 기출문제와 인도 대학 입시, 일본 도쿄대 공대 대학원 입시문제 각 10문항씩 총 30문제를 선정해 평가를 진행했다.
한국 모델은 ▲업스테이지 솔라 프로-2 ▲LG AI연구원 엑사원 4.0.1 ▲네이버 HCX-007 ▲SK텔레콤 A.X 4.0(72B) ▲엔씨소프트 라마 바르코 8B 인스트럭트 등을 시험했다. 미국·중국 등 해외 모델의 경우 ▲오픈AI GPT-5.1 ▲구글 제미나이 3 프로 프리뷰 ▲앤트로픽 클로드 오푸스 4.5 ▲xAI 그록 4.1 패스트 ▲딥시크 V3.2 등을 적용했다.

해외 모델 점수는 76점~92점을 기록했지만 한국 모델은 솔라 프로-2가 58점으로 가장 높았고 나머지는 20점대였다. 경량모델인 라마 바르코 8B 인스트럭트는 2점이었다.
연구팀은 한국 모델들이 단순 추론으로는 대부분 문제를 풀지 못해 파이선(Python) 계산 툴을 활용할 수 있도록 설정했음에도 낮은 정답률을 보였다고 설명했다.
연구진이 대학생 수준부터 교수급 연구 난도까지 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문항을 추가로 구성해 진행한 테스트에서도 격차는 컸다. 미·중 모델은 82.8점에서~90점, 한국 모델은 7.1점에서~53.3점에 그쳤다.
문제 풀이를 3번 시도해 정답을 맞히면 통과하도록 기준을 완화했을 땐 미국과 중국 모델은 대부분 90점 이상을 받았고 그록은 만점을 기록했다. 그럼에도 솔라 프로-2는 70점, 엑사원은 60점, HCX-007은 40점, A.X 4.0은 30점, 라마 바르코는 20점에 머물렀다.
김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트했다"며 "국내 모델 수준이 해외 모델보다 많이 뒤처짐을 알 수 있었다"고 했다. 이어 "한국 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다"고 부연했다.
양진원 기자 (newsmans12@mt.co.kr)

이 소중한 3년을 날려버린게 저들 정권의 두번째 과오지요
첫번째는 당연히 독재시도였고

정부가 전폭적으로 밀어주지는 못할망정
무슨 카르텔이니 뭐니 하면서 연구예산을 깍고 사업 없애고
온갖 개**을 했는데 뭘 기대하는지 양심도 없네요

지금이라도 훌륭한 정부가 첫번째 과제로 AI를 정하고 적극 지원하는걸 다행으로 알아야지요

탄핵 안시켰으면, 아직도 술먹고 출근하니 마니 하면서
줄서서 쇼핑백 그대로 뇌물이나 받고, 어디 해외순방 다니면서
돈빼돌릴 궁리하고, 그 떡고물 받아먹으려고 입이나 벌리고 있었을 겁니다

갑자기 화가 너무 나네요