AI 중세 필사본 디지털 자료화 프로젝트

harryji (80)adminYour Wizardin Harry Potter Library • 2 days ago

인리아(Inria)의 CoMMA 프로젝트는 단 4개월 만에 3만 2,763개의 중세 필사본을 생성 AI로 자동 텍스트화(손으로 쓴 고서를 컴퓨터가 읽을 수 있는 디지털 텍스트로 변환)했다.

결과물은 약 5억 1천만 단어(고대 프랑스어)와 27억 단어(라틴어) 규모의 검색·분석이 가능한 대규모 디지털 텍스트 자료집(코퍼스)입니다. 오류율은 약 9.7~10%로 측정되었다.

일부 AI 분석가들이 지적한 “AI 슬롭” 우려(‘AI 찌꺼기’라는 뜻으로, AI가 대량 생산하는 저품질·오류 많고 노력 부족한 콘텐츠를 비판하는 말)도 있다.
전통 인간 방식으로는 수십 년 걸릴 작업을 AI가 극적으로 압축한 결과물인데, 10% 오류는 완벽하지 않지만, 키워드 검색·통계 분석·패턴 발견 등 광범위한 역사 연구에는 충분히 실용적으로 볼 수 있다. 정밀한 학술 편집은 인간 전문가가 최종 검토하는 것으로 보안하면 된다.

유럽의 Transkribus(손글씨 인식 플랫폼)는 여러 역사 문서에서 5~10% 오류율로 대규모 자동 변환을 성공적으로 적용해 연구 접근성을 크게 높였고, 최근 LLM(대형 언어 모델)을 활용한 프로젝트에서는 오류율을 5~7%까지 낮추며 인간 수준에 근접한 성과를 내고 있다.

반대로, 오류율 때문에 AI를 쓰지 않는 편이 나았던 사례도 있는데, 의료 분야 AI 도구(OpenAI Whisper: OpenAI의 AI 음성인식 도구)는 1.4% 수준의 환각(AI가 없는 내용을 지어냄)으로 환자 안전 문제를 일으켰다.
일부 병원에서 인간 검토를 강화하거나 부분적으로 회피하는 추세이다.
디지털 인문학에서도 정확도가 절대적으로 요구되는 법적·권위적 텍스트 작업에서는 AI 오류가 오히려 혼란을 키워 인간 전용 방식을 선호하는 경우가 있다.

이 프로젝트로 대표되는 현재의 AI 발전의 수준은, “인간 대체”가 아니라 인간 노동을 보완·가속화로 보아야 한다. 오류율은 모델 개선과 인간 피드백으로 계속 낮아질 전망이며, 속도와 편의성이라는 AI 강점을 받아들이는 것이 흐름으로 보인다.

#hpl #harrypotterlibrary #krsuccess #ai #business #technology #news