사하라 AI, 마이크로소프트와 멀티모달 수학 추론 벤치마크 구축 협업 공개

입력 2026-03-19 09:59

손기현 기자

작게보기
기본크기
크게보기

6000개 이상 정밀 라벨링 데이터 제공…MATHVISTA 구축 참여

(사진제공=Sahara AI)

사하라 AI가 마이크로소프트 리서치와의 협업을 통해 멀티모달 인공지능(AI) 수학 추론 벤치마크 ‘매스비스타(MATHVISTA)’ 구축에 참여했다고 18일 밝혔다.

사하라 AI에 따르면 양사는 GPT-4V, 바드(Bard), 클로드(Claude), 제미나이(Gemini) 등 주요 모델의 수학 추론 성능을 평가하는 매스비스타의 데이터 구축 과정에서 협력했다. 사하라 AI는 이 과정에서 6000개 이상의 정밀 라벨링 데이터 포인트를 제공했다고 설명했다.

사하라 AI는 이번 프로젝트가 단순 분류형 데이터 라벨링이 아니라 논리적 추론과 복합 지시 이해, 작업자 검증, 다단계 품질관리(QA) 등이 필요한 고난도 작업이었다고 강조했다. 산술·대수, 기하·통계, 고급 STEM 논리, 시계열 수치 추론, 수치적 상식 등 다양한 영역에서 작업이 이뤄졌다는 설명이다.

하오 청(Hao Cheng) 마이크로소프트 리서치 수석 연구원은 “이 프로젝트는 복잡한 지침에 대한 깊은 이해와 잠재 작업자에 대한 엄격한 테스트, 논리적 추론이 포함된 세심한 라벨링을 요구했다”며 “특히 크라우드소싱 플랫폼을 포함한 다른 데이터 라벨링 제공업체들에는 상당한 도전 과제였다”고 말했다.

사하라 AI는 마이크로소프트가 파일럿 단계에서 추론 능력 기반 작업자 선발, 맞춤형 교육 모듈, 검토자 감독 및 합의 검증을 포함한 품질 보증 체계, 처리 속도 등을 평가한 뒤 협업을 진행했다고 전했다.

사하라 AI는 매스비스타가 공개 이후 글로벌 연구자와 연구기관이 활용하는 벤치마크로 자리 잡았다고도 밝혔다. 회사 측은 지난 한 달간 1만 3000회 이상 다운로드됐고, 누적 다운로드 수는 27만 5864회라고 소개했다. 또 12개 파운데이션 모델을 평가한 피어리뷰 연구에서 최고 성능 모델인 GPT-4V의 정확도가 49.9%로, 인간 성능보다 10.4%포인트 낮게 나타났다고 덧붙였다.

션 렌(Sean Ren) 사하라 랩스 공동창업자 겸 최고경영자(CEO)는 “마이크로소프트 리서치와의 매스비스타 협력은 전문화된 고품질 데이터가 AI 성능 평가의 새로운 기준을 세울 수 있음을 보여주는 사례”라며 “향후에도 세계적 파트너들과 신뢰할 수 있는 데이터와 인프라 구축에 협력할 것”이라고 말했다.

사하라 AI는 현재 35개국 이상, 45개 이상의 언어 및 방언을 지원하는 20만명 이상의 사전 검증 라벨러 네트워크를 운영하고 있으며, 텍스트·이미지·비디오·오디오 등 멀티모달 데이터 서비스를 제공하고 있다고 밝혔다.

손기현 기자 tyumr70@etoday.co.kr