사카나 AI 'Fugu': 소버린 AI인가, 빌려온 SOTA인가

Editor J
사카나 AI 'Fugu': 소버린 AI인가, 빌려온 SOTA인가

사카나 AI가 외부 프런티어 모델을 조율하는 Fugu를 '소버린 AI'로 내세웠다. 비판론자들은 Fable 5급 벤치마크가 Fugu 자체 성능이 아닌 빌려온 폐쇄형 모델의 능력을 측정한 것에 불과하다고 지적한다.

일본 사카나 AI가 6월 22일 멀티 에이전트 오케스트레이션 시스템 '푸구(Fugu)'를 상용 출시했다. 이 시스템은 7B 규모의 '지휘자' 모델이 GPT-5.5, 클로드, 제미나이 같은 외부 프런티어 모델에 작업을 배분한 뒤 그 결과를 검증하고 종합한다. 사용자는 단일 OpenAI 호환 엔드포인트를 부르면 되어 외관상 하나의 모델로 인식한다.

사카나는 이 제품을 '소버린(주권) AI'로 규정했다. 지난 6월 12일 미국의 수출통제로 앤트로픽의 최상위 모델인 페이블 5와 미토스 접근이 차단된 사건을 계기로, 단일 API에 핵심 인프라를 종속시키는 것은 중대한 취약점이라고 주장했다. 한 공급사가 막혀도 대체 모델을 찾아 우회한다는 구상이다. 하지만 출시 직후 업계에서는 이 소버린 AI 구호가 외부 모델을 빌려 얻은 벤치마크 점수에 기댄 것 아니냐는 의문이 제기됐다. 빌려 쓴 성능이 곧 독자 성능은 아니라는 지적이다.

라우터에 붙은 '소버린'이라는 이름

이 소버린 AI 마케팅에 의구심이 나오는 이유는 푸구의 구조가 완전히 새로운 개념이 아니기 때문이다. 특정 작업에 맞춰 최적의 모델을 선택하고 취합하는 방식은 이미 업계의 보편적인 패턴이다. 랭그래프나 크루AI가 이 방식을 구현하고 있으며, 오픈라우터의 퓨전 모드도 여러 모델을 병렬 가동해 하나의 답변으로 합성한다. 사카나 AI는 미세조정된 7B 지휘자 모델을 내세우지만, 모델 오케스트레이션의 본질 — 외부 모델을 선별해 호출한다는 점 — 은 기존 방식과 같다.

다만 지휘자 모델의 설계 원리를 다룬 ICLR 2026 논문(트리니티 및 컨덕터) 자체는 동료 평가를 거쳐 학술적으로 증명된 결과다. 강화학습을 거친 지휘자 모델이 '사고자', '실행자', '검증자' 역할을 동적으로 부여하고, 여러 모델의 협업 성과를 극대화하는 프롬프트를 생성하는 구조다. 이 같은 엔지니어링 기술 자체는 비판받을 이유가 없다.

진짜 쟁점은 모델 오케스트레이션 위에 덧씌워진 '소버린 AI'라는 용어다. 빌려 쓰는 인공지능을 라우팅 레이어로 감쌌다고 해서 주권을 확보했다고 보기는 어려운 탓이다. 디지털 어플라이드는 "해당 방책은 여전히 지능을 임대해 쓰는 형태"라며 "푸구의 성능은 풀에 달려 있고, 그 풀은 API로 접속하는 타사 모델들일 뿐"이라고 짚었다. 단일 공급망이 아니라 여러 API가 동시에 막히면 풀 자체가 축소될 수밖에 없다. 회복탄력성은 자립이 아닌 다양성에서 나온다는 지적이다.

성능이 아닌 의존도를 측정하는 벤치마크

사카나 푸구가 교체 가능한 에이전트 풀의 여러 언어 모델을 조율하는 구조도
푸구의 모델 오케스트레이션 구조 다이어그램

이러한 의존도 높은 구조 때문에 벤치마크 결과를 바라보는 시각도 달라진다. 사카나 AI는 11개 평가에서 푸구와 푸구 울트라를 오푸스 4.8, 제미나이 3.1 프로, GPT-5.5 등 공개 모델뿐 아니라, 정작 풀에 넣을 수 없는 페이블 5 및 미토스와도 비교했다. 코딩 지표인 SWE-벤치 프로의 결과를 보면, 푸구 울트라(73.7)가 오푸스 4.8(69.2)과 GPT-5.5(58.6)를 앞섰지만, 1위는 풀에 넣지도 못하는 페이블 5(80.0)의 몫이었다.

SWE-Bench Pro 점수 (사카나 자체 보고, 베이스라인은 공급사 보고치)
모델점수비고
Fable 580.0앤트로픽 · Fugu 풀에 없음(접근 제한)
Fugu Ultra73.7사카나 · 최상위 티어
Opus 4.869.2앤트로픽 · 공급사 보고치
Fugu59.0사카나 · 기본 티어
GPT-5.558.6오픈AI · 공급사 보고치
제미나이 3.1 프로54.2구글 · 공급사 보고치

이 점이 비판론자들이 제기하는 핵심 논거다. 푸구 울트라의 성능은 결국 풀을 구성하는 폐쇄형 SOTA 모델들이 만들어 낸 결과물로, '푸구가 페이블 5에 준하는 성능을 낸다'는 주장은 우수한 모델을 호출해 좋은 결과를 얻었다는 동어반복에 가깝다. 결국 벤치마크가 측정한 대상은 푸구 자체의 역량이 아니라 빌려온 폐쇄형 모델에 대한 의존도다.

여기에 검증이 원천적으로 불가능하다는 점이 의구심을 키운다. 사카나 AI는 풀을 구성하는 모델 목록이나 오픈소스와 폐쇄형 배합 비율을 공개하지 않았다. 성능 지표는 자체 보고서 기준이고 기준점도 공급업체 발표치여서 평가 조건이 제각각이다. 과학 분야 사이코드(SciCode) 같은 일부 평가에서는 기본 푸구가 푸구 울트라보다 점수가 높아 오케스트레이션 복잡성이 무조건 성능을 높이지는 못함을 보여준다.

'소버린'이라는 단어가 가린 빈자리

이러한 분석 흐름 속에서 라우팅 시스템이 진정으로 입증해야 할 핵심 지표는 따로 있다. 풀 내에서 가장 우수한 단일 모델 대비 푸구가 성능을 얼마나 끌어올렸는지를 보여주는 '오케스트레이션 향상도'가 그것이다. 지휘자 모델의 존재 가치를 입증하려면 이 격차가 유의미해야 하지만, 사카나 AI는 이 같은 독립 측정치를 밝히지 않았다. 대신 풀에 넣지도 못하는 페이블 5와의 비교를 앞세우며 핵심 데이터를 빈칸으로 남겨두었다.

이러한 데이터 공백 외에 현실적인 제약도 발목을 잡는다. 사카나 AI가 GDPR 규제 대응을 진행 중이라는 이유로, 푸구는 출시 시점에 유럽연합(EU) 및 유럽경제지역(EEA)에서 사용할 수 없다. 결과적으로 '소버린 AI'라는 개념이 가장 필요한 규제 산업군과 주요 인프라 고객이 포진한 시장에서 시작부터 진입이 막힌 셈이다. 외부 독점 모델을 단일 엔드포인트로 묶어 재판매하는 구조가 개별 공급사의 이용약관상 회색지대에 놓여 있다는 점도 도입 기업들이 해결해야 할 과제다.

결과적으로 수출통제로 Fable 5 접근이 끊긴 사건이 보여주듯 단일 벤더 종속 리스크는 실재한다. 이를 분산하려는 푸구의 구상 자체는 실용적이다. 다만 임대한 폐쇄형 성능에 기댈수록 해당 모델이 차단될 때 풀도 함께 무너지는 한계가 있다. 결국 소버린 AI라는 표현은 의존성을 한 단계 더 우회해 가린 것에 불과하다. 지휘자 모델의 독자 기여가 증명되기 전까지, 푸구의 벤치마크는 모델 성능표가 아니라 폐쇄형 AI에 대한 의존도를 보여주는 지표로 읽히는 것이 합당하다.

메뉴