GLM-5.2, 제미나이 3.5 플래시 추월…오픈웨이트가 구글 넘다

Editor J Jun 17, 2026

출시 나흘 만에 GLM-5.2가 아티피셜 애널리시스 지능 지수에서 51점을 기록하며 구글 제미나이 3.5 플래시를 제쳤다. 오픈웨이트 모델이 폐쇄형 효율 모델의 성능을 넘어선 첫 사례다.

지난 6월 13일 공개된 오픈웨이트 모델 GLM-5.2를 두고, 출시 나흘 만에 외부 벤치마크 결과가 속속 등장하고 있다. 그리고 그 숫자들이 출시 소식보다 더 큰 파장을 일으키는 모양새다.

아티피셜 애널리시스 지능 지수(v4.1)에서 GLM-5.2 맥스(Max)가 51점을 받아, 구글이 효율 부문 SOTA로 내세우는 제미나이 3.5 플래시(High)를 1점 차로 제쳤다. 화웨이 칩으로만 학습하고 MIT 라이선스로 무료 배포되는 오픈웨이트 모델이, 구글이 효율 부문 정점으로 미는 모델을 지능 지수에서 넘어선 첫 사례다.

51점을 뒷받침하는 벤치마크 성적표

종합 점수인 51점은 코딩과 추론, 지식, 에이전트 성능을 합산한 아티피셜 애널리시스 지능 지수 결과다. GLM-5.2는 이 지표에서 오픈웨이트 단독 1위에 올랐다. 경쟁 모델인 미니맥스 M3(44점)와 딥시크 V4-프로(44점)를 7점 차로 따돌렸고, 전작인 GLM-5.1보다는 11점 높은 점수를 기록했다.

코딩과 에이전트 평가에서는 상위 폐쇄형 모델들과의 격차가 더욱 좁혀진다. 벤처비트 자료에 따르면, GLM-5.2는 장기 코딩 벤치에서 GPT-5.5를 6분의 1 비용으로 앞섰다. SWE벤치 프로에서 62.1점으로 GPT-5.5(58.6점)를 앞섰고, 프런티어SWE에서는 74.4점을 기록해 오퍼스 4.8(75.1점)에 0.7점 차로 근접했다. 실무 에이전트 지표인 GDPval-AA v2에서도 1524점을 얻어 GPT-5.5(xhigh)와 동률을 이뤘다.

다른 외부 순위표도 이 같은 성능을 증명한다. GLM-5.2는 에이전트 아레나 전체 10위에 오르며 오픈 모델 중 단독 1위를 차지했다. 벤치LM 잠정 순위에서도 124개 모델 중 3위(94점)에 이름을 올렸다.

GLM-5.2를 포함한 모델별 아티피셜 애널리시스 지능 지수 막대그래프 — 아티피셜 애널리시스 지능 지수 v4.1 순위(위)와 지능 대비 과제당 비용 분포(아래). GLM-5.2가 51점에 자리한다.

제미나이 3.5 플래시 추월이 지닌 의미

이번 성과가 화제인 진짜 이유는 단순히 모델 하나를 제쳤기 때문이 아니다. 앤트로픽·OpenAI·구글로 대변되는 프런티어 탑3의 최신 모델을, 누구나 내려받는 오픈웨이트가 벤치마크에서 따라잡은 것이다. 그 상대가 된 제미나이 3.5 플래시는 구글이 초당 280토큰 이상의 속도로 지능을 극대화해, 비싼 플래그십 대신 실제 서비스 환경에 깔리도록 만든 효율 간판 모델이다.

오픈웨이트 진영이 바로 이 영역을 파고들었다. 폐쇄형 기업들이 효율성을 무기로 지켜온 시장에 누구나 내려받아 실행할 수 있는 오픈웨이트 모델이 진입한 것이다. 여기에 GLM-5.2의 API 요금은 100만 토큰당 입력 1.4달러, 출력 4.4달러 선으로 동급 지능 모델 중 가장 저렴하다. 아티피셜 애널리시스는 이 모델을 지능 대비 비용 면에서 최적의 파레토 경계선 상에 올렸다.

다만 지표의 성격을 고려해야 한다. 지능 지수는 추론 설정과 갱신 주기에 따라 점수가 변동하며, 일부 시점에서는 제미나이 3.5 플래시가 더 높게 잡히기도 한다. 또한 51점은 최상위 지능을 의미하지 않는다. 페이블 5(약 60점), 제미나이 3.1 프로(약 57점), 오퍼스 4.8(약 56점) 등 프런티어 모델들은 여전히 위에 있다. GLM-5.2의 성과는 최고 지능에 도달한 것이 아니라 효율성 영역의 수준을 한 단계 높인 결과다.

GDPval-AA v2 Elo 리더보드 막대그래프 — GDPval-AA v2 리더보드(Elo). GLM-5.2가 1524점으로 GPT-5.5(1514) 바로 위에 있다.

동시다발적인 오픈웨이트 모델들의 등장

오픈웨이트 모델의 기준을 재정의한 GLM-5.2의 출시는 단독 사건이 아니다. 하루 앞선 6월 12일에는 문샷이 키미 K2.7-코드를 공개하며 자체 코딩 벤치마크 기준 K2.6 대비 21.8% 성능 향상과 추론 토큰 30% 절감 효과를 동시에 제시했다. 딥시크 역시 6월 19일 용선절 전후로 V4.1을 출시할 것이라는 전망이 나온다. 아직 공식 발표 전이나 가성비를 한층 높인 모델로 예상된다.

공교롭게도 출시 시점이 미국의 수출 통제 조치와 겹친다. 같은 주 미국 정부의 규제로 앤트로픽은 페이블 5와 미토스 5의 전 세계 서비스를 중단했다. 최고 사양의 상용 모델들이 시장에서 제외되자마자, 중국의 오픈웨이트 모델 3종이 며칠 간격으로 성능표를 가득 채운 구도다. 스탠퍼드 AI 인덱스가 분석한 미·중 인공지능 모델 간 격차는 이미 2.7% 수준까지 좁혀졌다.

출시 시점에 비어 있던 성능 점수표는 불과 나흘 만에 업계의 핵심 화두로 부상했다. 오픈웨이트 진영이 효율성 영역에 본격 진입하면서 이제 시장의 관심은 가장 똑똑한 모델이 무엇인가에 머무르지 않는다. 폐쇄형 인공지능 개발사들이 기존에 굳건히 지켜왔던 경쟁력의 장벽을 앞으로 얼마나 더 방어할 수 있을지에 초점이 맞춰지고 있다.

출처

‹ 이전 목록 다음 ›

51점을 뒷받침하는 벤치마크 성적표

제미나이 3.5 플래시 추월이 지닌 의미

동시다발적인 오픈웨이트 모델들의 등장

카테고리