GLM-5.2 실사용기…모델엔 호평, Z.ai 코딩 요금제엔 불만

Editor J Jun 15, 2026

출시 사흘을 맞은 GLM-5.2에 대한 개발자 평가가 극명히 나뉜다. 뛰어난 코딩 성능은 합격점을 받았으나, Z.ai 코딩 요금제의 과도한 제한과 서비스 불안정성에 비판이 쏟아진다.

지난 6월 13일 출시된 인공지능(AI) 모델 'GLM-5.2'가 사흘 만에 개발자들의 시험대에 올랐다. 공식 성능 지표(벤치마크)가 공개되지 않은 상황에서 코딩 요금제부터 출시돼, 실사용자들의 평가가 먼저 축적되는 분위기다.

초기 평가는 엇갈린다. 모델 자체의 코딩 능력에는 호평이 이어지는 반면, 이를 제공하는 Z.ai의 '코딩 플랜' 서비스에 대해서는 비판이 거세다. 레딧과 해커뉴스, X(옛 트위터) 등 주요 커뮤니티의 의견은 우수한 모델에 미치지 못하는 서비스 운영으로 요약된다.

원샷 코딩 테스트로 입증된 GLM-5.2 성능

가장 큰 특징은 이전 버전인 GLM-5.1 대비 비약적인 성능 향상이다. 온라인 커뮤니티 r/ZaiGLM의 한 테스터는 다양한 기능이 포함된 벽돌깨기 게임을 단 한 번의 지시로 완성했다며 후기를 공유했다. 특히 모델 스스로 수 분간 코드를 검토하며 문법 오류와 버그를 찾아내 수정하는 과정이 강한 인상을 남겼다. 전체 작업 시간은 약 10분에 불과했다.

실제 성능 비교에서도 우위가 드러났다. X에 올라온 실사용 비교에 따르면, 5회의 게임 원샷 개발 테스트 중 4회에서 GLM-5.2가 오퍼스 4.8을 제쳤다. 코딩 도구 내 반응도 우호적이다. 개발자들은 이 모델이 첫 턴에 서브 에이전트를 띄워 프로젝트를 분석한다고 밝혔으며, 백엔드 설계는 GLM-5.2에, 프런트엔드는 키미에 맡기는 협업 방식도 늘고 있다.

지난주 오픈소스 공개로 큰 관심을 받았던 만큼 사용 비용도 합리적이라는 반응이다. 토큰 효율이 개선된 덕분에 실제 체감되는 구동 비용이 이전 버전보다 25%가량 저렴해졌다는 실사용자들의 분석이 뒤따른다.

Z.ai 코딩 요금제 운영에 쏟아지는 불만

GLM-5의 LMArena 텍스트 아레나와 코드 아레나 순위를 보여주는 표 — GLM-5의 LMArena 텍스트·코드 아레나 순위표. 오픈 모델 중 1위에 올랐다.

모델의 성능과 달리 Z.ai 코딩 요금제 서비스는 혹평을 받고 있다. 온라인 포럼에서는 GLM-5.2가 기존 대비 최대 3배 많은 할당량을 소모한다는 비판이 제기된다. 5시간 이용 한도의 3%만 사용하고도 차단 오류를 겪었다는 주장이 잇따랐다. 또한 제공업체가 강조한 100만 토큰 컨텍스트 역시 실제 구동 환경에서는 4만~8만 토큰을 넘어서면 정확도가 눈에 띄게 저하된다는 증언이 나왔다.

과금 구조 자체가 비효율을 낳는다는 분석이다. 단순 토큰 사용량이 아닌 입력한 프롬프트 수에 비례해 요금이 부과되는데, 이 과정에서 내부적으로 15~20회의 추가 호출이 유발된다. 일일 및 주간 사용량 한도가 중복 적용돼 있어 자동 에이전트를 쓰는 복잡한 프로젝트에서는 순식간에 할당량이 동난다. 최고 등급 구독자마저 첫날 이후 사용이 불가능하다며 요금제 구매를 지양하라는 후기를 남기는 실정이다.

이 때문에 업계에서는 모델 성능과 서비스 가치를 구분해서 바라본다. '뛰어난 인공지능과 실망스러운 요금제'라는 평가가 지배적이다. 임시 대안으로는 오픈라우터 등 외부 인터페이스(API)를 경유해 사용하는 방법이 꼽힌다. 또한 다음 주로 계획된 공식 오픈소스 모델 배포와 정식 단독 API 서비스를 지켜봐야 한다는 목소리도 높다.

최종 평가는 다음 주 오픈소스 공개로 판가름

그렇다고 GLM-5.2가 완벽한 모델이라는 의미는 아니다. 온라인 커뮤니티 해커뉴스의 토론방에는 호평과 우려가 공존했다. 가벼운 작업에서 클로드 3.5 소넷과 견줄 만하고 대용량 맥락 이해도 유용하다는 평가가 한쪽이라면, 다른 한쪽에는 지시문(프롬프트) 작성 방식이나 테스트 환경에 따라 결과 편차가 심하다는 신중론이 있었다.

실제 일회성 테스트에서도 한계가 드러난다. 한 개발자가 X를 통해 공포 게임, 3차원 잠입 게임, 마인크래프트 클론 등을 제작해 본 결과, 연산 속도와 추론력은 뛰어났으나 캐릭터 이동이나 탈출 경로 탐색 등 필수 제어 요소는 오작동하는 사례가 잦았다. 이전 세대보다 처리 속도는 3배가량 단축됐지만 완성도 면에서는 아직 업계 최고 수준의 상용 모델과 격차가 있다는 평이다.

정리하자면 뛰어난 모델의 가치를 공식 요금제가 깎아내리고 있다는 것이 사용자들의 일관된 목소리다. 아직 출시 초기 단계의 일회성 분석이 주를 이루는 만큼, 모델의 진짜 경쟁력은 다음 주 MIT 라이선스 조건의 가중치(오픈웨이트)와 정식 API가 출시되는 시점에 판가름 날 예정이다. 독립 호스팅 업체들의 검증을 거친 뒤에야 객관적인 평가가 가능해질 전망이다.