구글, 인코더 없앤 통합 멀티모달 모델 '젬마 4 12B' 공개

Editor J
구글, 인코더 없앤 통합 멀티모달 모델 '젬마 4 12B' 공개

구글이 오픈 웨이트 모델인 '젬마 4 12B'를 공개했다. 16GB 노트북 환경에서 로컬로 작동하며 26B MoE에 준하는 성능을 내는 이 모델은 멀티모달 인코더를 완전히 제거하고 다중 토큰 예측(MTP) 기술을 기본으로 탑재했다.

구글 딥마인드가 6월 3일 오픈 웨이트 인공지능(AI) 모델인 '젬마 4 12B'를 공개했다. 이 모델은 16GB 메모리를 탑재한 일반 노트북에서 로컬로 작동하면서도, 상위 등급인 26B MoE 모델에 버금가는 성능을 발휘한다.

젬마 4 12B는 경량 기기용인 'E4B'와 고성능 '26B MoE' 사이의 미드레인지 라인업을 채우는 모델이다. 구글은 이 모델이 효율성과 성능의 균형을 맞췄다고 설명하며, 중간 크기 젬마 모델 최초로 오디오 입력을 네이티브로 지원한다고 밝혔다.

인코더를 제거한 통합 멀티모달 아키텍처

신경망 다이어그램과 이미지·오디오 아이콘이 그려진 파란색 콘셉트 일러스트
젬마 4 12B 멀티모달 콘셉트 일러스트

이러한 네이티브 오디오 지원은 젬마 4 12B의 아키텍처 설계 덕분이다. 기존 멀티모달 모델은 이미지나 오디오를 언어 모델에 넘기기 전 전용 인코더를 거쳐야 했다. 이 과정에서 지연 시간과 메모리 소모가 늘었는데, 구글은 그 인코더를 통째로 걷어냈다.

시각 정보 처리에는 무거운 비전 인코더 대신 가벼운 임베딩 모듈을 뒀다. 단일 행렬 곱셈과 위치 임베딩, 정규화 레이어로만 구성해 대형언어모델(LLM) 백본이 시각 데이터를 직접 처리하도록 한 것이다. 오디오는 더 직관적이다. 가공하지 않은 원본 신호를 텍스트 토큰과 동일한 차원 공간에 바로 투영한다.

구글은 이를 '인코더 프리 아키텍처'라 부른다. 구글 공식 블로그에 따르면, 인코더 프리 아키텍처는 중간 변환 단계를 생략해 데이터 지연과 메모리 부담을 동시에 줄였다.

16GB 노트북 로컬 추론과 MTP 기본 탑재

구글 젬마 4 오픈 모델 시리즈 공식 키 아트 다크 비주얼
구글 젬마 4 시리즈 공식 키 아트

인코더 프리 아키텍처로 가벼워진 메모리 요구 사양은 곧 구동 환경으로 이어진다. 젬마 4 12B는 벤치마크 테스트에서 26B MoE 모델에 버금가는 성능을 내면서도 메모리는 절반 이하만 쓴다. 덕분에 16GB RAM이나 통합 메모리를 갖춘 일반 노트북에서도 온디바이스 멀티모달 AI 추론을 로컬로 돌릴 수 있다. 다운로드할 모델 가중치 용량은 약 18GB다.

처리 속도를 높이기 위한 설계도 더해졌다. 미사용 연산 자원을 활용해 다음에 올 토큰을 미리 계산하는 다중 토큰 예측(MTP) 드래프터가 기본 탑재됐다. 구글은 이전에도 다른 젬마 4 모델에 MTP를 선택 사양으로 제공했지만, 처음부터 이를 품고 나온 건 12B가 처음이다.

이 조합 덕에 그동안 더 큰 모델이 필요했던 다단계 추론이나 에이전트 워크플로우를 노트북 수준에서도 원활히 돌릴 수 있게 됐다. 폐쇄형 플래그십인 제미나이 3.1 프로가 성능 한계를 끌어올린다면, 12B는 그 능력을 개개인의 기기로 내려주는 쪽이다.

누적 1억 5천만 다운로드 생태계 확장

노트북 등 개인 기기에서 바로 쓰라는 게 설계 의도인 만큼 접근성도 대폭 늘렸다. 가중치는 상업적 활용이 자유로운 아파치(Apache) 2.0 라이선스로 풀렸다. 허깅페이스와 캐글에서 즉시 내려받을 수 있고, 다운로드 없이 LM Studio, 올라마(Ollama), 구글 AI 엣지 갤러리에서 바로 실행해 볼 수도 있다.

추론 엔진으로는 허깅페이스 트랜스포머스, llama.cpp, MLX, vLLM, SGLang 등 널리 쓰이는 프레임워크를 모두 쓸 수 있다. 미세조정(파인튜닝)은 언슬로스(Unsloth)로 효율을 챙긴다. 클라우드 배포가 필요하면 구글 클라우드의 모델 가든과 클라우드 런, 구글 쿠버네티스 엔진(GKE)으로 엔드포인트를 띄우면 된다.

젬마 4 시리즈의 누적 다운로드는 이미 1억 5천만 회를 넘어섰다. 독점형 모델들이 최고 성능 경쟁을 이끄는 동안, 구글은 누구나 노트북에서 돌릴 수 있는 오픈 웨이트 모델로 온디바이스 AI 보급을 넓히고 있다. 젬마 4 12B는 그 저변에 더해진 가장 실용적인 오픈 웨이트 모델이다.

목록 다음 ›
메뉴