문샷 AI, '키미 K2.7 코드' 공개…추론 토큰 30% 감축

Editor J Jun 12, 2026

문샷 AI가 코딩 특화 모델 키미 K2.7 코드를 오픈소스로 공개했다. 이전 K2.6 모델 대비 추론 토큰 소모량을 30% 절감하면서 코딩 성능은 개선했다. 가중치와 API 서비스가 동시에 출시됐다.

문샷 AI가 6월 12일 코딩 특화 모델 '키미 K2.7 코드'를 출시했다. 별도의 사전 예고나 대기 명단 없이 허깅페이스 가중치와 API가 같은 날 함께 풀린 오픈소스 코딩 모델이다. 문샷 AI는 이번 신작이 자사 역대 모델 중 가장 강력한 코딩 성능을 갖췄다고 설명했다.

이번 발표에서 가장 주목받은 수치는 벤치마크 점수가 아닌 효율성이다. 키미 K2.7 코드는 이전 버전인 K2.6 대비 추론 토큰 소모량을 약 30% 줄였다. 그러면서도 자체 평가인 '키미 코드 벤치 v2' 점수는 50.9점에서 62.0점으로 높여 21.8%의 상대적 성능 향상을 기록했다. 연산량을 줄이면서도 더 뛰어난 성능을 내는 구조다.

추론 토큰 소모량 30% 감축

문샷 AI의 키미(Kimi) 로고

추론형 모델로 장시간 코딩 작업을 진행해 본 개발자라면 기존 모델의 비효율성을 경험했을 가능성이 크다. 1,500토큰이면 해결할 수 있는 문제에 모델이 3,000토큰 이상을 소비하며 고민하는 식이다. 특히 수백 번의 도구 호출이 수반되는 AI 에이전트 환경에서 이러한 오버헤드는 비용 부담으로 직결된다.

K2.7 코드는 K2.6과 비교해 추론 토큰을 약 30% 절감하면서도 작업 성공률은 끌어올렸다. 프로그램 벤치에서 11.0%, MLS 벤치 라이트에서 31.5%의 점수 상승을 달성했다. 외부 도구 활용 능력을 측정하는 MCP 아틀라스와 MCP 마크 베리파이드에서도 각각 9.5%와 11.4% 향상된 결과를 보였다.

K2.6 대비 K2.7 코드 주요 벤치마크 변화 (문샷 AI 발표 기준)

벤치마크	K2.6	K2.7 코드	변화
키미 코드 벤치 v2*	50.9	62.0	+21.8%
프로그램 벤치	48.3	53.6	+11.0%
MLS 벤치 라이트	26.7	35.1	+31.5%
MCP 아틀라스	69.4	76.0	+9.5%
MCP 마크 베리파이드	72.8	81.1	+11.4%

다만 키미 코드 벤치 v2를 비롯한 주요 지표는 문샷 AI의 내부 평가 결과로, 아직 제3자 검증을 거치지 않았다. 그러나 모델 가중치가 모두 공개되어 있어 개발자가 직접 다운로드해 성능을 검증할 수 있는 길이 열려 있다.

1조 매개변수 MoE 아키텍처 기반 코딩 최적화

허깅페이스에 공개된 키미 K2.7 코드 모델 카드 — 허깅페이스 moonshotai/Kimi-K2.7-Code 모델 저장소 카드

로컬 환경에서 모델을 구동하려는 개발자에게는 장비 사양이 중요 지표다. 키미 K2.7 코드는 1조 개의 매개변수를 갖춘 혼합전문가(MoE) 구조로, 토큰당 활성 매개변수 32B와 256K 컨텍스트 창 등 K2.6의 설계를 계승한다. 양자화 인지 학습(QAT)을 적용해 INT4 기준 파일 크기를 약 594GB로 줄였다.

이 모델은 즉각적인 답변을 제공하는 모드 없이 오직 추론 모드로만 작동한다. 간단한 질의응답보다 긴 호흡의 에이전트 작업에 맞춰 모델을 설계했다는 것이 문샷 AI의 설명이다. 라이선스는 수정된 MIT 라이선스가 적용되어, 월간 활성 사용자 1억 명 또는 월 매출 2,000만 달러를 초과하는 상용 서비스에만 'Kimi K2' 표기 의무가 부과된다.

문샷 AI가 공개한 자료를 보면 성능의 한계도 관찰된다. 프로그램 벤치와 MCP 마크 베리파이드 영역에서는 여전히 GPT-5.5와 클로드 오퍼스 4.8 같은 독점 모델이 우위를 점하고 있다. 이번 출시는 전 분야 석권보다는 오픈소스 진영이 효율성을 무기로 6월 코딩 에이전트 판도에 진입하려는 시도로 파악된다.

단가 경쟁력 내세운 오픈소스 코딩 모델

향상된 효율성은 가격 책정에서 더욱 명확하게 드러난다. 공식 API 가격은 100만 토큰 기준으로 캐시 히트 시 0.19달러, 입력 0.95달러, 출력 4.00달러다. 거대한 시스템 프롬프트를 반복적으로 처리하는 장시간 에이전트 작업일수록 캐시 요율이 전체 비용을 낮춰 준다. 문샷 AI는 6배 빠른 고속 모드도 근시일 내에 도입할 예정이다.

커뮤니티의 반응도 뜨겁다. 개발자 포럼인 r/LocalLLaMA에서는 불필요한 추론 과정이 줄고 장기 작업의 신뢰성이 향상되어 마침내 실사용이 가능한 코딩 에이전트가 등장했다는 평가가 지배적이다. 코딩 도구인 커서의 '컴포저 2.5'가 키미 K2.5를 기반으로 튜닝된 만큼, 조만간 두 모델 간의 직접 비교 분석이 이어질 전망이다.

빠른 릴리스 속도 역시 시장에 강한 인상을 주고 있다. 2025년 7월 첫선을 보인 K2부터 K2 씁킹, K2.5, K2.6을 거쳐 이번 키미 K2.7 코드에 이르기까지 1년이 안 되는 기간에 다섯 차례의 대형 모델을 출시했다. 오픈소스 코딩 모델이 상용 API와 가격 경쟁을 벌이는 국면을 문샷 AI가 가장 앞에서 끌고 가는 모습이다.

출처

‹ 이전 목록 다음 ›

추론 토큰 소모량 30% 감축

1조 매개변수 MoE 아키텍처 기반 코딩 최적화

단가 경쟁력 내세운 오픈소스 코딩 모델

카테고리