GPT-5.6 새 체크포인트, 약점이던 비전 능력 개선

Editor J
GPT-5.6 새 체크포인트, 약점이던 비전 능력 개선

오픈AI의 미공개 GPT-5.6 테스트 빌드가 기존 GPT-5.x 모델의 약점이었던 비전 기능에서 뚜렷한 성능 개선을 보이고 있다. 초기 개발자 테스트에서 정교한 SVG 파일 생성 능력을 입증하며, 구글 제미나이를 넘어섰다는 평가가 나온다.

오픈AI가 아직 GPT-5.6을 공식 발표하지 않은 가운데, 개발자들 사이에서 공유되는 미공개 테스트 빌드가 비전 능력에서 상당한 성능 개선을 이룬 것으로 나타났다. 특히 벡터 그래픽(SVG) 생성 결과물이 기존 GPT-5.x 모델들에 비해 구조적으로 정교해졌다는 평가가 나온다. 시각 데이터 처리는 그동안 해당 제품군에서 주요 약점으로 꼽혀 왔다.

2026년 6월 기준 오픈AI의 공식 플래그십 모델은 지난 4월 출시된 GPT-5.5다. 차기 모델의 API 정보나 공식 문서는 공개되지 않았다. 대신 백엔드 로그에 남은 코드네임과 한 주간의 커뮤니티 테스트가 후속 빌드의 존재를 시사한다. 테스터들은 최신 빌드가 이미지 생성과 판독 성능 모두에서 이전보다 개선되었다고 평가한다.

일주일 사이 GPT-5.6 체크포인트 3개 포착

개발자들은 최근 코덱스 백엔드 로그에서 일주일 사이에 각기 다른 코드네임의 체크포인트 3개가 생성되었다가 사라진 흐름을 포착했다. 초기 빌드인 '줄 알파(joule-alpha)'는 '미토스급' 기본 모델로 지정되었으나 곧 '케플러 알파(kepler-alpha)'로 대체됐다. 이어 더 새로운 빌드인 '킨들 알파(kindle-alpha)'가 함께 테스트 테이블에 올랐다.

테스트 과정을 모니터링한 @chetaslua 등은 킨들 알파를 유력한 출시 후보로 꼽았다. 킨들 알파는 중간 난이도의 추론 과정에서 이미지 참조 데이터를 매끄럽게 처리한 것으로 전해졌다. 다만 오픈AI는 이를 공식 확인하지 않았으며, 해당 명칭들은 A/B 테스트 라우팅 과정에 나타난 백엔드 식별자 수준이다.

그러나 일주일 만에 3개의 체크포인트가 잇따라 시험대에 오른 속도 자체가 중요한 단서로 해석된다. 개발자 커뮤니티는 오픈AI가 후속 모델 출시를 앞두고 최종 조율 단계에 진입했다고 분석한다. 버전이 바뀔 때마다 시각 데이터 처리 결과가 눈에 띄게 향상된다는 점도 이 같은 추정에 힘을 싣는다.

SVG 생성이 입증한 비전 능력 개선

선과 좌표로 구성된 벡터 스타일의 추상 그래픽
빛의 궤적으로 표현한 벡터 스타일 그래픽 (이미지: WaveSpeed AI)

신속한 빌드 교체가 개발 속도를 보여준다면, SVG 생성 결과물은 실제 성능 개선을 입증한다. 벡터 이미지 생성은 픽셀 기반이 아닌 기하학적 도형을 코드로 정의하는 방식이라 모델의 비전 능력을 검증하는 주요 척도로 쓰인다. 정교한 SVG 파일을 출력했다는 것은 모델이 단순히 사물의 질감을 흉내 내는 수준을 넘어 공간 좌표와 구조를 이해하고 있음을 뜻한다.

커뮤니티 테스트에는 엑스박스 컨트롤러나 BMW M4 차량, 자전거를 탄 펠리컨처럼 구조가 복잡한 이미지들이 과제로 제시됐다. @TeksEdge를 비롯한 테스터들이 구글 제미나이 3.1 프로와 동일한 프롬프트로 비교한 결과, 이미지의 깊이와 디테일 면에서 GPT-5.6 체크포인트가 더 우수하다는 평가가 지배적이었다. 이는 공식 벤치마크 점수가 아닌 선별된 스크린샷 비교지만, 다수 테스터에게서 일관된 결과가 도출되었다는 점에서 신뢰도가 높다.

@TeksEdge 등 테스터들이 X에 공유한 GPT-5.6과 제미나이 3.1 프로의 SVG 생성 비교

오랜 약점을 메운 이번 업데이트

이러한 일관된 성능 개선은 이번 업데이트가 일반적인 마이너 패치 이상의 의미를 지님을 뜻한다. 그간 GPT-5.x 제품군은 텍스트와 코딩 강점에 비해 이미지 해석 및 공간 추론 성능이 뒤처진다는 지적을 받아왔다. 따라서 비전 능력의 한계를 보완한 이번 체크포인트는 단순한 코딩 기능 개선보다 더 주목받고 있다. 코덱스 로그 분석에서는 150만 토큰 수준의 콘텍스트 창 확장과 에이전트 성능 개선도 함께 거론되지만, 핵심 변화는 시각 처리 성능의 비약이다.

다만 공식 벤치마크인 MMMU나 OmniDocBench 등의 수치가 발표되지 않았고, 사용자의 시연 결과물만으로는 정량적 평가를 대신하기 어렵다. 그럼에도 앞서 포착된 '아이리스' 빌드가 유사한 개선 방향을 가리켰고, 예측 시장에서도 6월 30일 이전 출시 확률을 80~89%로 책정하고 있다. 업계 테스터들의 보고가 일치하는 만큼, 그동안 가장 취약했던 비전 능력이 크게 개선되었다는 주장은 한층 설득력을 얻고 있다.

메뉴