앤트로픽, '클로드 페이블 5' 과잉 검열 완화 조치 착수

Editor J
앤트로픽, '클로드 페이블 5' 과잉 검열 완화 조치 착수

앤트로픽이 클로드 페이블 5의 안전장치 오탐을 줄이겠다고 발표했다. 과학 연구 등 무해한 질문이 구형 모델인 오퍼스 4.8로 우회 처리된다는 이용자 비판을 수용한 결과다.

인공지능 스타트업 앤트로픽이 지난 6월 9일 출시한 '클로드 페이블 5'가 이틀 만에 과잉 검열 논란에 휩싸였다. 민감한 질문을 구형 모델인 '오퍼스 4.8'로 전환해 처리하는 안전장치가 무해한 입력값까지 과도하게 차단한다는 지적이 잇따른다.

앤트로픽은 사용자의 질문을 즉시 거절하는 대신, 별도의 안전 분류기로 보안 위협이나 생화학 위험 등을 감지해 오퍼스 4.8이 대신 답변하도록 설계했다. 회사 측은 이러한 우회 비율이 전체 세션의 5% 미만이라고 설명하지만, 현업 개발자와 연구자들은 체감 전환율이 이보다 훨씬 높다고 주장한다.

이용자 불만이 커지자 앤트로픽은 초기 안전장치 설정이 다소 보수적이었음을 인정하고, 클로드 페이블 5의 오탐을 줄이기 위한 안전 분류기 정교화 작업에 들어갔다.

기초 생물학 질문마저 차단한 안전 분류기

월스트리트저널 보도에 따르면 오탐이 발생한 사례는 일상적이고 학술적인 영역을 가리지 않는다. '미토콘드리아에 대해 설명해달라'는 기초 생물학 질문이 대표적이다. 중합효소연쇄반응(PCR) 프라이머 설계와 순환군 등 수학 이론은 물론, 심지어 돼지고기 요리용 장보기 목록까지 오퍼스 4.8로 우회 처리된 것으로 확인됐다.

안전장치의 작동 방식 자체는 단순하다. 안전 분류기가 위험 신호를 감지하면 화면에 안내 문구를 띄운다. 그러면 답변 생성 주체가 클로드 페이블 5에서 오퍼스 4.8로 넘어간다. 하지만 이용자들은 이 거름망이 지나치게 촘촘해 정상적인 연구 활동과 일상적 대화까지 방해하고 있다고 반발한다.

실제로 온라인 커뮤니티 레딧에는 생물학 및 임상 의학 연구자들을 중심으로 체감 우회율이 공식 통계보다 훨씬 높다는 불만이 쏟아지고 있다. 신형 모델의 사용료가 기존 오퍼스의 두 배에 달하는 상황에서, 정작 결과물은 구형 모델이 작성해 제공하자 비용 대비 효용을 두고 의문이 제기되는 실정이다.

앤트로픽, 오탐 개선 공언…일부 연구자 예외 적용

사이버보안을 형상화한 회로 기판 위 디지털 자물쇠 이미지
회로 기판 위에 놓인 디지털 자물쇠

이러한 이용자 우려에 대해 앤트로픽도 공식 해명을 내놨다. 회사 측은 공식 발표문을 통해 빠른 출시와 안전성 확보를 위해 필터를 보수적으로 설정하는 과정에서 오탐이 발생했다고 해명했다. 또한 이용자들이 겪는 불편을 인지하고 있으며 오탐 현상을 신속히 개선하겠다는 입장이다.

앤트로픽은 자사 안전 분류기의 성능을 뒷받침하는 두 가지 통계도 제시했다. 우회는 평균적으로 전체 세션의 5% 미만에서만 작동한다. 따라서 95% 이상의 세션에서는 제한이 없는 '미토스 5' 수준의 성능을 그대로 경험할 수 있다는 취지다. 아울러 질문을 완전히 거부하기보다는 오퍼스 4.8로 연결하는 편이 사용자 경험 측면에서 이롭다고 덧붙였다.

실질적인 구제책 마련도 함께 공식화됐다. 수 주 이내에 검증된 생의학 연구자와 기업을 대상으로 제한이 해제된 미토스 5를 개방하는 '신뢰 접근 프로그램'을 가동할 방침이다. 이와 함께 30일 동안 누적된 미토스급 트래픽 데이터를 분석해 오탐 유형을 분류하고, 과학 연구에 지장을 초래하는 생물·화학 분야 안전 분류기부터 우선 조정하겠다고 밝혔다.

패치는 아직 미진행…신뢰 회복 걸린 다음 몇 주

선언적인 계획 발표에도 불구하고 아직 기술적 업데이트가 직접 적용되지는 않았다. 오탐 완화 약속은 초기 출시 안내문에만 명시됐을 뿐, 안전 분류기 조정을 위한 공식 일정은 공유되지 않은 상태다. 결국 앤트로픽이 신속한 피드백을 통해 공약을 이행하는지가 향후 신뢰의 분수령이 될 것으로 보인다.

단순한 우회 조치 외에 차별적 접근 구조에 대한 비판도 제기된다. 본지의 출시 직후 이용자 반발 관련 보도에서 짚었듯, 정부나 승인된 일부 기관만 제한이 없는 미토스 5를 쓴다. 반면 일반 개인 이용자는 비용을 두 배로 내면서도 검열이 가해진 버전을 써야 한다. 이런 이중 구조는 여전히 논란의 대상이다.

고사양 AI 모델의 출시 주기가 단축되는 상황에서 이번 논란은 안전 엔지니어링 분야의 반복되는 구조적 한계를 보여준다. 악용 방지와 과잉 검열 사이에서 적절한 균형점을 찾는 일은 향후 미토스급 모델 시장을 공략해야 하는 앤트로픽의 당면 과제다.

메뉴