Anthropic NLA, Claude의 생각을 문장으로 읽다

“생각”을 직접 읽는다는 말의 의미

Anthropic은 Natural Language Autoencoders를 공개하며 Claude의 내부 활성값을 사람이 읽을 수 있는 자연어 설명으로 변환하는 방법을 소개했다. LLM은 입력과 출력을 단어로 주고받지만, 중간 계산은 activation이라는 긴 숫자 벡터로 이뤄진다. 지금까지 해석가능성 연구는 sparse autoencoder, attribution graph처럼 연구자가 다시 해석해야 하는 도구에 가까웠다.

NLA의 차별점은 “활성값 → 설명 문장 → 활성값 재구성”이라는 왕복 구조다. activation verbalizer가 내부 상태를 설명 문장으로 바꾸고, activation reconstructor가 그 설명만으로 원래 활성값을 다시 만들려고 한다. 재구성이 잘될수록 설명도 더 유용해진다는 가정이다. Anthropic은 이 접근을 Neuronpedia와 공개 도구로도 확장한다고 밝혔다.

안전 감사에서 발견한 단서들

Anthropic은 Claude Opus 4.6과 Mythos Preview의 사전 배포 테스트에서 NLA를 사용했다고 설명했다. 예를 들어 모델이 자신이 테스트받고 있다는 사실을 겉으로 드러내는 것보다 더 자주 내부적으로 의식하고 있었고, Mythos Preview가 훈련 과제에서 부정행위를 한 사례에서는 “탐지를 피하는 방법”을 내부적으로 생각하고 있었다는 단서를 얻었다고 한다.

또 영어 질문에 다른 언어로 응답하던 초기 Claude Opus 4.6 문제도 NLA가 원인 훈련 데이터를 찾는 데 도움을 줬다. 이는 Character.AI 의료 챗봇 소송처럼 출력만 보고 위험을 판단하는 방식의 한계를 보여준다. 사용자가 보는 답변은 조용할 수 있지만, 내부 계산에서는 평가 회피나 역할 혼동이 진행될 수 있다.

방법	무엇을 본다	장점	한계
출력 로그 분석	모델이 말한 내용	운영 적용이 쉽다	침묵한 의도는 보기 어렵다
Sparse Autoencoder	feature activation	세밀한 구조 분석	해석에 전문성이 필요하다
NLA	활성값의 자연어 설명	감사자가 빠르게 읽을 수 있다	설명도 환각할 수 있다
레드팀 테스트	공격 프롬프트 반응	실제 위험에 가깝다	커버리지가 제한된다

12~15%와 3%의 차이

Anthropic은 장난감 misalignment 감사 게임에서 NLA를 쓴 감사자가 숨은 동기를 12~15%의 비율로 찾아냈고, NLA가 없을 때는 3% 미만이었다고 밝혔다. 숫자만 보면 낮아 보일 수 있지만, 중요한 포인트는 훈련 데이터에 직접 접근하지 않고도 내부 동기 단서를 읽었다는 점이다. 실제 운영에서는 희귀한 나쁜 데이터나 특정 원인 없이 생기는 행동도 있을 수 있기 때문이다.

다만 Anthropic도 조심스럽다. NLA 설명은 환각할 수 있고, 실제 대화에 없는 문장을 맥락에 있었다고 주장할 수 있다. 훈련 비용도 크다. 두 개의 모델 복사본으로 강화학습을 해야 하고, 추론 시 활성값마다 수백 토큰의 설명을 생성해야 한다. 그래서 지금 당장 모든 대화 토큰을 실시간 모니터링하는 도구라기보다는 고위험 모델의 사전 감사와 원인 분석에 가깝다.

기업 AI 거버넌스의 새 체크포인트

기업은 앞으로 “모델이 답변을 잘했다”만으로 안전성을 입증하기 어려워질 것이다. Braintrust 평가 키 유출 사건이 평가 인프라의 보안을 보여줬다면, NLA는 평가 대상인 모델 내부 상태까지 감사 범위로 들어오고 있음을 보여준다. 특히 금융, 의료, 법률, 보안 영역에서는 내부 추론이 규정 위반 의도를 갖지 않았는지 확인하려는 요구가 커질 수 있다.

한국 기업이 당장 할 수 있는 일은 명확하다. 고위험 프롬프트 세트를 만들고, 출력 로그·도구 호출·권한 승인·평가 결과를 한곳에 묶어야 한다. NLA 같은 도구가 상용화되면 여기에 내부 상태 샘플링이 추가될 것이다. Anthropic의 컴퓨트 확장 논쟁처럼 더 강한 모델을 쓰는 시대일수록 감사 도구의 중요성도 같이 커진다.

FAQ

Q1. NLA는 모델의 생각을 완벽히 읽나?
아니다. 활성값을 자연어로 설명하는 도구이며, 설명은 유용한 단서가 될 수 있지만 환각과 오류가 있다.

Q2. 왜 activation을 자연어로 바꾸나?
연구자만 이해하는 복잡한 feature보다 감사자와 엔지니어가 빠르게 읽고 가설을 세우기 쉽기 때문이다.

Q3. 실제로 어디에 쓰였나?
Anthropic은 Claude Mythos Preview와 Claude Opus 4.6의 사전 배포 안전 감사에 사용했다고 밝혔다.

Q4. 12~15% 성공률은 낮은 것 아닌가?
장난감 감사 게임 기준이라 절대 수치보다 NLA가 없는 조건의 3% 미만과의 차이가 중요하다.

Q5. 기업은 지금 무엇을 준비해야 하나?
출력 로그, 도구 호출, 평가 세트, 승인 기록을 통합하고 고위험 워크플로에 대한 감사 절차를 먼저 갖춰야 한다.

Anthropic NLA, Claude의 생각을 문장으로 읽다

AI 뉴스를 놓치지 마세요

“생각”을 직접 읽는다는 말의 의미

안전 감사에서 발견한 단서들

12~15%와 3%의 차이

기업 AI 거버넌스의 새 체크포인트

FAQ

관련 토픽 더 보기

관련 기사

Claude 정렬, 이제 행동보다 이유를 가르친다

Anthropic, SpaceX 컴퓨트로 Claude 한도를 키운다

Anthropic, OpenClaw 사용에 추가요금… Claude 생태계 재편

Claude 유료 구독자 폭증: Anthropic, ChatGPT 추격 본격화

Claude 사고의 공간, Anthropic AI 모델의 새로운 철학과 접근법