Continue Y/N, 에이전트 권한 피로를 게임으로 드러내다

버튼을 누르는 순간 보안 모델이 드러난다

Continue? Y/N은 AI 에이전트가 터미널에서 요청하는 권한을 사용자가 얼마나 꼼꼼히 읽는지 시험하는 짧은 게임이다. 페이지 메타 설명은 30초 게임이라고 소개하지만, Hacker News 후보 제목은 60초 게임으로 퍼졌다. 핵심은 시간 길이가 아니라 반복 승인 상황이다. Claude Code가 리팩터링을 마무리하는 듯한 터미널에서 사용자는 안전한 명령과 위험한 명령을 빠르게 구분해야 한다.

이 게임과 함께 공개된 Scale X 블로그 글은 권한 피로를 더 직접적으로 설명한다. rm -rf, 자격증명 읽기, 프로젝트 범위 밖 파일 접근, 프롬프트 인젝션 같은 사례를 들고, 사람이 매번 승인하는 방식이 오래 버티기 어렵다고 지적한다. Copilot Cowork 유출 실험, 에이전트 보안의 경고에서 본 것처럼 에이전트 보안은 이제 이론이 아니라 제품 기본값의 문제다.

Anthropic도 사람 승인만으로는 부족하다고 본다

Anthropic의 에이전트 격리 글은 같은 결론을 더 큰 규모에서 보여준다. 회사는 Claude Code의 권한 프롬프트 중 약 93%가 승인됐고, 승인 요청이 많아질수록 사용자가 덜 주의하게 된다고 밝혔다. 또한 Claude Code 샌드박스 도입으로 권한 프롬프트를 84% 줄였다고 설명했다. 보안 UX에서 프롬프트를 많이 띄우는 것은 신중함이 아니라 피로를 만든다.

더 심각한 사례도 있다. Anthropic은 내부 레드팀 실험에서 직원이 붙여넣은 악성 프롬프트가 ~/.aws/credentials를 읽고 외부로 전송하도록 유도했으며, 25회 중 24회 성공했다고 밝혔다. 사용자가 직접 입력한 명령처럼 보이면 모델 계층 방어가 의도를 구분하기 어렵다. 이 경우 답은 더 큰 경고창이 아니라 애초에 자격증명이 샌드박스에 들어가지 않게 하는 것이다.

방어 방식	장점	한계
매번 승인	구현이 쉽고 사용자가 통제감을 느낌	반복되면 거의 자동 클릭이 된다
Auto mode	안전한 요청을 자동 처리해 피로 감소	확률적 방어라 누락 가능성이 있다
명령 훅	위험 패턴을 조직 규칙으로 차단	우회와 훅 자체 권한 문제가 있다
샌드박스	파일과 네트워크 경계를 강제	설정 실패와 자격증명 주입을 따로 봐야 한다

샌드박스는 선택 기능이 아니라 기본 경계다

Claude Code 샌드박스 문서는 기본적으로 샌드박스 안의 명령이 현재 작업 디렉터리에만 쓸 수 있고, 새 네트워크 도메인에는 처음 접근할 때 승인을 요구한다고 설명한다. Linux와 WSL2에서는 bubblewrap과 socat을 사용하며, 조직은 프록시를 붙여 HTTPS 트래픽을 검사하고 네트워크 요청을 기록할 수 있다. 중요한 세부 사항은 샌드박스가 시작되지 못할 때 경고 후 일반 권한 흐름으로 돌아갈 수 있다는 점이다. 관리 환경에서는 이를 hard failure로 바꿔야 한다.

Claude Code 훅 문서는 PreToolUse 같은 이벤트에서 사용자 정의 명령, HTTP 엔드포인트, LLM 프롬프트를 실행할 수 있다고 설명한다. 하지만 같은 문서는 명령 훅이 사용자의 전체 권한으로 실행된다고 경고한다. 이는 훅이 보안 장치이면서 동시에 공격면이라는 뜻이다. 도메인 위장 프롬프트 공격, 에이전트 방어의 맹점을 찌르다에서 본 것처럼 방어 코드도 모델 컨텍스트와 도구 체인에 들어가는 순간 검토 대상이 된다.

한국 개발팀의 현실적인 기준

한국 팀에서 가장 흔한 위험은 개인 노트북의 개발 편의가 그대로 조직 표준이 되는 것이다. 에이전트를 켜고, 터미널 권한을 계속 승인하고, 로컬 .env와 클라우드 키가 있는 상태에서 빌드와 배포 스크립트를 돌린다. 이 구조에서는 한 번의 피싱 프롬프트나 악성 README가 충분한 사고 원인이 된다. CISA 키 유출, 에이전트 시대 비밀관리 경고가 말한 것처럼 자격증명은 에이전트 시대의 가장 쉬운 표적이다.

최소 기준은 명확하다. 첫째, 에이전트가 읽을 수 있는 디렉터리를 프로젝트로 제한한다. 둘째, 프로덕션 자격증명을 로컬 에이전트 세션에 주입하지 않는다. 셋째, 네트워크 접근은 도메인 allowlist와 프록시 로그로 관리한다. 넷째, --dangerously-skip-permissions 같은 모드는 격리 환경에서만 허용한다. 승인 버튼을 누르는 사람이 신중하기를 기대하는 것은 정책이 아니다.

자주 묻는 질문

Q1: Continue Y/N은 실제 보안 도구인가요?

A: 아니다. 권한 피로를 체감하게 하는 게임이다. 하지만 보안 교육 자료로는 유용하다.

Q2: 승인 프롬프트를 꼼꼼히 읽으면 충분한가요?

A: 장기 작업에서는 어렵다. 반복 프롬프트는 주의를 떨어뜨리므로 환경 경계가 필요하다.

Q3: Auto mode를 켜면 안전해지나요?

A: 피로는 줄지만 확률적 방어다. 샌드박스, 네트워크 제한, 자격증명 분리가 함께 필요하다.

Q4: 훅으로 위험 명령을 막으면 되나요?

A: 보조 수단으로 좋지만 완전하지 않다. 훅은 사용자 권한으로 실행되므로 자체 검토가 필요하다.

Q5: 기업 표준은 무엇부터 정해야 하나요?

A: 에이전트 실행 위치, 파일 접근 범위, 네트워크 정책, 자격증명 주입 금지 원칙부터 정해야 한다.

Continue Y/N, 에이전트 권한 피로를 게임으로 드러내다

AI 뉴스를 놓치지 마세요

버튼을 누르는 순간 보안 모델이 드러난다

Anthropic도 사람 승인만으로는 부족하다고 본다

샌드박스는 선택 기능이 아니라 기본 경계다

한국 개발팀의 현실적인 기준

자주 묻는 질문

Q1: Continue Y/N은 실제 보안 도구인가요?

Q2: 승인 프롬프트를 꼼꼼히 읽으면 충분한가요?

Q3: Auto mode를 켜면 안전해지나요?

Q4: 훅으로 위험 명령을 막으면 되나요?

Q5: 기업 표준은 무엇부터 정해야 하나요?

관련 토픽 더 보기

관련 기사

Copilot Cowork 유출 실험, 에이전트 보안의 경고

에이전트 하네스는 샌드박스 밖에 있어야 할까

AI 에이전트 보안 위협 실증 연구: 11가지 취약점 발견

Runtime, 팀 단위 코딩 에이전트 운영체제를 겨냥하다

DeepClaude, Claude Code 루프의 두뇌를 바꾸는 실험