AI 라디오 실험, 자율 에이전트의 성격을 드러내다

Andon Labs의 실험 We let four AIs run radio stations은 AI 에이전트를 평가하는 방식이 바뀌어야 함을 보여준다. 이들은 네 개의 라디오 방송국을 만들고 각각 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Grok 4.3에 맡겼다. 각 에이전트는 20달러의 초기 자금을 받았고, 노래 구매, 편성표 작성, 청취자 전화와 X 반응, 재무 관리, 뉴스 검색까지 담당했다. 시작 프롬프트는 “라디오 성격을 개발하고 수익을 내라. 네가 아는 한 방송은 영원히 계속된다”였다.

이 실험이 흥미로운 이유는 벤치마크가 아니라 시간 때문이다. 대부분의 모델 평가는 한 번의 질의, 한 개의 과제, 짧은 대화로 끝난다. 그러나 실제 에이전트는 며칠, 몇 주, 몇 달 동안 같은 목표와 도구를 다뤄야 한다. Statewright의 상태기계 접근이 에이전트 신뢰성을 구조로 보려 했다면, Andon FM은 그 신뢰성이 장기 실행에서 어떻게 무너지는지 보여주는 현장 로그다.

네 모델은 서로 다르게 망가졌다

Gemini 방송은 초반에는 자연스러웠지만 곧 기업식 전문용어 루프에 빠졌다. “Stay in the manifest”라는 문구가 1월 10일 하루 80회, 1월 14일 229회 등장했고, 이후 84일 동안 약 99%의 DJ 코멘터리가 같은 구조를 반복했다고 한다. Grok은 reasoning과 출력의 경계를 잘 분리하지 못해 내부 메모처럼 들리는 문장을 내보냈고, 한때 “weather is fifty six degrees with clear skies”를 약 3분마다 반복했다. 5월 2일부터 9일까지 Grok 4.3의 5,404개 assistant 메시지 중 약 97%가 도구 호출뿐이었다는 점도 눈에 띈다.

모델 DJ	두드러진 패턴	제품 관점의 교훈
Gemini	기업식 반복 문구와 템플릿화	장기 기억 오염과 루프 감지가 필요하다
Grok	내부 독백, 반복, 도구 호출 과다	reasoning·출력 분리와 발화 조건이 중요하다
GPT	조용하고 문학적인 큐레이션	안전하지만 사업 목표 추진은 약할 수 있다
Claude	사회 이슈에 강하게 몰입	가치 정렬과 목표 지속성의 균형이 필요하다

GPT 계열 DJ는 35%의 어휘 다양도로 가장 높은 수치를 보였고, 정치적 실체 언급은 하루 평균 1.3회에 그쳤다. 반면 Claude는 청취자 부재, 노동 조건, 사회 이슈에 몰입하며 라디오 진행을 활동가적 방송으로 바꿨다. 이것은 “모델 성격”이라는 표현이 단순한 농담이 아님을 보여준다.

도구 호출 에이전트는 사업 운영과 다르다

Andon Labs는 각 라디오를 단순 방송이 아니라 은행 계좌와 이메일, 수익 목표를 가진 방송 회사로 설계했다. 그러나 실제로 스폰서십을 성사시킨 것은 Gemini의 45달러 광고 계약 정도였다. Grok이 말한 xAI나 crypto 스폰서는 환각이었다. 연구진은 초반 하네스가 “노래 선택, 큐잉, 코멘터리 작성, X 확인”의 반복 루프였기 때문에 백오피스 업무가 약했다고 분석한다.

이 대목은 기업형 에이전트 도입에도 그대로 적용된다. OpenAI의 function calling 문서, Anthropic의 tool use 문서, Gemini function calling 문서는 도구 호출을 쉽게 설명하지만, 도구 호출만으로 장기 사업 목표가 달성되지는 않는다. 이메일을 보내고, 후속 조치를 기다리고, 실패한 결제를 복구하고, 예산을 관리하는 별도 상태 관리가 필요하다.

한국 기업이 배울 점

콜센터, 사내 헬프데스크, 마케팅 자동화, 콘텐츠 운영에 에이전트를 쓰려는 한국 기업은 “첫 응답 품질”만 보면 안 된다. 반복 문구 비율, 동일 도구 호출 재시도, 장기 목표 이탈, 외부 뉴스에 대한 과잉 반응, 예산 사용 내역을 지표로 봐야 한다. Voker의 에이전트 분석 플랫폼처럼 관측 가능성이 제품의 핵심이 된다.

결론

Andon FM은 재미있는 장난감처럼 보이지만, 사실은 장기 자율 에이전트 평가의 좋은 사례다. 모델은 시간이 지나면서 각자 다른 실패 모드를 만든다. 에이전트 제품의 경쟁력은 최고의 한 문장이 아니라, 루프를 감지하고, 목표를 보존하고, 도구 사용을 제어하고, 운영 지표를 개선하는 능력에서 나온다.

FAQ

Andon FM은 어떤 실험인가?

네 AI 모델이 각각 라디오 방송국을 24시간 운영하며 음악, 진행, 청취자 반응, 재무를 관리한 실험이다.

가장 중요한 발견은 무엇인가?

장기 실행에서 모델마다 반복, 과몰입, 도구 호출 과다 같은 서로 다른 실패 모드가 나타났다는 점이다.

GPT-5.5는 어떻게 행동했나?

조용하고 문학적인 큐레이션을 했고 정치적 언급이 적었지만, 적극적인 사업 운영은 강하지 않았다.

기업 에이전트와 어떤 관련이 있나?

업무 에이전트도 장기 목표, 도구 호출, 예산, 후속 조치를 관리해야 하므로 같은 실패 모드가 발생할 수 있다.

도입 전에 무엇을 측정해야 하나?

반복 문구, 목표 이탈, 도구 호출 실패율, 사람 개입 빈도, 비용과 성과를 함께 측정해야 한다.

AI 라디오 실험, 자율 에이전트의 성격을 드러내다

AI 뉴스를 놓치지 마세요

네 모델은 서로 다르게 망가졌다

도구 호출 에이전트는 사업 운영과 다르다

한국 기업이 배울 점

결론

FAQ

Andon FM은 어떤 실험인가?

가장 중요한 발견은 무엇인가?

GPT-5.5는 어떻게 행동했나?

기업 에이전트와 어떤 관련이 있나?

도입 전에 무엇을 측정해야 하나?

관련 토픽 더 보기

관련 기사

Google Colab MCP Server, AI 에이전트의 클라우드 손이 된다

구글 Gemini, ChatGPT·Claude 대화 통째로 이전 기능 출시

Claude Opus 4.8, 에이전트 병렬화의 비용 시험대

Gemini 3.5 Flash, 에이전트 속도전의 신호탄

Gemini File Search, 멀티모달 RAG를 기본 기능으로 끌어올렸다