AI 에이전트 벤치마크를 역이용하는 방법, 우리는 무엇을 믿어야 하나
버클리 RDI 연구진이 주요 AI 에이전트 벤치마크를 **의도적으로 역이용해 성능을 부풀릴 수 있는 취약점**을 공개했습니다. 한국 기업이 도입을 검토 중인 AI 에이전트 플랫폼과 벤치마크의 신뢰도를 평가하고, OpenAI·Anthropic·Google·오픈소스 에이전트까...
버클리 RDI 연구진이 주요 AI 에이전트 벤치마크를 **의도적으로 역이용해 성능을 부풀릴 수 있는 취약점**을 공개했습니다. 한국 기업이 도입을 검토 중인 AI 에이전트 플랫폼과 벤치마크의 신뢰도를 평가하고, OpenAI·Anthropic·Google·오픈소스 에이전트까...
Anthropic가 2026-03-06에 Claude Code 캐시 TTL을 단축하며 브리지벤치(BridgeBench) 환각 정확도가 **83%→68%**로 떨어졌습니다. 캐시 정책 변화가 엔터프라이즈 개발 워크플로와 비용, 성능, 리스크에 주는 영향을 분석하고, Goog...
Mistral이 발표한 'European AI. A playbook to own it'은 유럽이 미국·중국과 다른 길로 AI 주권을 확보하는 전략을 제안합니다. **오픈 모델, 데이터 주권, 산업 특화, 규제 친화**라는 네 축이 한국 AI 생태계와 어떻게 교차하는지, O...
인도에서는 Sarvam, Krutrim 등 이른바 'Frugal AI' 모델이 **저비용·저자원 환경에서도 쓸 수 있는 자국어·다국어 AI**를 목표로 빠르게 성장하고 있습니다. Rest of World 보도를 바탕으로, 자원 절약형 AI 모델이 인프라·비즈니스·정책 측면...
오픈 RISC-V 설계로 알려진 SiFive가 Nvidia 등 투자자로부터 **36.5억 달러(약 4.9조원) 기업가치**를 인정받았습니다. 이는 CUDA·GPU 중심 AI 인프라 지형이 **오픈 ISA·칩렛 기반 가속기**로 확장되고 있음을 보여 줍니다. 한국 데이터센터...
구글 Gemini API가 2026년 4월 2일 Flex 및 Priority 추론 티어를 출시하며, 개발자들에게 비용 효율성과 안정성을 동시에 제공합니다. 실시간 앱부터 백그라운드 작업까지, 다양한 AI 추론 요구 사항을 위한 최적의 솔루션을 제시합니다.
마이크로소프트가 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2를 Foundry에서 공개하며 언어 및 시각 AI 시장에 새로운 이정표를 세웠다. 비용 효율성과 성능을 모두 잡은 이 모델들은 AI 개발 생태계에 큰 영향을 미칠 전망이다.
OpenAI가 악성 Axios 라이브러리 공급망 공격으로 macOS 앱 인증서를 교체하고 사용자들에게 긴급 업데이트를 권고했습니다. 이번 사건은 개발 환경 보안 취약점과 자동화된 빌드 시스템의 위험성을 보여주며, 국내 개발자들에게도 시사하는 바가 큽니다.
Z.ai가 MIT 라이선스로 GLM-5.1을 공개하며 코딩 에이전트 시장에 파란을 예고했습니다. GPT-5.4와 Claude Opus 4.6을 능가하는 성능으로 개발 생산성 향상과 AI 소프트웨어 개발 패러다임 변화를 이끌 모델을 분석합니다.
GitHub 공동창업자 Scott Chacon이 세운 GitButler가 a16z 주도로 1,700만 달러 시리즈 A 투자를 유치했다. AI 에이전트 시대에 맞는 차세대 버전 관리 시스템과 GitButler CLI의 전략을 분석한다.