LLM 위임 작업의 문서 손상, 에이전트 시대의 품질 경고
DELEGATE-52 연구는 19개 LLM이 장기 문서 위임 작업에서 평균 25%까지 내용을 손상시킨다고 보고했다. 에이전트 도입 전 품질 게이트가 필요하다.
DELEGATE-52 연구는 19개 LLM이 장기 문서 위임 작업에서 평균 25%까지 내용을 손상시킨다고 보고했다. 에이전트 도입 전 품질 게이트가 필요하다.
엔비디아가 2026년 들어 AI 기업 지분 투자에 400억 달러 이상을 약정했다. OpenAI, Corning, IREN 투자는 공급망과 자본의 경계를 흐린다.
Airbnb가 2026년 1분기 신규 코드의 60%를 AI가 작성했다고 밝혔다. 고객지원 40% 자동화와 함께 AI 운영의 실제 지표가 공개됐다.
Cloudflare가 AI 활용 증가와 조직 재설계를 이유로 1,100명 이상을 감원했다. 매출 성장과 인력 축소가 동시에 나타난 첫 대형 신호다.
미국 연방법원이 DOGE의 ChatGPT 기반 보조금 취소 절차를 위헌으로 판단했다. 공공기관 AI 사용의 설명 가능성과 차별 리스크가 쟁점이 됐다.
미국 최대 전력망 PJM이 데이터센터와 AI 수요로 구조 개편 압박을 받고 있다. 컴퓨트 경쟁은 이제 모델이 아니라 전력 접속 경쟁이다.
Mozilla가 Anthropic Mythos로 Firefox 고위험 버그를 찾아낸 사례가 공개됐다. AI 취약점 탐지는 보안팀의 방식을 크게 바꾸고 있다.
Google DeepMind가 AlphaEvolve의 실제 적용 성과를 공개했다. 과학, 전력망, TPU, 데이터베이스, 물류까지 알고리즘 자동 최적화가 확장되고 있다.
OpenAI가 GPT-Realtime-2와 GPT-Realtime-Translate를 API에 추가했다. 음성 에이전트는 고객지원, 교육, 크리에이터 도구의 핵심 인터페이스가 되고 있다.
Perplexity가 Mac용 Personal Computer를 모든 사용자에게 공개했다. 로컬 파일, 앱, 웹을 다루는 개인 에이전트는 생산성 앱의 새 전장이 되고 있다.
Anthropic이 SpaceX Colossus 1 용량을 쓰고 Claude Code와 Opus API 한도를 확대했다. AI 경쟁의 병목이 전력과 GPU로 이동했다.
AI 평가 스타트업 Braintrust가 AWS 계정 무단 접근 이후 고객에게 API 키 교체를 요청했다. LLMOps의 비밀 관리 리스크를 분석한다.
Cloudflare가 Stripe Projects와 함께 에이전트가 계정 생성, 결제, 도메인 구매, 배포까지 수행하는 흐름을 공개했다.
Google이 AI 검색 응답에 Reddit과 포럼, 블로그의 발췌와 작성자 맥락을 더한다. 검색 신뢰성과 웹 생태계 영향을 짚는다.
Simon Willison이 바이브 코딩과 책임 있는 에이전틱 엔지니어링의 경계가 흐려지고 있다고 진단했다. 생산성과 책임의 새 기준을 짚는다.
Anthropic이 금융·보험용 Claude 에이전트 템플릿과 Microsoft 365 연동을 공개했다. 금융 AI 도입의 실전 기준을 분석한다.
CopilotKit이 2700만 달러 Series A를 유치하며 앱 내 AI 에이전트와 AG-UI 프로토콜을 전면에 내세웠다. 개발자 생태계 의미를 분석한다.
OpenAI가 ChatGPT 기본 모델을 GPT-5.5 Instant로 바꾸며 환각 감소와 개인화 투명성을 내세웠다. 모델 경쟁의 기준 변화를 짚는다.
OpenAI와 Anthropic이 자산운용사들과 기업용 AI 합작사를 추진한다. 모델 판매를 넘어 현장 구축과 포트폴리오 영업 경쟁이 시작됐다.
DoorDash가 입점, 사진 편집, 영상 태깅, 웹사이트 생성에 AI를 붙였다. 거창한 에이전트보다 반복 업무 자동화가 먼저 확산되고 있다.