Models.dev, 모델 선택을 데이터 문제로 바꾸다
Models.dev는 AI 모델의 가격·기능·스펙을 공개 데이터베이스로 모은다. 에이전트 스택의 모델 라우팅은 감이 아니라 갱신 가능한 데이터가 필요해졌다.
Models.dev는 AI 모델의 가격·기능·스펙을 공개 데이터베이스로 모은다. 에이전트 스택의 모델 라우팅은 감이 아니라 갱신 가능한 데이터가 필요해졌다.
Superset은 여러 CLI 코딩 에이전트를 worktree에서 병렬 실행하는 코드 에디터다. 에이전트 IDE 경쟁은 채팅 보조에서 로컬 오케스트레이션으로 옮겨간다.
Google Antigravity 업데이트 경험담은 IDE가 챗봇형 도구로 바뀌며 워크플로를 깨뜨릴 수 있음을 보여준다. AI 개발도구의 자동 업데이트 신뢰가 쟁점이 됐다.
Multi-Stream LLM 논문은 생각·입력·출력을 병렬 스트림으로 나눠 단일 채팅 흐름의 병목을 줄이려 한다. 에이전트 아키텍처 경쟁이 모델 구조로 내려갔다.
YC P26 Runtime은 Claude Code, Codex, Gemini CLI 등을 팀 샌드박스와 거버넌스로 묶는다. 코딩 에이전트 경쟁은 개인 도구에서 운영 플랫폼으로 이동 중이다.
distributed-system-testing은 AI 코딩 에이전트가 분산·상태 시스템을 주장 기반으로 테스트하게 하는 두 개의 SKILL.md 워크플로를 제안한다.
OpenAI 모델이 1946년 이후 남아 있던 평면 단위거리 추측 반례를 찾았다고 밝혔다. AI 연구 보조가 검증 가능한 발견 단계로 이동했다.
PopuLoRA는 여러 LoRA 어댑터가 교사와 학생으로 공진화하는 자기대전 학습을 제안한다. 단일 모델 자기개선의 쉬운 문제 편향을 겨냥했다.
Alibaba가 Qwen3.7-Max를 공개하며 35시간 연속 실행과 1,000회 이상 도구 호출을 강조했다. 에이전트 경쟁은 모델보다 스택 싸움이 됐다.
Forge는 8B 로컬 모델의 도구호출 안정성을 guardrails와 context management로 끌어올린다. 에이전트 품질은 모델 크기만의 문제가 아니다.
Google이 Gemini 3.5 Flash를 공개했다. 플래그십급 지능과 낮은 지연시간을 결합해 에이전트·코딩 워크플로의 기본값 경쟁을 키운다.
Mistral AI가 Physics AI 스타트업 Emmi AI를 인수한다. 유럽 AI 경쟁은 챗봇을 넘어 제조·항공·반도체 엔지니어링으로 이동한다.
멕시코 정부 침해와 AI 보안 사례는 공격 지식보다 실행 비용이 무너졌음을 보여준다. 방어는 자동화와 검증 체계를 함께 갖춰야 한다.
Andon Labs가 네 AI 모델에 24시간 라디오를 맡겼다. 장기 자율 실행에서 반복, 성격, 도구 사용, 사업 운영의 한계가 드러났다.
Anthropic이 SDK·MCP 서버 생성 기업 Stainless를 인수했다. 모델 성능 경쟁이 API 연결성과 개발자 경험 경쟁으로 이동하고 있다.
Archestra는 AI 봇 스팸을 막기 위해 Git author 플래그와 prior contributor 설정을 조합했다. 오픈소스의 품질 관리 비용이 커지고 있다.
개편 Siri가 자동 삭제 채팅을 제공할 수 있다는 보도는 애플이 AI 경쟁에서 성능보다 프라이버시 경험을 차별점으로 삼는다는 신호다.
Semble은 grep과 파일 읽기에 의존하던 코딩 에이전트의 탐색 비용을 줄이려는 도구다. 병목은 모델보다 컨텍스트 전달 방식에 있다.
Algora 바운티를 Claude로 자동 공략한 실험은 에이전트가 돈을 벌 수 있다는 서사보다 시장 혼잡, 리뷰 병목, 기대값 문제를 더 선명하게 보여준다.
Δ-Mem 논문은 8×8 온라인 메모리 상태만으로 LLM의 장기 대화와 에이전트 기억 성능을 높이는 경량 접근을 제안한다.