OpenAI 수학 돌파, 연구 보조의 선을 넘다
OpenAI 모델이 1946년 이후 남아 있던 평면 단위거리 추측 반례를 찾았다고 밝혔다. AI 연구 보조가 검증 가능한 발견 단계로 이동했다.
OpenAI 모델이 1946년 이후 남아 있던 평면 단위거리 추측 반례를 찾았다고 밝혔다. AI 연구 보조가 검증 가능한 발견 단계로 이동했다.
Alibaba가 Qwen3.7-Max를 공개하며 35시간 연속 실행과 1,000회 이상 도구 호출을 강조했다. 에이전트 경쟁은 모델보다 스택 싸움이 됐다.
AI 워터마크 제거 도구가 GitHub에서 주목받았다. C2PA와 SynthID 같은 출처 증명 체계가 단일 방어선이 될 수 없다는 경고다.
Forge는 8B 로컬 모델의 도구호출 안정성을 guardrails와 context management로 끌어올린다. 에이전트 품질은 모델 크기만의 문제가 아니다.
Mistral AI가 Physics AI 스타트업 Emmi AI를 인수한다. 유럽 AI 경쟁은 챗봇을 넘어 제조·항공·반도체 엔지니어링으로 이동한다.
Anthropic이 SDK·MCP 서버 생성 기업 Stainless를 인수했다. 모델 성능 경쟁이 API 연결성과 개발자 경험 경쟁으로 이동하고 있다.
Archestra는 AI 봇 스팸을 막기 위해 Git author 플래그와 prior contributor 설정을 조합했다. 오픈소스의 품질 관리 비용이 커지고 있다.
arXiv가 검증되지 않은 LLM 생성 흔적이 있는 논문에 1년 금지 조치를 예고했다. 문제는 AI 사용 자체가 아니라 책임 부재다.
Semble은 grep과 파일 읽기에 의존하던 코딩 에이전트의 탐색 비용을 줄이려는 도구다. 병목은 모델보다 컨텍스트 전달 방식에 있다.
Algora 바운티를 Claude로 자동 공략한 실험은 에이전트가 돈을 벌 수 있다는 서사보다 시장 혼잡, 리뷰 병목, 기대값 문제를 더 선명하게 보여준다.
Δ-Mem 논문은 8×8 온라인 메모리 상태만으로 LLM의 장기 대화와 에이전트 기억 성능을 높이는 경량 접근을 제안한다.
프런티어 모델이 중간 난도 CTF를 자동화하면서 공개 보안 대회의 점수판이 인간 실력보다 모델 접근성과 오케스트레이션을 더 반영하기 시작했다.
Julia Evans의 Tailwind 이탈기는 AI가 UI 코드를 대량 생성하는 시대에 CSS 구조, 의미 있는 클래스, 작은 규칙의 가치가 커진다는 신호다.
Rust로 만든 Zerostack은 거대한 IDE형 코딩 에이전트와 달리 작은 CLI, MCP, worktree 중심의 조합 가능한 개발 자동화를 제안한다.
Mitchell Hashimoto의 AI psychosis 경고는 빠른 복구만 믿는 개발 조직이 왜 더 큰 시스템 리스크를 만들 수 있는지 보여준다.
tinyppo-snake는 브라우저 안에서 PPO 강화학습을 시각화하며, AI 교육이 거대 모델 설명보다 작은 실험 환경으로 이동하고 있음을 보여준다.
Borealis의 순수 OCaml 우주 프로토콜 스택은 안전한 언어와 검증 가능한 프로토콜이 위성 소프트웨어 경쟁력이 될 수 있음을 보여준다.
AI로 글과 코드를 대체하다 보면 생산성은 오르지만 자기 언어와 손코딩 감각이 약해질 수 있다는 개발자들의 불안을 분석한다.
Infracost의 채용 공고는 AI 에이전트가 코드를 쓰는 시대에 비용 검토가 CI와 IDE 안으로 이동하고 있음을 보여준다.
RTX 5090 eGPU를 M4 맥북 에어에 연결한 실험은 게임보다 로컬 AI 추론과 플랫폼 경계의 비용을 더 선명하게 보여준다.