RTX 5090을 맥북 에어에 붙인 실험의 의미

원문은 M4 MacBook Air에 NVIDIA RTX 5090을 Thunderbolt eGPU로 연결하고, ARM Linux VM과 QEMU 패치, NVIDIA 드라이버 우회, FEX/Proton 계층을 겹쳐 게임과 로컬 LLM 추론을 돌린 긴 실험기다. 겉으로는 괴짜식 게이밍 프로젝트처럼 보이지만, AI 개발자에게 더 중요한 메시지는 따로 있다. 로컬 AI의 병목은 모델만이 아니라 드라이버, 버스, 권한, 가상화 API, 운영체제 전략 전체라는 점이다.

왜 중요한가

Apple Silicon은 CPU와 통합 메모리 효율이 강력하지만, macOS는 Apple Silicon용 NVIDIA/AMD 외장 GPU 드라이버를 제공하지 않는다. 그래서 실험자는 macOS가 Thunderbolt 장치를 볼 수 있다는 점과 Linux가 NVIDIA GPU를 잘 다룬다는 점을 이어 붙였다. 결과는 ‘가능은 하다’였다. 하지만 그 가능성은 Thunderbolt 4의 40Gbps 링크, ARM VM, x86 에뮬레이션, Windows 게임을 Linux에서 돌리는 Proton, GPU 메모리 매핑 제한을 모두 통과해야 했다.

게임 결과는 냉정하다. 720p Low에서는 M4 Air 내장 GPU가 eGPU 구성보다 낫고, 4K RT Ultra에서는 eGPU가 Cyberpunk 2077을 약 3fps에서 27fps, 프레임 생성 사용 시 111fps 수준으로 끌어올렸다. 반면 같은 RTX 5090을 일반 PCIe 슬롯에 꽂은 PC는 여전히 2~4배 빠르다. Thunderbolt, VM, FEX, Proton의 비용이 한꺼번에 붙기 때문이다.

AI 추론에서는 다른 그림이 나온다

재미있는 부분은 로컬 LLM이다. 원문은 Qwen 3.6 35B MoE 4비트 양자화와 Gemma 4 31B 계열을 비교하며, CUDA가 ARM64 Linux에서 네이티브로 작동할 때 eGPU의 장점이 훨씬 커진다고 설명한다. Qwen 단일 스트림 생성 속도는 M4 Air 대비 RTX 5090 구성이 6.5배 빠르고, 4K 토큰 프롬프트 prefill은 17초에서 약 150ms로 줄어 100배 이상 차이가 났다. 게임에서는 CPU/호환성 계층이 발목을 잡지만, LLM 추론에서는 많은 연산이 카드 내부에서 끝나기 때문에 Thunderbolt 손실이 상대적으로 작아진다.

이 지점은 로컬 AI 기본값 논쟁과 맞닿아 있다. 온디바이스가 항상 답은 아니지만, 개인정보·지연시간·비용을 이유로 로컬 추론 수요는 계속 커진다. 동시에 Swift로 LLM을 훈련한다는 것이 보여준 것처럼 Apple 생태계 내부 도구만으로 모든 워크로드를 해결하기에는 CUDA 생태계의 축적이 여전히 크다.

플랫폼 경계가 성능을 결정한다

항목	실험에서 드러난 사실	개발자에게 주는 의미
Thunderbolt	GravityMark 기준 약 20% 성능 손실	외장 GPU는 PCIe 데스크톱 대체가 아니다
가상화	VM과 BAR 매핑, DMA 제한이 누적	플랫폼 API 품질이 AI 성능에 직접 영향
x86 변환	FEX 비용이 저해상도 게임에서 치명적	네이티브 ARM64 앱·게임이 중요
CUDA	ARM64 Linux에서 강점 유지	로컬 AI 도구는 NVIDIA 생태계와 계속 경쟁해야 함

Apple의 Hypervisor 프레임워크, Game Porting Toolkit, QEMU, tinygrad, NVIDIA GeForce RTX 50 시리즈를 함께 보면, 이 실험은 단일 부품 성능보다 소프트웨어 공급망의 연결성이 더 중요하다는 사례다. GPU 하나를 사도 드라이버와 권한 모델이 닫혀 있으면 성능은 표면에 나오지 않는다.

한국 개발자와 기업의 시사점

한국 팀이 로컬 AI 워크스테이션을 고민한다면 ‘맥이냐 PC냐’보다 워크로드 분리가 먼저다. 모바일 앱, iOS 빌드, 문서·코딩 보조는 Apple Silicon이 매력적이다. 하지만 대형 오픈웨이트 모델 실험, vLLM 서빙, CUDA 커널 최적화, 다중 요청 배치는 여전히 Linux+NVIDIA 조합이 안전하다. 26M Needle처럼 작은 모델의 온디바이스 도구호출이 늘어도, 실험과 운영의 기준선은 GPU 생태계가 만든다.

또 하나의 교훈은 구매 의사결정이다. RTX 5090을 22W급 노트북에 붙이는 구성은 멋지지만, 원문 저자도 ‘사야 할 구성’이 아니라 ‘가능성의 증명’이라고 못박는다. 기업은 이 실험을 조달 목록이 아니라 아키텍처 경고로 읽어야 한다. AI 개발 환경은 노트북 사양표가 아니라 드라이버 업데이트, 가상화 권한, 모델 런타임, 배치 처리, 전력·냉각까지 포함한 시스템이다.

FAQ

이 구성이 일반 사용자에게 추천할 만한가?

아니다. 원문 기준으로 특별 권한, 커스텀 드라이버, QEMU 패치, Linux VM이 필요하다. 일반 구매 가이드가 아니라 연구형 해킹에 가깝다.

게임보다 AI 추론에서 의미가 큰 이유는?

게임은 x86 변환, Proton, CPU 병목, 그래픽 API 차이를 크게 탄다. LLM 추론은 GPU 내부 연산 비중이 높아 Thunderbolt 손실이 상대적으로 작다.

Apple Silicon 자체가 약하다는 뜻인가?

그렇지 않다. 원문에서도 M5 Max 내장 GPU는 1080p 게임에서 매우 강했다. 문제는 특정 CUDA 워크로드와 외장 GPU 확장성이다.

한국 기업은 무엇을 봐야 하나?

맥 기반 개발 경험과 CUDA 기반 AI 실험 환경을 한 장비로 합치려 하기보다, 역할별 워크스테이션과 원격 GPU 풀을 분리하는 전략이 현실적이다.

앞으로 달라질 가능성은?

Linux의 Apple Silicon Thunderbolt 지원, Thunderbolt 5 eGPU, Apple의 권한 부여, ARM64 네이티브 게임이 개선되면 비용은 줄 수 있다. 다만 플랫폼 정책의 영향은 계속 남는다.

RTX 5090을 맥북 에어에 붙인 실험의 의미

AI 뉴스를 놓치지 마세요

왜 중요한가

AI 추론에서는 다른 그림이 나온다

플랫폼 경계가 성능을 결정한다

한국 개발자와 기업의 시사점

FAQ

이 구성이 일반 사용자에게 추천할 만한가?

게임보다 AI 추론에서 의미가 큰 이유는?

Apple Silicon 자체가 약하다는 뜻인가?

한국 기업은 무엇을 봐야 하나?

앞으로 달라질 가능성은?

관련 토픽 더 보기

관련 기사

Swift로 LLM을 훈련한다는 것, Apple Silicon의 빈틈을 본다

맥 미니 품귀와 로컬 AI 붐, 애플 생태계가 달라진다

AMD GAIA Gmail 연동, 로컬 AI 에이전트가 메일함에 들어왔다

로컬 AI 기본값 논쟁, 앱 기능을 굳이 분산시스템으로 만들지 말라는 경고

로컬 AI와 아웃소싱, 프런티어 모델의 비용 압박