RTX 5090을 맥북 에어에 붙인 실험의 의미
이번 실험의 핵심은 ‘맥에서 게임이 되느냐’보다 고성능 GPU가 플랫폼 정책, 드라이버, 가상화 계층을 통과할 때 어떤 비용을 내는지에 있다.
AI 뉴스를 놓치지 마세요
매주 핵심 AI 소식을 이메일로 받아보세요.
원문은 M4 MacBook Air에 NVIDIA RTX 5090을 Thunderbolt eGPU로 연결하고, ARM Linux VM과 QEMU 패치, NVIDIA 드라이버 우회, FEX/Proton 계층을 겹쳐 게임과 로컬 LLM 추론을 돌린 긴 실험기다. 겉으로는 괴짜식 게이밍 프로젝트처럼 보이지만, AI 개발자에게 더 중요한 메시지는 따로 있다. 로컬 AI의 병목은 모델만이 아니라 드라이버, 버스, 권한, 가상화 API, 운영체제 전략 전체라는 점이다.
왜 중요한가
Apple Silicon은 CPU와 통합 메모리 효율이 강력하지만, macOS는 Apple Silicon용 NVIDIA/AMD 외장 GPU 드라이버를 제공하지 않는다. 그래서 실험자는 macOS가 Thunderbolt 장치를 볼 수 있다는 점과 Linux가 NVIDIA GPU를 잘 다룬다는 점을 이어 붙였다. 결과는 ‘가능은 하다’였다. 하지만 그 가능성은 Thunderbolt 4의 40Gbps 링크, ARM VM, x86 에뮬레이션, Windows 게임을 Linux에서 돌리는 Proton, GPU 메모리 매핑 제한을 모두 통과해야 했다.
게임 결과는 냉정하다. 720p Low에서는 M4 Air 내장 GPU가 eGPU 구성보다 낫고, 4K RT Ultra에서는 eGPU가 Cyberpunk 2077을 약 3fps에서 27fps, 프레임 생성 사용 시 111fps 수준으로 끌어올렸다. 반면 같은 RTX 5090을 일반 PCIe 슬롯에 꽂은 PC는 여전히 2~4배 빠르다. Thunderbolt, VM, FEX, Proton의 비용이 한꺼번에 붙기 때문이다.
AI 추론에서는 다른 그림이 나온다
재미있는 부분은 로컬 LLM이다. 원문은 Qwen 3.6 35B MoE 4비트 양자화와 Gemma 4 31B 계열을 비교하며, CUDA가 ARM64 Linux에서 네이티브로 작동할 때 eGPU의 장점이 훨씬 커진다고 설명한다. Qwen 단일 스트림 생성 속도는 M4 Air 대비 RTX 5090 구성이 6.5배 빠르고, 4K 토큰 프롬프트 prefill은 17초에서 약 150ms로 줄어 100배 이상 차이가 났다. 게임에서는 CPU/호환성 계층이 발목을 잡지만, LLM 추론에서는 많은 연산이 카드 내부에서 끝나기 때문에 Thunderbolt 손실이 상대적으로 작아진다.
이 지점은 로컬 AI 기본값 논쟁과 맞닿아 있다. 온디바이스가 항상 답은 아니지만, 개인정보·지연시간·비용을 이유로 로컬 추론 수요는 계속 커진다. 동시에 Swift로 LLM을 훈련한다는 것이 보여준 것처럼 Apple 생태계 내부 도구만으로 모든 워크로드를 해결하기에는 CUDA 생태계의 축적이 여전히 크다.
플랫폼 경계가 성능을 결정한다
| 항목 | 실험에서 드러난 사실 | 개발자에게 주는 의미 |
|---|---|---|
| Thunderbolt | GravityMark 기준 약 20% 성능 손실 | 외장 GPU는 PCIe 데스크톱 대체가 아니다 |
| 가상화 | VM과 BAR 매핑, DMA 제한이 누적 | 플랫폼 API 품질이 AI 성능에 직접 영향 |
| x86 변환 | FEX 비용이 저해상도 게임에서 치명적 | 네이티브 ARM64 앱·게임이 중요 |
| CUDA | ARM64 Linux에서 강점 유지 | 로컬 AI 도구는 NVIDIA 생태계와 계속 경쟁해야 함 |
Apple의 Hypervisor 프레임워크, Game Porting Toolkit, QEMU, tinygrad, NVIDIA GeForce RTX 50 시리즈를 함께 보면, 이 실험은 단일 부품 성능보다 소프트웨어 공급망의 연결성이 더 중요하다는 사례다. GPU 하나를 사도 드라이버와 권한 모델이 닫혀 있으면 성능은 표면에 나오지 않는다.
한국 개발자와 기업의 시사점
한국 팀이 로컬 AI 워크스테이션을 고민한다면 ‘맥이냐 PC냐’보다 워크로드 분리가 먼저다. 모바일 앱, iOS 빌드, 문서·코딩 보조는 Apple Silicon이 매력적이다. 하지만 대형 오픈웨이트 모델 실험, vLLM 서빙, CUDA 커널 최적화, 다중 요청 배치는 여전히 Linux+NVIDIA 조합이 안전하다. 26M Needle처럼 작은 모델의 온디바이스 도구호출이 늘어도, 실험과 운영의 기준선은 GPU 생태계가 만든다.
또 하나의 교훈은 구매 의사결정이다. RTX 5090을 22W급 노트북에 붙이는 구성은 멋지지만, 원문 저자도 ‘사야 할 구성’이 아니라 ‘가능성의 증명’이라고 못박는다. 기업은 이 실험을 조달 목록이 아니라 아키텍처 경고로 읽어야 한다. AI 개발 환경은 노트북 사양표가 아니라 드라이버 업데이트, 가상화 권한, 모델 런타임, 배치 처리, 전력·냉각까지 포함한 시스템이다.
FAQ
이 구성이 일반 사용자에게 추천할 만한가?
아니다. 원문 기준으로 특별 권한, 커스텀 드라이버, QEMU 패치, Linux VM이 필요하다. 일반 구매 가이드가 아니라 연구형 해킹에 가깝다.
게임보다 AI 추론에서 의미가 큰 이유는?
게임은 x86 변환, Proton, CPU 병목, 그래픽 API 차이를 크게 탄다. LLM 추론은 GPU 내부 연산 비중이 높아 Thunderbolt 손실이 상대적으로 작다.
Apple Silicon 자체가 약하다는 뜻인가?
그렇지 않다. 원문에서도 M5 Max 내장 GPU는 1080p 게임에서 매우 강했다. 문제는 특정 CUDA 워크로드와 외장 GPU 확장성이다.
한국 기업은 무엇을 봐야 하나?
맥 기반 개발 경험과 CUDA 기반 AI 실험 환경을 한 장비로 합치려 하기보다, 역할별 워크스테이션과 원격 GPU 풀을 분리하는 전략이 현실적이다.
앞으로 달라질 가능성은?
Linux의 Apple Silicon Thunderbolt 지원, Thunderbolt 5 eGPU, Apple의 권한 부여, ARM64 네이티브 게임이 개선되면 비용은 줄 수 있다. 다만 플랫폼 정책의 영향은 계속 남는다.
관련 토픽 더 보기
📰 원본 출처
scottjg.com이 기사는 AI 기술을 활용하여 작성되었으며, 원본 뉴스 소스를 기반으로 분석 및 해설을 추가한 콘텐츠입니다. 정확한 정보 전달을 위해 노력하고 있으나, 원본 기사를 함께 확인하시기를 권장합니다.