노르웨이 2PB AI 저장소, 주권 LLM의 현실 비용
노르웨이 사례는 비영어권 국가의 AI 경쟁력이 GPU 구매량만으로 결정되지 않는다는 신호다. 법정 납본 자료, 저작권 협의, 평가 도구, 초대형 저장소 파이프라인이 함께 있어야 지역 언어모델이 작동한다.
AI 뉴스를 놓치지 마세요
매주 핵심 AI 소식을 이메일로 받아보세요.
노르웨이 사례가 던진 질문
Blocks & Files는 노르웨이 국립도서관의 LLM 훈련 파이프라인을 보도하며 2PB 규모 Huawei OceanStor Dorado 플래시 스토리지가 투입됐다고 전했다. 기사에 따르면 노르웨이 국립도서관은 2005년부터 축적한 디지털 자료를 바탕으로 노르웨이어를 이해하는 주권 LLM을 만들고 있으며, 보존용 60PB급 데이터 체계와 훈련 준비용 2PB 플래시 계층을 분리해 운영한다.
이 뉴스의 핵심은 “노르웨이가 LLM을 만든다”가 아니다. 비영어권 국가가 자국어 AI를 만들 때 진짜 병목이 GPU 이전의 데이터 파이프라인이라는 점이다. 노르웨이 국립도서관은 법정 납본을 통해 책, 신문, 방송, 웹 자료를 장기간 모아 왔다. 일반 기업이 살 수 없는 문화 데이터와 저작권 협의가 존재한다. 이는 AgentHub의 미국 AI 우위의 핵심은 상용화 스택이다와 반대편 질문을 만든다. 작은 언어권은 어떤 공공 스택으로 AI 격차를 줄일 수 있을까.
GPU보다 어려운 것은 데이터 이동이다
보도에 따르면 도서관은 보존 목적의 디스크·테이프 아카이브와 저지연 AI 파이프라인을 따로 둔다. 보존 시스템은 3-2-1 원칙, 즉 세 개 사본, 두 종류 매체, 하나의 오프사이트 보관을 중시한다. 반면 LLM 전처리에는 OCR 결과, 메타데이터, 중복 제거, 정규화, 검증을 빠르게 반복할 수 있는 병렬 I/O가 필요하다. 그래서 2PB 플래시 계층이 “훈련 전 공장” 역할을 한다.
실제 훈련은 노르웨이 국가 슈퍼컴퓨팅 인프라 Sigma2의 Olivia 시스템으로 넘어간다. 보도는 Olivia가 HPE Cray Supercomputing EX 계열, 448개 GPU, 64,512개 CPU 코어, 5.3PB ClusterStor E1000 저장소를 갖췄다고 설명한다. 즉 주권 LLM은 하나의 거대한 클러스터가 아니라 보존 아카이브, 전처리 플래시, 국가 슈퍼컴퓨터를 연결하는 오케스트레이션 문제다.
| 계층 | 목적 | 필요한 성능 | 실패하면 생기는 문제 |
|---|---|---|---|
| 문화유산 아카이브 | 장기 보존과 원본성 | 내구성, 낮은 비용 | 데이터 손실·출처 불명확 |
| AI 전처리 저장소 | 정제·중복 제거·검증 | 낮은 지연, 병렬 I/O | GPU가 대기하고 비용이 증가 |
| 슈퍼컴퓨터 | 대규모 학습 실행 | GPU 처리량, 고속 파일시스템 | 학습 주기 지연 |
| 평가·거버넌스 | 품질과 사용 범위 결정 | 언어별 벤치마크, 정책 | 모델은 있어도 신뢰 부족 |
한국에 주는 시사점
한국어는 영어보다 데이터 생태계가 작지만, 공공·언론·출판·방송 자료의 밀도는 높다. 문제는 접근권과 파이프라인이다. 국립중앙도서관, 방송 아카이브, 학술 데이터, 공공문서가 흩어져 있고 저작권 협의도 기관별로 다르다. 노르웨이 사례는 “한국어 LLM을 잘 만들자”는 구호보다 누가 데이터를 보존하고, 누가 학습 가능 권리를 조정하며, 누가 평가를 책임질지를 묻는다.
HBM이 AI 칩 비용의 63%가 됐다는 의미가 하드웨어 비용 구조를 보여줬다면, 이번 사례는 저장소와 데이터 준비 비용을 보여준다. xAI 가스터빈 논란, AI 인프라의 비용을 드러내다처럼 전력·냉각만이 인프라 비용은 아니다. 페타바이트 자료를 읽고 정제하고 평가하는 시간이 곧 국가 AI 프로젝트의 숨은 비용이다.
경쟁 구도: 빅테크 모델과 공공 언어모델
OpenAI, Google, Anthropic 같은 빅테크 모델은 범용 성능에서 앞서지만, 지역 언어의 역사적 문체, 방언, 오래된 신문 OCR 오류, 행정 용어까지 깊게 반영하기는 어렵다. 노르웨이어처럼 두 개의 공식 문어와 여러 방언이 있는 언어에서는 평가 도구 자체를 새로 만들어야 한다. 한국어도 법률문, 고문헌, 방언, 한자 혼용 자료를 생각하면 비슷한 과제를 갖고 있다.
흥미로운 지점은 Huawei 장비의 존재다. Huawei OceanStor Dorado 같은 중국계 인프라가 유럽 공공 AI 파이프라인에 들어간다는 사실은 공급망 논쟁을 피하기 어렵게 한다. 주권 AI는 데이터 주권만이 아니라 하드웨어 공급망, 유지보수 권한, 보안 감사까지 포함한다. Mistral의 Emmi 인수, 산업 AI 스택 경쟁의 시작에서 본 유럽식 산업 AI 스택 경쟁도 같은 맥락이다.
자주 묻는 질문
Q1: 주권 LLM은 왜 필요한가요?
A: 지역 언어, 역사, 법제, 문화 자료가 충분히 반영된 모델을 공공 목적에 안정적으로 쓰기 위해서다.
Q2: 2PB 플래시는 과한 투자인가요?
A: 보존용 전체 데이터가 60PB 규모라면 전처리 병목을 줄이기 위한 작업 계층으로 볼 수 있다. 단순 저장보다 반복 정제 속도가 중요하다.
Q3: 한국도 같은 방식을 따라야 하나요?
A: 구조는 참고할 만하지만 장비와 규모를 그대로 복제할 필요는 없다. 먼저 데이터 권리와 평가 체계를 정리해야 한다.
Q4: 상용 LLM으로 충분하지 않나요?
A: 일반 서비스에는 충분할 수 있지만 공공 기록, 문화 보존, 행정 언어처럼 정확성과 책임성이 필요한 영역은 별도 모델이나 보강 체계가 필요하다.
Q5: 개발자에게 가장 중요한 포인트는 무엇인가요?
A: AI 프로젝트에서 데이터 파이프라인, 메타데이터, 평가 도구가 모델 아키텍처만큼 중요해졌다는 점이다.
관련 토픽 더 보기
📰 원본 출처
blocksandfiles.com이 기사는 AI 기술을 활용하여 작성되었으며, 원본 뉴스 소스를 기반으로 분석 및 해설을 추가한 콘텐츠입니다. 정확한 정보 전달을 위해 노력하고 있으나, 원본 기사를 함께 확인하시기를 권장합니다.