노르웨이 2PB AI 저장소, 주권 LLM의 현실 비용

노르웨이 사례가 던진 질문

Blocks & Files는 노르웨이 국립도서관의 LLM 훈련 파이프라인을 보도하며 2PB 규모 Huawei OceanStor Dorado 플래시 스토리지가 투입됐다고 전했다. 기사에 따르면 노르웨이 국립도서관은 2005년부터 축적한 디지털 자료를 바탕으로 노르웨이어를 이해하는 주권 LLM을 만들고 있으며, 보존용 60PB급 데이터 체계와 훈련 준비용 2PB 플래시 계층을 분리해 운영한다.

이 뉴스의 핵심은 “노르웨이가 LLM을 만든다”가 아니다. 비영어권 국가가 자국어 AI를 만들 때 진짜 병목이 GPU 이전의 데이터 파이프라인이라는 점이다. 노르웨이 국립도서관은 법정 납본을 통해 책, 신문, 방송, 웹 자료를 장기간 모아 왔다. 일반 기업이 살 수 없는 문화 데이터와 저작권 협의가 존재한다. 이는 AgentHub의 미국 AI 우위의 핵심은 상용화 스택이다와 반대편 질문을 만든다. 작은 언어권은 어떤 공공 스택으로 AI 격차를 줄일 수 있을까.

GPU보다 어려운 것은 데이터 이동이다

보도에 따르면 도서관은 보존 목적의 디스크·테이프 아카이브와 저지연 AI 파이프라인을 따로 둔다. 보존 시스템은 3-2-1 원칙, 즉 세 개 사본, 두 종류 매체, 하나의 오프사이트 보관을 중시한다. 반면 LLM 전처리에는 OCR 결과, 메타데이터, 중복 제거, 정규화, 검증을 빠르게 반복할 수 있는 병렬 I/O가 필요하다. 그래서 2PB 플래시 계층이 “훈련 전 공장” 역할을 한다.

실제 훈련은 노르웨이 국가 슈퍼컴퓨팅 인프라 Sigma2의 Olivia 시스템으로 넘어간다. 보도는 Olivia가 HPE Cray Supercomputing EX 계열, 448개 GPU, 64,512개 CPU 코어, 5.3PB ClusterStor E1000 저장소를 갖췄다고 설명한다. 즉 주권 LLM은 하나의 거대한 클러스터가 아니라 보존 아카이브, 전처리 플래시, 국가 슈퍼컴퓨터를 연결하는 오케스트레이션 문제다.

계층	목적	필요한 성능	실패하면 생기는 문제
문화유산 아카이브	장기 보존과 원본성	내구성, 낮은 비용	데이터 손실·출처 불명확
AI 전처리 저장소	정제·중복 제거·검증	낮은 지연, 병렬 I/O	GPU가 대기하고 비용이 증가
슈퍼컴퓨터	대규모 학습 실행	GPU 처리량, 고속 파일시스템	학습 주기 지연
평가·거버넌스	품질과 사용 범위 결정	언어별 벤치마크, 정책	모델은 있어도 신뢰 부족

한국에 주는 시사점

한국어는 영어보다 데이터 생태계가 작지만, 공공·언론·출판·방송 자료의 밀도는 높다. 문제는 접근권과 파이프라인이다. 국립중앙도서관, 방송 아카이브, 학술 데이터, 공공문서가 흩어져 있고 저작권 협의도 기관별로 다르다. 노르웨이 사례는 “한국어 LLM을 잘 만들자”는 구호보다 누가 데이터를 보존하고, 누가 학습 가능 권리를 조정하며, 누가 평가를 책임질지를 묻는다.

HBM이 AI 칩 비용의 63%가 됐다는 의미가 하드웨어 비용 구조를 보여줬다면, 이번 사례는 저장소와 데이터 준비 비용을 보여준다. xAI 가스터빈 논란, AI 인프라의 비용을 드러내다처럼 전력·냉각만이 인프라 비용은 아니다. 페타바이트 자료를 읽고 정제하고 평가하는 시간이 곧 국가 AI 프로젝트의 숨은 비용이다.

경쟁 구도: 빅테크 모델과 공공 언어모델

OpenAI, Google, Anthropic 같은 빅테크 모델은 범용 성능에서 앞서지만, 지역 언어의 역사적 문체, 방언, 오래된 신문 OCR 오류, 행정 용어까지 깊게 반영하기는 어렵다. 노르웨이어처럼 두 개의 공식 문어와 여러 방언이 있는 언어에서는 평가 도구 자체를 새로 만들어야 한다. 한국어도 법률문, 고문헌, 방언, 한자 혼용 자료를 생각하면 비슷한 과제를 갖고 있다.

흥미로운 지점은 Huawei 장비의 존재다. Huawei OceanStor Dorado 같은 중국계 인프라가 유럽 공공 AI 파이프라인에 들어간다는 사실은 공급망 논쟁을 피하기 어렵게 한다. 주권 AI는 데이터 주권만이 아니라 하드웨어 공급망, 유지보수 권한, 보안 감사까지 포함한다. Mistral의 Emmi 인수, 산업 AI 스택 경쟁의 시작에서 본 유럽식 산업 AI 스택 경쟁도 같은 맥락이다.

자주 묻는 질문

Q1: 주권 LLM은 왜 필요한가요?

A: 지역 언어, 역사, 법제, 문화 자료가 충분히 반영된 모델을 공공 목적에 안정적으로 쓰기 위해서다.

Q2: 2PB 플래시는 과한 투자인가요?

A: 보존용 전체 데이터가 60PB 규모라면 전처리 병목을 줄이기 위한 작업 계층으로 볼 수 있다. 단순 저장보다 반복 정제 속도가 중요하다.

Q3: 한국도 같은 방식을 따라야 하나요?

A: 구조는 참고할 만하지만 장비와 규모를 그대로 복제할 필요는 없다. 먼저 데이터 권리와 평가 체계를 정리해야 한다.

Q4: 상용 LLM으로 충분하지 않나요?

A: 일반 서비스에는 충분할 수 있지만 공공 기록, 문화 보존, 행정 언어처럼 정확성과 책임성이 필요한 영역은 별도 모델이나 보강 체계가 필요하다.

Q5: 개발자에게 가장 중요한 포인트는 무엇인가요?

A: AI 프로젝트에서 데이터 파이프라인, 메타데이터, 평가 도구가 모델 아키텍처만큼 중요해졌다는 점이다.

노르웨이 2PB AI 저장소, 주권 LLM의 현실 비용

AI 뉴스를 놓치지 마세요

노르웨이 사례가 던진 질문

GPU보다 어려운 것은 데이터 이동이다

한국에 주는 시사점

경쟁 구도: 빅테크 모델과 공공 언어모델

자주 묻는 질문

Q1: 주권 LLM은 왜 필요한가요?

Q2: 2PB 플래시는 과한 투자인가요?

Q3: 한국도 같은 방식을 따라야 하나요?

Q4: 상용 LLM으로 충분하지 않나요?

Q5: 개발자에게 가장 중요한 포인트는 무엇인가요?

관련 토픽 더 보기

관련 기사

xAI 가스터빈 논란, AI 인프라의 비용을 드러내다

OpenAI WebRTC 논쟁, 음성 AI 인프라의 선택지가 갈린다

Copy Fail 취약점, AI 인프라의 리눅스 운영 리스크를 드러내다

구글 400억달러 앤트로픽 딜, AI 인프라 전쟁이 더 거세진다

HBM이 AI 칩 비용의 63%가 됐다는 의미