마이크로소프트, MAI 파운데이션 모델 3종 공개: 음성·이미지 경쟁 본격화

마이크로소프트 AI 연구소(Microsoft AI)가 2026년 4월 2일, 텍스트·음성·이미지를 각각 담당하는 세 가지 파운데이션 모델을 공개했다. MAI-Transcribe-1(음성→텍스트), MAI-Voice-1(텍스트→음성), MAI-Image-2(이미지 생성) 세 모델은 모두 Microsoft Foundry를 통해 제공되며, OpenAI·Google 대비 저렴한 가격을 핵심 경쟁력으로 내세웠다. 이 모델들은 Mustafa Suleyman이 이끄는 MAI 슈퍼인텔리전스팀이 2025년 11월 창설 이후 약 5개월 만에 내놓은 첫 번째 상업적 결과물이다.

MAI-Transcribe-1: 25개 언어, Azure Fast 대비 2.5배 빠른 전사

MAI-Transcribe-1은 25개 언어의 음성을 텍스트로 전환하는 STT(Speech-to-Text) 모델이다. 마이크로소프트는 기존 Azure Fast 서비스 대비 2.5배 빠른 처리 속도를 강조했다. 가격은 시간당 $0.36에서 시작한다.

현재 음성-텍스트 변환 시장에서는 OpenAI Whisper API($0.006/분)와 Google STT($0.024/분 기준)가 주요 경쟁자다. MAI-Transcribe-1의 정확한 가격 비교는 처리 속도와 언어 다양성을 함께 고려해야 한다. 한국어 지원 여부는 공식 문서에서 확인이 필요하지만, 25개 언어 지원 범위에 포함 가능성이 있다. 오픈AI 위스퍼 API 대비 속도 우위가 실제 프로덕션 환경에서 어떻게 작동할지가 관건이다.

MAI Playground에서도 직접 테스트가 가능하다. 기업 고객 입장에서는 Azure 인프라와의 통합 용이성이 가장 큰 장점이 될 수 있다.

MAI-Voice-1: 1초에 60초 분량 음성 생성, 커스텀 보이스 지원

MAI-Voice-1은 텍스트를 음성으로 변환하는 TTS(Text-to-Speech) 모델로, 1초 안에 60초 분량의 음성을 생성할 수 있다고 마이크로소프트는 밝혔다. 또한 사용자가 자신만의 커스텀 보이스를 생성할 수 있다. 가격은 100만 자(character)당 $22에서 시작한다.

이 모델은 ElevenLabs의 TTS 서비스와 직접 경쟁 구도에 놓인다. ElevenLabs가 같은 날 음악 생성 앱 ElevenMusic을 출시한 것과 맞물려, 음성 AI 시장의 경쟁이 단순 음성 합성을 넘어 음악, 에이전트 통합, 커스텀 보이스 등으로 빠르게 확장되고 있음을 보여준다.

국내 개발자 관점에서 MAI-Voice-1은 Azure를 이미 사용하는 기업 환경에서 추가 통합 비용 없이 TTS 기능을 내재화할 수 있다는 점이 매력적이다. 고객 서비스 챗봇, 콘텐츠 나레이션, 접근성 기능 구현에 즉시 활용 가능하다.

MAI-Image-2: 이미지 생성 모델, 3월 19일 MAI Playground 선공개 후 Foundry 이관

MAI-Image-2는 이미지 생성 모델로, 2026년 3월 19일 MAI Playground에 먼저 공개됐다가 이번에 Microsoft Foundry로 이관됐다. 가격은 이미지 생성 시 $5부터 시작한다.

Stable Diffusion, DALL-E 3, Ideogram 등 경쟁 모델이 이미 시장에 자리잡은 상황에서 MAI-Image-2의 차별점은 기업 환경과의 통합 용이성이다. Microsoft 365 및 Azure 생태계 내에서 이미지 생성 기능을 워크플로우에 직접 내장할 수 있다는 점이 엔터프라이즈 고객에게 어필할 수 있다.

모델	유형	가격	주요 특징
MAI-Transcribe-1	음성→텍스트	$0.36/시간	25개 언어, Azure Fast 대비 2.5배 속도
MAI-Voice-1	텍스트→음성	$22/100만자	1초에 60초 생성, 커스텀 보이스
MAI-Image-2	이미지 생성	$5~/ 이미지	Foundry 통합, 엔터프라이즈 최적화
OpenAI Whisper	음성→텍스트	$0.006/분	광범위한 에코시스템
ElevenLabs TTS	텍스트→음성	$22/100만자~	고품질 음성, 감정 표현
Google STT	음성→텍스트	$0.024/분~	GCP 통합

마이크로소프트 AI의 전략: OpenAI 의존도 탈피?

이번 발표에서 주목할 점은 마이크로소프트가 자체 멀티모달 모델 스택 구축에 본격적으로 나섰다는 신호라는 점이다. 마이크로소프트는 OpenAI에 수백억 달러를 투자했지만, 독자적인 AI 역량 확보를 병행 추진해왔다. Mustafa Suleyman의 MAI 슈퍼인텔리전스팀이 2025년 11월 출범한 지 5개월 만에 세 가지 상업용 모델을 내놓은 것은 이 전략의 첫 가시적 성과다.

Suleyman은 블로그 포스트에서 "인간 중심 AI(Humanist AI)"를 표방하며 "사람들이 실제로 소통하는 방식을 최적화"했다고 강조했다. 이는 기존 LLM들이 기술 성능 지표에 집중하는 것과 다른 접근법으로, 실용성과 접근성을 앞세운 포지셔닝이다.

OpenAI의 1,220억 달러 투자 유치와 8,520억 달러 기업가치 소식이 나온 직후, 마이크로소프트가 독자 모델을 발표한 것은 AI 생태계 내 권력 구도의 복잡성을 보여준다. 파트너이자 경쟁자 관계가 더욱 긴밀해지는 양상이다.

국내 기업들이 Slack AI의 30개 신기능 같은 생산성 도구 AI 통합에 관심을 보이는 상황에서, Microsoft Foundry를 통한 음성·이미지 기능의 워크플로우 내재화는 실질적인 선택지가 될 수 있다.

한국 시장 영향: Azure 기반 기업 고객 대상 직접 통합 기회

한국의 대기업과 스타트업 모두 Azure를 주요 클라우드 플랫폼으로 활용하는 경우가 많다. MAI 모델들이 Microsoft Foundry를 통해 제공된다는 점에서 기존 Azure 고객은 추가적인 API 키 관리나 타사 서비스 계약 없이 음성·이미지 AI 기능을 통합할 수 있다.

특히 국내 금융권, 공공기관, 대기업처럼 데이터 처리 지역성(data residency)과 규정 준수가 중요한 환경에서 Azure 내부의 AI 기능 통합은 외부 API 의존을 줄이는 실질적인 이점이 있다.

FAQ

Q1: MAI-Transcribe-1이 한국어를 지원하나요?

A: 마이크로소프트는 25개 언어를 지원한다고 발표했지만, 공식 문서에서 구체적인 언어 목록을 확인해야 합니다. 기존 Azure Speech Service가 한국어를 지원했으므로 MAI-Transcribe-1에도 포함될 가능성이 높습니다.

Q2: MAI-Voice-1의 커스텀 보이스는 어떻게 만드나요?

A: 공식 발표에 따르면 커스텀 보이스 생성 기능을 제공한다고 했지만, 구체적인 샘플 음성 길이나 학습 과정은 Microsoft Foundry 문서에서 확인이 필요합니다.

Q3: MAI-Image-2와 DALL-E 3의 차이는 무엇인가요?

A: DALL-E 3는 OpenAI 제공 서비스이며, MAI-Image-2는 마이크로소프트가 자체 개발한 모델입니다. Azure 환경에서의 통합 편의성과 가격 경쟁력에서 차이가 있을 수 있으며, 이미지 품질 비교는 실제 사용 사례별로 다릅니다.

Q4: 이 모델들은 OpenAI의 제품과 경쟁하나요?

A: 기술적으로는 유사한 기능을 제공하지만, 마이크로소프트는 OpenAI와의 파트너십을 유지하면서 보완적 위치를 표방합니다. 특히 가격 경쟁력과 Azure 통합 편의성을 앞세워 차별화를 꾀하고 있습니다.

Q5: Microsoft Foundry는 무엇인가요?

A: Microsoft Foundry는 마이크로소프트의 AI 모델 호스팅 및 배포 플랫폼으로, Azure 인프라 위에서 다양한 AI 모델을 API 형태로 제공합니다. 개발자는 Foundry를 통해 MAI 모델 외에도 다양한 서드파티 모델에 접근할 수 있습니다.

외부 참고 링크

마이크로소프트, MAI 파운데이션 모델 3종 공개: 음성·이미지 경쟁 본격화

AI 뉴스를 놓치지 마세요

MAI-Transcribe-1: 25개 언어, Azure Fast 대비 2.5배 빠른 전사

MAI-Voice-1: 1초에 60초 분량 음성 생성, 커스텀 보이스 지원

MAI-Image-2: 이미지 생성 모델, 3월 19일 MAI Playground 선공개 후 Foundry 이관

마이크로소프트 AI의 전략: OpenAI 의존도 탈피?

한국 시장 영향: Azure 기반 기업 고객 대상 직접 통합 기회

FAQ

Q1: MAI-Transcribe-1이 한국어를 지원하나요?

Q2: MAI-Voice-1의 커스텀 보이스는 어떻게 만드나요?

Q3: MAI-Image-2와 DALL-E 3의 차이는 무엇인가요?

Q4: 이 모델들은 OpenAI의 제품과 경쟁하나요?

Q5: Microsoft Foundry는 무엇인가요?

관련 토픽 더 보기

관련 기사

마이크로소프트 Foundry, AI 핵심 모델 3종 전격 공개… 시장 판도 흔들까

AMD GAIA Gmail 연동, 로컬 AI 에이전트가 메일함에 들어왔다

마이크로소프트 AI Max 공개, 검색 광고도 에이전트 시대

마이크로소프트 LLM 훈련용 해리포터 불법 다운로드 가이드 논란

마이크로소프트 코파일럿 챗봇, 심각한 문제에 직면