본문으로 건너뛰기
뉴스 목록으로

마이크로소프트, MAI 파운데이션 모델 3종 공개: 음성·이미지 경쟁 본격화

마이크로소프트, MAI 파운데이션 모델 3종 공개: 음성·이미지 경쟁 본격화

마이크로소프트가 OpenAI에 대한 의존도를 줄이면서 직접 멀티모달 파운데이션 모델 스택을 구축하기 시작했다는 점은, Azure 중심 기업 AI 시장의 판도 변화를 예고한다.

AI 뉴스를 놓치지 마세요

매주 핵심 AI 소식을 이메일로 받아보세요.

마이크로소프트 AI 연구소(Microsoft AI)가 2026년 4월 2일, 텍스트·음성·이미지를 각각 담당하는 세 가지 파운데이션 모델을 공개했다. MAI-Transcribe-1(음성→텍스트), MAI-Voice-1(텍스트→음성), MAI-Image-2(이미지 생성) 세 모델은 모두 Microsoft Foundry를 통해 제공되며, OpenAI·Google 대비 저렴한 가격을 핵심 경쟁력으로 내세웠다. 이 모델들은 Mustafa Suleyman이 이끄는 MAI 슈퍼인텔리전스팀이 2025년 11월 창설 이후 약 5개월 만에 내놓은 첫 번째 상업적 결과물이다.

MAI-Transcribe-1: 25개 언어, Azure Fast 대비 2.5배 빠른 전사

MAI-Transcribe-1은 25개 언어의 음성을 텍스트로 전환하는 STT(Speech-to-Text) 모델이다. 마이크로소프트는 기존 Azure Fast 서비스 대비 2.5배 빠른 처리 속도를 강조했다. 가격은 시간당 $0.36에서 시작한다.

현재 음성-텍스트 변환 시장에서는 OpenAI Whisper API($0.006/분)와 Google STT($0.024/분 기준)가 주요 경쟁자다. MAI-Transcribe-1의 정확한 가격 비교는 처리 속도와 언어 다양성을 함께 고려해야 한다. 한국어 지원 여부는 공식 문서에서 확인이 필요하지만, 25개 언어 지원 범위에 포함 가능성이 있다. 오픈AI 위스퍼 API 대비 속도 우위가 실제 프로덕션 환경에서 어떻게 작동할지가 관건이다.

MAI Playground에서도 직접 테스트가 가능하다. 기업 고객 입장에서는 Azure 인프라와의 통합 용이성이 가장 큰 장점이 될 수 있다.

MAI-Voice-1: 1초에 60초 분량 음성 생성, 커스텀 보이스 지원

MAI-Voice-1은 텍스트를 음성으로 변환하는 TTS(Text-to-Speech) 모델로, 1초 안에 60초 분량의 음성을 생성할 수 있다고 마이크로소프트는 밝혔다. 또한 사용자가 자신만의 커스텀 보이스를 생성할 수 있다. 가격은 100만 자(character)당 $22에서 시작한다.

이 모델은 ElevenLabs의 TTS 서비스와 직접 경쟁 구도에 놓인다. ElevenLabs가 같은 날 음악 생성 앱 ElevenMusic을 출시한 것과 맞물려, 음성 AI 시장의 경쟁이 단순 음성 합성을 넘어 음악, 에이전트 통합, 커스텀 보이스 등으로 빠르게 확장되고 있음을 보여준다.

국내 개발자 관점에서 MAI-Voice-1은 Azure를 이미 사용하는 기업 환경에서 추가 통합 비용 없이 TTS 기능을 내재화할 수 있다는 점이 매력적이다. 고객 서비스 챗봇, 콘텐츠 나레이션, 접근성 기능 구현에 즉시 활용 가능하다.

MAI-Image-2: 이미지 생성 모델, 3월 19일 MAI Playground 선공개 후 Foundry 이관

MAI-Image-2는 이미지 생성 모델로, 2026년 3월 19일 MAI Playground에 먼저 공개됐다가 이번에 Microsoft Foundry로 이관됐다. 가격은 이미지 생성 시 $5부터 시작한다.

Stable Diffusion, DALL-E 3, Ideogram 등 경쟁 모델이 이미 시장에 자리잡은 상황에서 MAI-Image-2의 차별점은 기업 환경과의 통합 용이성이다. Microsoft 365 및 Azure 생태계 내에서 이미지 생성 기능을 워크플로우에 직접 내장할 수 있다는 점이 엔터프라이즈 고객에게 어필할 수 있다.

모델유형가격주요 특징
MAI-Transcribe-1음성→텍스트$0.36/시간25개 언어, Azure Fast 대비 2.5배 속도
MAI-Voice-1텍스트→음성$22/100만자1초에 60초 생성, 커스텀 보이스
MAI-Image-2이미지 생성$5~/ 이미지Foundry 통합, 엔터프라이즈 최적화
OpenAI Whisper음성→텍스트$0.006/분광범위한 에코시스템
ElevenLabs TTS텍스트→음성$22/100만자~고품질 음성, 감정 표현
Google STT음성→텍스트$0.024/분~GCP 통합

마이크로소프트 AI의 전략: OpenAI 의존도 탈피?

이번 발표에서 주목할 점은 마이크로소프트가 자체 멀티모달 모델 스택 구축에 본격적으로 나섰다는 신호라는 점이다. 마이크로소프트는 OpenAI에 수백억 달러를 투자했지만, 독자적인 AI 역량 확보를 병행 추진해왔다. Mustafa Suleyman의 MAI 슈퍼인텔리전스팀이 2025년 11월 출범한 지 5개월 만에 세 가지 상업용 모델을 내놓은 것은 이 전략의 첫 가시적 성과다.

Suleyman은 블로그 포스트에서 "인간 중심 AI(Humanist AI)"를 표방하며 "사람들이 실제로 소통하는 방식을 최적화"했다고 강조했다. 이는 기존 LLM들이 기술 성능 지표에 집중하는 것과 다른 접근법으로, 실용성과 접근성을 앞세운 포지셔닝이다.

OpenAI의 1,220억 달러 투자 유치와 8,520억 달러 기업가치 소식이 나온 직후, 마이크로소프트가 독자 모델을 발표한 것은 AI 생태계 내 권력 구도의 복잡성을 보여준다. 파트너이자 경쟁자 관계가 더욱 긴밀해지는 양상이다.

국내 기업들이 Slack AI의 30개 신기능 같은 생산성 도구 AI 통합에 관심을 보이는 상황에서, Microsoft Foundry를 통한 음성·이미지 기능의 워크플로우 내재화는 실질적인 선택지가 될 수 있다.

한국 시장 영향: Azure 기반 기업 고객 대상 직접 통합 기회

한국의 대기업과 스타트업 모두 Azure를 주요 클라우드 플랫폼으로 활용하는 경우가 많다. MAI 모델들이 Microsoft Foundry를 통해 제공된다는 점에서 기존 Azure 고객은 추가적인 API 키 관리나 타사 서비스 계약 없이 음성·이미지 AI 기능을 통합할 수 있다.

특히 국내 금융권, 공공기관, 대기업처럼 데이터 처리 지역성(data residency)과 규정 준수가 중요한 환경에서 Azure 내부의 AI 기능 통합은 외부 API 의존을 줄이는 실질적인 이점이 있다.

FAQ

Q1: MAI-Transcribe-1이 한국어를 지원하나요?

A: 마이크로소프트는 25개 언어를 지원한다고 발표했지만, 공식 문서에서 구체적인 언어 목록을 확인해야 합니다. 기존 Azure Speech Service가 한국어를 지원했으므로 MAI-Transcribe-1에도 포함될 가능성이 높습니다.

Q2: MAI-Voice-1의 커스텀 보이스는 어떻게 만드나요?

A: 공식 발표에 따르면 커스텀 보이스 생성 기능을 제공한다고 했지만, 구체적인 샘플 음성 길이나 학습 과정은 Microsoft Foundry 문서에서 확인이 필요합니다.

Q3: MAI-Image-2와 DALL-E 3의 차이는 무엇인가요?

A: DALL-E 3는 OpenAI 제공 서비스이며, MAI-Image-2는 마이크로소프트가 자체 개발한 모델입니다. Azure 환경에서의 통합 편의성과 가격 경쟁력에서 차이가 있을 수 있으며, 이미지 품질 비교는 실제 사용 사례별로 다릅니다.

Q4: 이 모델들은 OpenAI의 제품과 경쟁하나요?

A: 기술적으로는 유사한 기능을 제공하지만, 마이크로소프트는 OpenAI와의 파트너십을 유지하면서 보완적 위치를 표방합니다. 특히 가격 경쟁력과 Azure 통합 편의성을 앞세워 차별화를 꾀하고 있습니다.

Q5: Microsoft Foundry는 무엇인가요?

A: Microsoft Foundry는 마이크로소프트의 AI 모델 호스팅 및 배포 플랫폼으로, Azure 인프라 위에서 다양한 AI 모델을 API 형태로 제공합니다. 개발자는 Foundry를 통해 MAI 모델 외에도 다양한 서드파티 모델에 접근할 수 있습니다.


외부 참고 링크

관련 토픽 더 보기

#microsoft#platform#developer-tools#ai-assistant마이크로소프트 AI음성 AI이미지 생성파운데이션 모델 경쟁

📰 원본 출처

techcrunch.com

이 기사는 AI 기술을 활용하여 작성되었으며, 원본 뉴스 소스를 기반으로 분석 및 해설을 추가한 콘텐츠입니다. 정확한 정보 전달을 위해 노력하고 있으나, 원본 기사를 함께 확인하시기를 권장합니다.

공유

관련 기사

마이크로소프트 LLM 훈련용 해리포터 불법 다운로드 가이드 논란

2026-02-19
#microsoft#developer-tools

마이크로소프트가 공식 개발자 블로그에서 LLM 훈련을 위한 해리포터 시리즈 불법 다운로드 방법을 제시해 논란이 일고 있습니다. AI 훈련 데이터 확보와 저작권 침해 사이의 윤리적 딜레마가 부각되고 있습니다.

마이크로소프트 코파일럿 챗봇, 심각한 문제에 직면

2026-02-05
#microsoft#ai-assistant

마이크로소프트의 핵심 AI 제품인 코파일럿(Copilot) 챗봇이 기술적 문제와 사용자 경험 이슈로 어려움을 겪고 있다고 월스트리트저널이 보도했습니다. 마이크로소프트가 AI 혁명의 선두주자로 자리매김하려는 전략의 핵심 축인 코파일럿의 문제는 회사의 AI 야심에 타격을 줄 ...

ElevenLabs, AI 음악 생성 앱 ElevenMusic 출시: Suno·Udio에 도전

2026-04-03
#ai-assistant#startup

ElevenLabs가 2026년 4월 1일 iOS 앱 ElevenMusic을 정식 출시했다. 하루 7곡 무료 생성, Pro 월 9.99달러, 500GB 저장 공간, 리믹스 기능을 제공하며 음악 생성 AI 경쟁에 뛰어들었다.

Email.md가 제시하는 마크다운 기반 이메일 HTML 변환의 새로운 표준

2026-03-25
#claude#apple

Email.md는 마크다운을 반응형 이메일 안전 HTML로 변환하는 도구로, 개발자들의 이메일 템플릿 제작 생산성을 획기적으로 개선할 혁신적 솔루션입니다.

Microsoft Copilot 버그로 기밀 이메일 요약 노출 사태

2026-02-19
#microsoft#developer-tools

Microsoft Copilot에서 버그로 인해 기밀 이메일이 요약되어 노출되는 심각한 보안 사고가 발생했습니다. 기업 데이터 보안과 AI 도구 사용에 대한 우려가 커지고 있습니다.