Qwen3-Omni Technical Report
02 Oct 2025 | Qwen
Weekly Paper
한 주에 한 논문을 30분 안에 간단하게 살펴본 결과를 기록하는 포스트입니다.
논문을 살펴볼 때 ChatGPT의 도움을 적극적으로 받으며, 따라서 포스트에 잘못된 내용이나 오류가 있을 수 있습니다.
피드백이나 의견 있으시면 언제든지 연락주세요.
3줄 요약
- Qwen3-Omni는 텍스트·이미지·오디오·비디오를 동시에 다루면서도 단일 모달 모델과 동등하거나 더 나은 성능을 보이는 최초의 오픈소스 멀티모달 LLM임.
- 특히 오디오 인식·생성 분야에서 36개 벤치마크 중 32개에서 최고 성능을 기록, 일부는 GPT-4o·Gemini 같은 폐쇄형 모델보다도 앞섬.
- Thinker-Talker MoE 구조와 초저지연 음성 합성 기술로 실시간 대화가 가능하며, Apache 2.0 라이선스로 공개되어 연구·개발 활용성이 높음.
논문 정보
- 논문 제목: Qwen3-Omni Technical Report
- 저자: Qwen Team (자세한 인원은 원문 링크 참조)
- 원문 링크: arXiv 링크
배경
- 지금까지 멀티모달 모델은 “모든 걸 다 잘한다”라고 해도, 실제로는 특정 영역에서 성능이 떨어지는 경우가 많았음.
- 특히 음성/오디오 영역은 잘 다루는 오픈소스 모델이 거의 없음.
Qwen3-Omni의 해결 방식
- Thinker + Talker 구조로 이해와 생성 역할을 분리 → 효율적.
- MoE(전문가 네트워크)를 써서 불필요한 연산 줄이고 성능 유지.
- 오디오 합성 속도를 기존보다 획기적으로 줄여, 실시간 대화 가능한 수준 확보.
- 다양한 언어 지원으로 “진짜 글로벌 멀티모달 AI” 지향.
Abstract
우리는 Qwen3-Omni를 소개한다. 이는 텍스트, 이미지, 오디오, 비디오를 동시에 다루면서도 단일 모달 모델과 비교해 성능 저하 없이 최첨단(SOTA) 성능을 유지하는 최초의 멀티모달 모델이다. Qwen3-Omni는 Qwen 시리즈의 동일 규모 단일 모달 모델 성능과 맞먹으며, 특히 오디오 과제에서 뛰어나다. 36개의 오디오 및 오디오-비주얼 벤치마크 중, 오픈소스 모델 중 32개에서 SOTA를 달성했고, 전체적으로 22개에서는 폐쇄형 모델(Gemini-2.5-Pro, Seed-ASR, GPT-4o-Transcribe 등)보다 앞섰다.
Qwen3-Omni는 Thinker-Talker MoE 아키텍처를 사용하여 텍스트·이미지·오디오·비디오에서 지각과 생성을 통합한다. 이 덕분에 유창한 텍스트와 자연스러운 실시간 음성을 낼 수 있다. 119개 언어의 텍스트, 19개 언어의 음성 이해, 10개 언어의 음성 생성을 지원한다.
스트리밍 합성 시 지연(latency)을 줄이기 위해 Talker는 멀티 코드북 기반의 이산 음성 코덱을 자기회귀적으로 예측한다. 이 표현력 있는 코드북을 활용해 계산 집약적인 diffusion 대신 가벼운 causal ConvNet을 적용, 첫 프레임부터 스트리밍이 가능하다. 그 결과, cold-start 환경에서 이론적 end-to-end 첫 패킷 지연은 234ms다.
또한 멀티모달 추론을 강화하기 위해 어떤 입력이든 명시적으로 추론하는 Thinking 모델을 도입했다. 연구 커뮤니티에 범용 오디오 캡셔닝 모델이 부족하다는 점을 고려해, 우리는 Qwen3-Omni-30B-A3B를 미세 조정해 Qwen3-Omni-30B-A3B-Captioner를 만들었으며, 이는 임의의 오디오 입력에 대해 환각이 적고 상세한 캡션을 생성한다.
Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, Qwen3-Omni-30B-A3B-Captioner는 Apache 2.0 라이선스 하에 공개된다.
목차 및 요약
1. Introduction
- 지금까지 모델은 보통 텍스트, 이미지, 오디오 등 하나의 모달에 특화됨.
- Qwen3-Omni는 “한 번에 다 잘하는” 모델을 목표로 함.
- 핵심 질문: “모달이 늘어나도 성능이 떨어지지 않을까?” → 답: 성능 유지 + 오디오 쪽은 오히려 강화.
2. Architecture (Thinker-Talker MoE)
- 두 부분으로 나눔:
- Thinker: 추론 담당. 여러 모달 입력(글, 그림, 소리, 영상)을 이해하고 논리적 판단을 수행.
- Talker: 생성 담당. 특히 음성 합성을 빠르고 자연스럽게 함.
- 구조적으로 Mixture of Experts (MoE) 방식을 채택해, 상황마다 필요한 전문가 네트워크만 활성화 → 효율 + 성능 확보.
3. Multilingual Capabilities
- 텍스트는 119개 언어, 음성 이해는 19개 언어, 음성 생성은 10개 언어 지원.
- 언어 장벽을 크게 줄여 글로벌 AI로서 활용 가능.
4. Performance Evaluation
- 36개 오디오/오디오-비주얼 벤치마크 중 32개에서 오픈소스 최고 기록.
- 특히 ASR(자동 음성 인식)과 오디오-텍스트 캡셔닝에서 탁월.
- 구글 Gemini, OpenAI GPT-4o 같은 폐쇄형 모델보다도 여러 영역에서 앞섬.
5. Latency Optimization
- 기존 diffusion 방식은 음성 합성 속도가 느림.
- Qwen3-Omni는 멀티 코드북 기반 ConvNet으로 대체 → 스트리밍 가능.
- 결과: cold start 시 첫 패킷 지연이 234ms로 크게 단축. (사람이 통화할 때 불편하지 않은 수준)
6. Thinking Model
- 단순히 생성만 하는 게 아니라, “명시적 reasoning”을 넣은 버전.
- 여러 모달 데이터를 함께 보고, “왜 이런 답을 내는지” 더 잘 추론.
7. Captioner Extension
- 오디오를 설명하는 모델이 아직 희소함.
- 그래서 Qwen3-Omni를 미세조정해 Captioner 모델을 공개.
- 음악, 소리, 상황 설명을 정확히 하고 환각(hallucination)이 적음.
8. Release
- 모델을 Apache 2.0 라이선스로 공개.
- 연구자·개발자 누구나 자유롭게 사용 가능.