Jaybe Park Data Engineer, Data Scientist, Developer

Qwen3-Omni Technical Report

Weekly Paper

한 주에 한 논문을 30분 안에 간단하게 살펴본 결과를 기록하는 포스트입니다.

논문을 살펴볼 때 ChatGPT의 도움을 적극적으로 받으며, 따라서 포스트에 잘못된 내용이나 오류가 있을 수 있습니다.

피드백이나 의견 있으시면 언제든지 연락주세요.


3줄 요약

  • Qwen3-Omni는 텍스트·이미지·오디오·비디오를 동시에 다루면서도 단일 모달 모델과 동등하거나 더 나은 성능을 보이는 최초의 오픈소스 멀티모달 LLM임.
  • 특히 오디오 인식·생성 분야에서 36개 벤치마크 중 32개에서 최고 성능을 기록, 일부는 GPT-4o·Gemini 같은 폐쇄형 모델보다도 앞섬.
  • Thinker-Talker MoE 구조와 초저지연 음성 합성 기술로 실시간 대화가 가능하며, Apache 2.0 라이선스로 공개되어 연구·개발 활용성이 높음.

논문 정보

  • 논문 제목: Qwen3-Omni Technical Report
  • 저자: Qwen Team (자세한 인원은 원문 링크 참조)
  • 원문 링크: arXiv 링크

배경

  • 지금까지 멀티모달 모델은 “모든 걸 다 잘한다”라고 해도, 실제로는 특정 영역에서 성능이 떨어지는 경우가 많았음.
  • 특히 음성/오디오 영역은 잘 다루는 오픈소스 모델이 거의 없음.

Qwen3-Omni의 해결 방식

  1. Thinker + Talker 구조로 이해와 생성 역할을 분리 → 효율적.
  2. MoE(전문가 네트워크)를 써서 불필요한 연산 줄이고 성능 유지.
  3. 오디오 합성 속도를 기존보다 획기적으로 줄여, 실시간 대화 가능한 수준 확보.
  4. 다양한 언어 지원으로 “진짜 글로벌 멀티모달 AI” 지향.

Abstract

우리는 Qwen3-Omni를 소개한다. 이는 텍스트, 이미지, 오디오, 비디오를 동시에 다루면서도 단일 모달 모델과 비교해 성능 저하 없이 최첨단(SOTA) 성능을 유지하는 최초의 멀티모달 모델이다. Qwen3-Omni는 Qwen 시리즈의 동일 규모 단일 모달 모델 성능과 맞먹으며, 특히 오디오 과제에서 뛰어나다. 36개의 오디오 및 오디오-비주얼 벤치마크 중, 오픈소스 모델 중 32개에서 SOTA를 달성했고, 전체적으로 22개에서는 폐쇄형 모델(Gemini-2.5-Pro, Seed-ASR, GPT-4o-Transcribe 등)보다 앞섰다.

Qwen3-Omni는 Thinker-Talker MoE 아키텍처를 사용하여 텍스트·이미지·오디오·비디오에서 지각과 생성을 통합한다. 이 덕분에 유창한 텍스트와 자연스러운 실시간 음성을 낼 수 있다. 119개 언어의 텍스트, 19개 언어의 음성 이해, 10개 언어의 음성 생성을 지원한다.

스트리밍 합성 시 지연(latency)을 줄이기 위해 Talker는 멀티 코드북 기반의 이산 음성 코덱을 자기회귀적으로 예측한다. 이 표현력 있는 코드북을 활용해 계산 집약적인 diffusion 대신 가벼운 causal ConvNet을 적용, 첫 프레임부터 스트리밍이 가능하다. 그 결과, cold-start 환경에서 이론적 end-to-end 첫 패킷 지연은 234ms다.

또한 멀티모달 추론을 강화하기 위해 어떤 입력이든 명시적으로 추론하는 Thinking 모델을 도입했다. 연구 커뮤니티에 범용 오디오 캡셔닝 모델이 부족하다는 점을 고려해, 우리는 Qwen3-Omni-30B-A3B를 미세 조정해 Qwen3-Omni-30B-A3B-Captioner를 만들었으며, 이는 임의의 오디오 입력에 대해 환각이 적고 상세한 캡션을 생성한다.

Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, Qwen3-Omni-30B-A3B-Captioner는 Apache 2.0 라이선스 하에 공개된다.


목차 및 요약

1. Introduction

  • 지금까지 모델은 보통 텍스트, 이미지, 오디오 등 하나의 모달에 특화됨.
  • Qwen3-Omni는 “한 번에 다 잘하는” 모델을 목표로 함.
  • 핵심 질문: “모달이 늘어나도 성능이 떨어지지 않을까?” → 답: 성능 유지 + 오디오 쪽은 오히려 강화.

2. Architecture (Thinker-Talker MoE)

  • 두 부분으로 나눔:
  • Thinker: 추론 담당. 여러 모달 입력(글, 그림, 소리, 영상)을 이해하고 논리적 판단을 수행.
  • Talker: 생성 담당. 특히 음성 합성을 빠르고 자연스럽게 함.
  • 구조적으로 Mixture of Experts (MoE) 방식을 채택해, 상황마다 필요한 전문가 네트워크만 활성화 → 효율 + 성능 확보.

3. Multilingual Capabilities

  • 텍스트는 119개 언어, 음성 이해는 19개 언어, 음성 생성은 10개 언어 지원.
  • 언어 장벽을 크게 줄여 글로벌 AI로서 활용 가능.

4. Performance Evaluation

  • 36개 오디오/오디오-비주얼 벤치마크 중 32개에서 오픈소스 최고 기록.
  • 특히 ASR(자동 음성 인식)과 오디오-텍스트 캡셔닝에서 탁월.
  • 구글 Gemini, OpenAI GPT-4o 같은 폐쇄형 모델보다도 여러 영역에서 앞섬.

5. Latency Optimization

  • 기존 diffusion 방식은 음성 합성 속도가 느림.
  • Qwen3-Omni는 멀티 코드북 기반 ConvNet으로 대체 → 스트리밍 가능.
  • 결과: cold start 시 첫 패킷 지연이 234ms로 크게 단축. (사람이 통화할 때 불편하지 않은 수준)

6. Thinking Model

  • 단순히 생성만 하는 게 아니라, “명시적 reasoning”을 넣은 버전.
  • 여러 모달 데이터를 함께 보고, “왜 이런 답을 내는지” 더 잘 추론.

7. Captioner Extension

  • 오디오를 설명하는 모델이 아직 희소함.
  • 그래서 Qwen3-Omni를 미세조정해 Captioner 모델을 공개.
  • 음악, 소리, 상황 설명을 정확히 하고 환각(hallucination)이 적음.

8. Release

  • 모델을 Apache 2.0 라이선스로 공개.
  • 연구자·개발자 누구나 자유롭게 사용 가능.