[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-72147":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":17,"stars30d":18,"stars90d":16,"forks30d":16,"starsTrendScore":19,"compositeScore":20,"rankGlobal":10,"rankLanguage":10,"license":10,"archived":21,"fork":21,"defaultBranch":22,"hasWiki":21,"hasPages":21,"topics":23,"createdAt":10,"pushedAt":10,"updatedAt":24,"readmeContent":25,"aiSummary":26,"trendingCount":16,"starSnapshotCount":16,"syncStatus":27,"lastSyncTime":28,"discoverSource":29},72147,"Kimi-Audio","MoonshotAI\u002FKimi-Audio","MoonshotAI","Kimi-Audio, an open-source audio foundation model excelling in audio understanding, generation, and conversation","",null,"Python",4648,361,40,105,0,3,26,9,29.68,false,"master",[],"2026-06-12 02:02:59","\u003Cp align=\"center\">\n    \u003Cimg src=\"assets\u002Fkimia_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\nKimi-Audio-7B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-Audio-7B\">🤗\u003C\u002Fa>&nbsp; | Kimi-Audio-7B-Instruct \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-Audio-7B-Instruct\">🤗\u003C\u002Fa>&nbsp; | 📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2504.18425\">Paper\u003C\u002Fa> &nbsp;&nbsp;\n\u003C\u002Fp>\n\n\nWe present Kimi-Audio, an open-source audio foundation model excelling in **audio understanding, generation, and conversation**. This repository contains the official implementation, models, and evaluation toolkit for Kimi-Audio.\n\n## 🔥🔥🔥 News!!\n* May 29, 2025: 👋 We release a finetuning example of [Kimi-Audio-7B](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-Audio\u002Ftree\u002Fmaster\u002Ffinetune_codes).\n* April 27, 2025: 👋 We release pretrained model weights of [Kimi-Audio-7B](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-Audio-7B).\n* April 25, 2025: 👋 We release the inference code and model weights of [Kimi-Audio-7B-Instruct](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-Audio-7B-Instruct).\n* April 25, 2025: 👋 We release the audio evaluation toolkit [Kimi-Audio-Evalkit](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-Audio-Evalkit). We can easily reproduce the **our results and baselines** by this toolkit!\n* April 25, 2025: 👋 We release the technical report of [Kimi-Audio](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2504.18425).\n\n## Table of Contents\n\n- [Introduction](#introduction)\n- [Architecture Overview](#architecture-overview)\n- [Quick Start](#quick-start)\n- [Evaluation](#evaluation)\n  - [Speech Recognition](#automatic-speech-recognition-asr)\n  - [Audio Understanding](#audio-understanding)\n  - [Audio-to-Text Chat](#audio-to-text-chat)\n  - [Speech Conversation](#speech-conversation)\n- [Finetune](#finetune)\n- [Evaluation Toolkit](#evaluation-toolkit)\n- [Generation Testset](#generation-testset)\n- [License](#license)\n- [Acknowledgements](#acknowledgements)\n- [Citation](#citation)\n- [Contact Us](#contact-us)\n\n## Introduction\n\nKimi-Audio is designed as a universal audio foundation model capable of handling a wide variety of audio processing tasks within a single unified framework. Key features include:\n\n*   **Universal Capabilities:** Handle diverse tasks like automatic speech recognition (ASR), audio question answering (AQA), automatic audio captioning (AAC), speech emotion recognition (SER), sound event\u002Fscene classification (SEC\u002FASC), and end-to-end speech conversation.\n*   **State-of-the-Art Performance:** Achieve SOTA results on numerous audio benchmarks (see [Evaluation](#evaluation) and the [Technical Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2504.18425)).\n*   **Large-Scale Pre-training:** Pre-train on over 13 million hours of diverse audio data (speech, music, sounds) and text data, enabling robust audio reasoning and language understanding.\n*   **Novel Architecture:** Employ a hybrid audio input (continuous acoustic vectors + discrete semantic tokens) and an LLM core with parallel heads for text and audio token generation.\n*   **Efficient Inference:** Feature a chunk-wise streaming detokenizer based on flow matching for low-latency audio generation.\n*   **Open-Source:** Release the code and model checkpoints for both pre-training and instruction fine-tuning, and release a comprehensive evaluation toolkit to foster community research and development.\n\n## Architecture Overview\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"assets\u002Fkimia_framework.png\" width=\"70%\"\u002F>\n\u003Cp>\n\nKimi-Audio consists of three main components:\n\n1.  **Audio Tokenizer:** Converts input audio into:\n    *   Discrete semantic tokens (12.5Hz) using vector quantization.\n    *   Continuous acoustic features derived from a Whisper encoder (downsampled to 12.5Hz).\n2.  **Audio LLM:** A transformer-based model (initialized from a pre-trained text LLM like Qwen 2.5 7B) with shared layers processing multimodal inputs, followed by parallel heads for autoregressively generating text tokens and discrete audio semantic tokens.\n3.  **Audio Detokenizer:** Converts the predicted discrete semantic audio tokens back into high-fidelity waveforms using a flow-matching model and a vocoder (BigVGAN), supporting chunk-wise streaming with a look-ahead mechanism for low latency.\n\n## Getting Started\n\n### Step1: Get the Code\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-Audio.git\ncd Kimi-Audio\ngit submodule update --init --recursive\npip install -r requirements.txt\n```\n\nKimi‑Audio can now be installed directly via **pip**.\n```bash\npip install torch\npip install git+https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-Audio.git\n```\n\n## Quick Start\n\nThis example demonstrates basic usage for generating text from audio (ASR) and generating both text and speech in a conversational turn.\n\n```python\nimport soundfile as sf\nfrom kimia_infer.api.kimia import KimiAudio\n\n# --- 1. Load Model ---\nmodel_path = \"moonshotai\u002FKimi-Audio-7B-Instruct\" \nmodel = KimiAudio(model_path=model_path, load_detokenizer=True)\n\n# --- 2. Define Sampling Parameters ---\nsampling_params = {\n    \"audio_temperature\": 0.8,\n    \"audio_top_k\": 10,\n    \"text_temperature\": 0.0,\n    \"text_top_k\": 5,\n    \"audio_repetition_penalty\": 1.0,\n    \"audio_repetition_window_size\": 64,\n    \"text_repetition_penalty\": 1.0,\n    \"text_repetition_window_size\": 16,\n}\n\n# --- 3. Example 1: Audio-to-Text (ASR) ---\nmessages_asr = [\n    # You can provide context or instructions as text\n    {\"role\": \"user\", \"message_type\": \"text\", \"content\": \"Please transcribe the following audio:\"},\n    # Provide the audio file path\n    {\"role\": \"user\", \"message_type\": \"audio\", \"content\": \"test_audios\u002Fasr_example.wav\"}\n]\n\n# Generate only text output\n_, text_output = model.generate(messages_asr, **sampling_params, output_type=\"text\")\nprint(\">>> ASR Output Text: \", text_output) # Expected output: \"这并不是告别，这是一个篇章的结束，也是新篇章的开始。\"\n\n\n# --- 4. Example 2: Audio-to-Audio\u002FText Conversation ---\nmessages_conversation = [\n    # Start conversation with an audio query\n    {\"role\": \"user\", \"message_type\": \"audio\", \"content\": \"test_audios\u002Fqa_example.wav\"}\n]\n\n# Generate both audio and text output\nwav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type=\"both\")\n\n# Save the generated audio\noutput_audio_path = \"output_audio.wav\"\nsf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000) # Assuming 24kHz output\nprint(f\">>> Conversational Output Audio saved to: {output_audio_path}\")\nprint(\">>> Conversational Output Text: \", text_output) # Expected output: \"当然可以，这很简单。一二三四五六七八九十。\"\n\n# --- 5. Example 3: Audio-to-Audio\u002FText Conversation with Multiturn ---\n\nmessages = [\n    {\"role\": \"user\", \"message_type\": \"audio\", \"content\": \"test_audios\u002Fmultiturn\u002Fcase2\u002Fmultiturn_q1.wav\"},\n    # This is the first turn output of Kimi-Audio\n    {\"role\": \"assistant\", \"message_type\": \"audio-text\", \"content\": [\"test_audios\u002Fmultiturn\u002Fcase2\u002Fmultiturn_a1.wav\", \"当然可以，这很简单。一二三四五六七八九十。\"]},\n    {\"role\": \"user\", \"message_type\": \"audio\", \"content\": \"test_audios\u002Fmultiturn\u002Fcase2\u002Fmultiturn_q2.wav\"}\n]\nwav, text = model.generate(messages, **sampling_params, output_type=\"both\")\n\n\n# Generate both audio and text output\nwav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type=\"both\")\n\n# Save the generated audio\noutput_audio_path = \"output_audio.wav\"\nsf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000) # Assuming 24kHz output\nprint(f\">>> Conversational Output Audio saved to: {output_audio_path}\")\nprint(\">>> Conversational Output Text: \", text_output) # Expected output: \"没问题，继续数下去就是十一十二十三十四十五十六十七十八十九二十。\"\n\nprint(\"Kimi-Audio inference examples complete.\")\n\n\n```\n\n## Evaluation\n\nKimi-Audio achieves state-of-the-art (SOTA) performance across a wide range of audio benchmarks. \n\nThe below is the overall performance:\n\u003Cp align=\"center\">\n    \u003Cimg src=\"assets\u002Fkimia_radar_chart.png\" width=\"70%\"\u002F>\n\u003Cp>\n\n\n\n\n\n\n\nHere are performances on different benchmarks, you can easily reproduce the **our results and baselines** by our [Kimi-Audio-Evalkit](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-Audio-Evalkit) (also see [**Evaluation Toolkit**](#evaluation-toolkit)):\n\n### Automatic Speech Recognition (ASR)\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Datasets\u003C\u002Fth>\n      \u003Cth>Model\u003C\u002Fth>\n      \u003Cth>Performance (WER&darr;)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>LibriSpeech\u003C\u002Fstrong>\u003Cbr>test-clean | test-other\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>1.74 | 4.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>3.02 | 6.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>3.19 | 10.67\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>2.37 | 4.21\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>1.28\u003C\u002Fstrong> | \u003Cstrong>2.42\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>Fleurs\u003C\u002Fstrong>\u003Cbr>zh | en\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>3.63 | 5.20\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>4.15 | 8.07\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>4.26 | 8.56\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>2.92 | \u003Cstrong>4.17\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>2.69\u003C\u002Fstrong> | 4.44\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>AISHELL-1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>1.52\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>1.93\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>2.14\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>1.13\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.60\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>AISHELL-2\u003C\u002Fstrong> ios\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>3.08\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>3.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>3.89\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>2.56\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>2.56\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>WenetSpeech\u003C\u002Fstrong>\u003Cbr>test-meeting | test-net\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>8.40 | 7.64\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>13.28 | 10.13\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>10.83 | 9.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>7.71 | 6.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>6.28\u003C\u002Fstrong> | \u003Cstrong>5.37\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>Kimi-ASR Internal Testset\u003C\u002Fstrong>\u003Cbr>subset1 | subset2\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>2.31 | 3.24\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>3.41 | 5.60\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>2.82 | 4.74\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>1.53 | 2.68\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>1.42\u003C\u002Fstrong> | \u003Cstrong>2.44\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Audio Understanding\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Datasets\u003C\u002Fth>\n      \u003Cth>Model\u003C\u002Fth>\n      \u003Cth>Performance&uparrow;\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"6\">\u003Cstrong>MMAU\u003C\u002Fstrong>\u003Cbr>music | sound | speech\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>58.98 | 69.07 | 52.55\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>49.10 | 59.46 | 42.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GLM-4-Voice\u003C\u002Ftd>\n      \u003Ctd>38.92 | 43.54 | 32.43\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>49.40 | 53.75 | 47.75\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>62.16\u003C\u002Fstrong> | 67.57 | 53.92\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>61.68 | \u003Cstrong>73.27\u003C\u002Fstrong> | \u003Cstrong>60.66\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>ClothoAQA\u003C\u002Fstrong>\u003Cbr>test | dev\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>71.73 | 72.63\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>48.02 | 48.16\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>45.84 | 44.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>72.86\u003C\u002Fstrong> | 73.12\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>71.24 | \u003Cstrong>73.18\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>VocalSound\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>93.82\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>58.17\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>28.58\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>93.73\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>94.85\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>Nonspeech7k\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>87.17\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>59.03\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>21.38\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>69.89\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>93.93\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>MELD\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>51.23\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>23.59\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>33.54\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>49.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>59.13\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>TUT2017\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>33.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>27.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>7.41\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>43.27\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>65.25\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cstrong>CochlScene\u003C\u002Fstrong>\u003Cbr>test | dev\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-base\u003C\u002Ftd>\n      \u003Ctd>52.69 | 50.96\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-base\u003C\u002Ftd>\n      \u003Ctd>34.93 | 34.56\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>10.06 | 10.42\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>63.82 | 63.82\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>79.84\u003C\u002Fstrong> | \u003Cstrong>80.99\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Audio-to-Text Chat\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Datasets\u003C\u002Fth>\n      \u003Cth>Model\u003C\u002Fth>\n      \u003Cth>Performance↑\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"6\">\u003Cb>OpenAudioBench\u003C\u002Fb>\u003Cbr>AlpacaEval | Llama Questions |\u003Cbr>Reasoning QA | TriviaQA | Web Questions\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>57.19 | 69.67 | 42.77 | 40.30 | 45.20\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>59.65 | 74.33 | 46.73 | 55.40 | 58.70\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GLM-4-Voice\u003C\u002Ftd>\n      \u003Ctd>57.89 | 76.00 | 47.43 | 51.80 | 55.40\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>StepAudio-chat\u003C\u002Ftd>\n      \u003Ctd>56.53 | 72.33 | 60.00 | 56.80 | \u003Cb>73.00\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>72.76 | 75.33 | \u003Cb>63.76\u003C\u002Fb> | 57.06 | 62.80\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>75.73\u003C\u002Fb> | \u003Cb>79.33\u003C\u002Fb> | 58.02 | \u003Cb>62.10\u003C\u002Fb> | 70.20\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"6\">\u003Cb>VoiceBench\u003C\u002Fb>\u003Cbr>AlpacaEval | CommonEval |\u003Cbr>SD-QA | MMSU\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>3.69 | 3.40 | 35.35 | 35.43\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>4.00 | 3.39 | 49.64 | 48.80\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GLM-4-Voice\u003C\u002Ftd>\n      \u003Ctd>4.06 | 3.48 | 43.31 | 40.11\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>StepAudio-chat\u003C\u002Ftd>\n      \u003Ctd>3.99 | 2.99 | 46.84 | 28.72\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>4.33 | 3.84 | 57.41 | 56.38\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>4.46\u003C\u002Fb> | \u003Cb>3.97\u003C\u002Fb> | \u003Cb>63.12\u003C\u002Fb> | \u003Cb>62.17\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"6\">\u003Cb>VoiceBench\u003C\u002Fb>\u003Cbr>OpenBookQA | IFEval |\u003Cbr>AdvBench | Avg\u003C\u002Ftd>\n      \u003Ctd>Qwen2-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>49.01 | 22.57 | 98.85 | 54.72\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Baichuan-chat\u003C\u002Ftd>\n      \u003Ctd>63.30 | 41.32 | 86.73 | 62.51\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GLM-4-Voice\u003C\u002Ftd>\n      \u003Ctd>52.97 | 24.91 | 88.08 | 57.17\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>StepAudio-chat\u003C\u002Ftd>\n      \u003Ctd>31.87 | 29.19 | 65.77 | 48.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-Omni\u003C\u002Ftd>\n      \u003Ctd>79.12 | 53.88 | 99.62 | 72.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>83.52\u003C\u002Fb> | \u003Cb>61.10\u003C\u002Fb> | \u003Cb>100.00\u003C\u002Fb> | \u003Cb>76.93\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Speech Conversation\n\u003Ctable>\n  \u003Ccaption>Performance of Kimi-Audio and baseline models on speech conversation.\u003C\u002Fcaption>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"6\">Ability\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>Speed Control\u003C\u002Fth>\n      \u003Cth>Accent Control\u003C\u002Fth>\n      \u003Cth>Emotion Control\u003C\u002Fth>\n      \u003Cth>Empathy\u003C\u002Fth>\n      \u003Cth>Style Control\u003C\u002Fth>\n      \u003Cth>Avg\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>GPT-4o\u003C\u002Ftd>\n      \u003Ctd>4.21\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>3.65\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>4.05\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>3.87\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>4.54\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>4.06\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Step-Audio-chat\u003C\u002Ftd>\n      \u003Ctd>3.25\u003C\u002Ftd>\n      \u003Ctd>2.87\u003C\u002Ftd>\n      \u003Ctd>3.33\u003C\u002Ftd>\n      \u003Ctd>3.05\u003C\u002Ftd>\n      \u003Ctd>4.14\u003C\u002Ftd>\n      \u003Ctd>3.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GLM-4-Voice\u003C\u002Ftd>\n      \u003Ctd>3.83\u003C\u002Ftd>\n      \u003Ctd>3.51\u003C\u002Ftd>\n      \u003Ctd>3.77\u003C\u002Ftd>\n      \u003Ctd>3.07\u003C\u002Ftd>\n      \u003Ctd>4.04\u003C\u002Ftd>\n      \u003Ctd>3.65\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GPT-4o-mini\u003C\u002Ftd>\n      \u003Ctd>3.15\u003C\u002Ftd>\n      \u003Ctd>2.71\u003C\u002Ftd>\n      \u003Ctd>4.24\u003C\u002Ftd>\n      \u003Ctd>3.16\u003C\u002Ftd>\n      \u003Ctd>4.01\u003C\u002Ftd>\n      \u003Ctd>3.45\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Kimi-Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>4.30\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>3.45\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>4.27\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>3.39\u003C\u002Ftd>\n      \u003Ctd>4.09\u003C\u002Ftd>\n      \u003Ctd>3.90\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## Finetune\n\nWe release the pre-trained model and the lightweight finetune codes. Please refer to the [finetune_codes\u002FREADME.md](finetune_codes\u002FREADME.md) for more details.\n\n## Evaluation Toolkit\n\nEvaluating and comparing audio foundation models is challenging due to inconsistent metrics, varying inference configurations, and a lack of standardized generation evaluation. To address this, we developed and open-sourced an **Evaluation Toolkit**.\n\nKey features:\n*   Integrates Kimi-Audio and other recent audio LLMs.\n*   Implements standardized metric calculation and integrates LLMs for intelligent judging (e.g., for AQA).\n*   Provides a unified platform for side-by-side comparisons with shareable inference 'recipes' for reproducibility.\n*   Includes a benchmark for evaluating speech conversation abilities (control, empathy, style).\n\nWe encourage the community to use and contribute to this toolkit to foster more reliable and comparable benchmarking. Find it here: [Kimi-Audio-Evalkit](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-Audio-Evalkit).\n\n## Generation Testset\n\nWe collect and release [Kimi-Audio-Generation-Testset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmoonshotai\u002FKimi-Audio-GenTest), which is designed to benchmark and evaluate the conversational capabilities of audio-based dialogue models. It consists of a collection of audio files containing various instructions and conversational prompts. The primary goal is to assess a model's ability to generate not just relevant, but also appropriately styled audio responses. The language in dataset is Chinese.\n\n## License\n\nThe model is based and modified from [Qwen 2.5-7B](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5). Code derived from Qwen2.5-7B is licensed under the [Apache 2.0 License](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0). Other parts of the code are licensed under the [MIT License](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT).\n\n\n\n## Acknowledgements\n\nWe would like to thank the following projects and individuals for their contributions to the development of Kimi-Audio:\n\n* [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)\n* [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* [BigVGAN](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FBigVGAN)\n* [GLM-4-Voice](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-4-Voice)\n* [Qwen](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Ftree\u002Fmain)\n\nThank you to all the open-source projects for their contributions to this project!\n\n\n\n\n## Citation\n\nIf you find Kimi-Audio useful in your research or applications, please cite our technical report:\n\n```bibtex\n@misc{kimiteam2025kimiaudiotechnicalreport,\n      title={Kimi-Audio Technical Report}, \n      author={KimiTeam and Ding Ding and Zeqian Ju and Yichong Leng and Songxiang Liu and Tong Liu and Zeyu Shang and Kai Shen and Wei Song and Xu Tan and Heyi Tang and Zhengtao Wang and Chu Wei and Yifei Xin and Xinran Xu and Jianwei Yu and Yutao Zhang and Xinyu Zhou and Y. Charles and Jun Chen and Yanru Chen and Yulun Du and Weiran He and Zhenxing Hu and Guokun Lai and Qingcheng Li and Yangyang Liu and Weidong Sun and Jianzhou Wang and Yuzhi Wang and Yuefeng Wu and Yuxin Wu and Dongchao Yang and Hao Yang and Ying Yang and Zhilin Yang and Aoxiong Yin and Ruibin Yuan and Yutong Zhang and Zaida Zhou},\n      year={2025},\n      eprint={2504.18425},\n      archivePrefix={arXiv},\n      primaryClass={eess.AS},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.18425}, \n}\n```\n\n## Contact Us\n\nFor questions, issues, or collaboration inquiries, please feel free to open an issue on GitHub.\n","Kimi-Audio 是一个开源的音频基础模型，专注于音频理解、生成和对话。其核心功能包括自动语音识别、音频问答、自动音频字幕生成、语音情感识别以及声音事件\u002F场景分类等，并在多个音频基准测试中取得了领先的成绩。技术上，Kimi-Audio 通过大规模预训练（超过1300万小时的音频和文本数据）结合创新的混合输入架构（连续声学向量与离散语义标记）来实现高效且准确的音频处理。该模型适用于需要高质量音频理解和生成能力的各种应用场景，如智能助手、语音交互系统或多媒体内容分析工具。",2,"2026-06-11 03:40:35","high_star"]