Kimi开源全新音频基础模型表现卓越
模型概述
2025年4月26日,Kimi发布了新的开源项目——全新的通用音频基础模型Kimi - Audio。该模型支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的(SOTA)性能,总体性能排名第一,几乎没有明显短板。
基准测试表现
LibriSpeechASR测试:Kimi - Audio的WER(词错误率)仅1.28%,显著优于其他模型。
VocalSound测试:Kimi - Audio达94.85%,接近满分。
MMAU任务:Kimi - Audio摘得两项最高分。
VoiceBench测试:该测试用于评测对话助手的语音理解能力,Kimi - Audio在所有子任务中得分最高,包括一项满分。此外,研发人员开发了评估工具包,对五款音频模型(Kimi - Audio、Qwen2 - Audio、Baichuan - Audio、StepAudio、Qwen2.5 - Omni)在各类音频基准测试中的表现进行对比,结果显示代表Kimi - Audio的紫线基本覆盖最外层,表明其综合表现最佳。
架构设计
为实现SOTA级别的通用音频建模,Kimi - Audio采用了集成式架构设计,包含三个核心组件:
音频分词器(AudioTokenizer):提取连续的声学向量,增强感知能力,使模型既具有语义上的压缩表示,又保留丰富的声学细节,为多种音频任务提供坚实的表示基础。
音频大模型(AudioLLM):是系统的核心,负责生成语义token以及文本token,以提升生成能力。其架构基于共享Transformer层,能够处理多模态输入,并在后期分支为专门用于文本和音频生成的两个并行输出头。
音频去分词器(AudioDetokenizer):使用流匹配(flowmatching)方法,将音频大模型预测出的离散语义token转化为连贯的音频波形,生成高质量、具有表现力的语音。
数据建构与训练方法
数据建构
在预训练阶段,Kimi - Audio使用了约1300万小时覆盖多语言、音乐、环境声等多种场景的音频数据,并搭建了一条自动处理流水线生成高质量长音频 - 文本对。预训练后,模型进行了监督微调(SFT),数据涵盖音频理解、语音对话和音频转文本聊天三大类任务,进一步提升了指令跟随和音频生成能力。
训练方法
预训练任务设计:以预训练语言模型为初始化,设计了三个类别的预训练任务,以实现强大的音频理解与生成能力,同时保持模型的知识容量与智能水平。
监督微调策略:设计了一套训练配方,为每个任务使用自然语言作为指令,构建音频和文本版本的指令,并在训练期间随机选择一种。为增强遵循指令能力的鲁棒性,使用大语言模型为ASR任务构建了200条指令,为其他任务构建了30条指令,并为每个训练样本随机选择一条。构建了大约30万小时的数据用于监督式微调。基于全面的消融实验,在每个数据源上对Kimi - Audio进行2 - 4个训练周期的微调,使用AdamW优化器,学习率从1e⁻⁵到1e⁻⁶进行余弦衰减,使用10%的token进行学习率预热。此外,分三个阶段训练音频解码器:首先,使用预训练数据中的大约100万小时的音频,对流匹配模型和声码器进行预训练;其次,采用分块微调策略,在相同的预训练数据上将动态块大小调整为0.5秒到3秒。
开源情况
目前,模型代码、模型检查点以及评估工具包已经在Github上开源,项目链接