MMAR
🔊💬🎵 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准!1000 道高难度音频-问答对,覆盖声音、音乐、语音及其混合场景,挑战模型的多层次认知能力!
✨ 核心亮点 ✅ 四层推理任务:从信号(Signal)感知(Perception)到语义(Semantic)文化(Cultural),层层递进,覆盖真实世界复杂场景; ✅ 混合模态难题:打破单一领域限制,包含环境声 + 语音 + 音乐等交叉挑战; ✅ 思维链标注:每题附带 CoT 推理路径,助力多模态推理研究; ✅ 高专业门槛:部分题目需研究生级感知能力和领域知识!
🚀 即刻体验 🔗 GitHub 代码库:https://github.com/ddlBoJack/MMAR 🎥 演示视频:https://www.youtube.com/watch?v=Dab13opIGqU 🔊 音频数据集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR