METASPEECH
[浏览需要 0 积分] 发布于

MMAR

🔊💬🎵 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准!1000 道高难度音频-问答对,覆盖声音、音乐、语音及其混合场景,挑战模型的多层次认知能力!

✨ 核心亮点
✅ 四层推理任务:从信号(Signal)感知(Perception)到语义(Semantic)文化(Cultural),层层递进,覆盖真实世界复杂场景;
✅ 混合模态难题:打破单一领域限制,包含环境声 + 语音 + 音乐等交叉挑战;
✅ 思维链标注:每题附带 CoT 推理路径,助力多模态推理研究;
✅ 高专业门槛:部分题目需研究生级感知能力和领域知识!

🚀 即刻体验
🔗 GitHub 代码库:https://github.com/ddlBoJack/MMAR
🎥 演示视频:https://www.youtube.com/watch?v=Dab13opIGqU
🔊 音频数据集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR

浏览 (55)
点赞 (2)
收藏
评论