时雨雪 (@shigure_yuki)是否存在能真正“理解”音乐的多模态ai? 中发帖

如题,鞭策ai写东西的时候听歌突然想到这个问题,想通过AI去学习乐理;站内搜索发现gemini 2就已经能听懂音乐了,然后照猫画虎上传了个音乐给3pro听。 
[image]
结果就是人声部分确实能识别出来而且识别准确率很高,但是时长对不上,尝试问乐器solo部分也回答不上来,应该是忽略或者去掉了乐器独奏的部分。
[image]
[image]
然后想起来qwen3.5有全模态的模型omni,也尝试着去用了一下(上传歌曲有三分钟的时长限制)
[image]
[image]
体感就是乐器部分识别明显准确了,歌词识别和gemini五五开,时间轴比较准,没有gemini那样错漏。
所以回到标题,“是否存在能真正‘理解’音乐的多模态ai”,这个问题我依旧拿不准,所以想请教一下有经验的佬友。