泗水亭长 (@randolph5)目前是否有比较强的音频大模型 中发帖

需求是这样的,给prompt大概就是让他帮我总结00:10:11-01:10:11是讲了什么东西(例如说产品介绍之类的),和mp3文件(约20分钟),llm输出json格式。目前是否有比较强的音频大模型。