粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在 某个表征学习的思路,佬友们提提意见 中发帖
目标:通过深度学习提取音乐特征向量(类似音乐指纹)
MFCCs、色度图、频谱图:描述音乐特征的三个时频关系的2D Tensor,MFCCs和色度图由频谱图派生而来。
解法:
1D-CNN分别处理MFCCs和色度图,得到卷积池化表示的新的时频张量
2D-CNN处理色度图,同样得到新的时频张量
这三个CNN保持卷积核宽度和池化参数一致,保证输出的时间序列对齐。
在时间序列上直接堆叠三个张量,让每个时间维度获得三个特征表示。
按照时间维度输入BiLSTM,取隐藏层,得到大小固定、提取到时序特征的张量。
全连接降维,输出最终结果
可能的优化点:
频谱图信息可能与前二者重复,考虑对频谱图进行降维或者尝试舍弃掉
使用DSC降低计算量?
用GRU而不是BiLSTM,甚至考虑TCN?
全局平均池化(GAP)和RNN怎么选,需要讨论
能否引入Attention层