粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在某个表征学习的思路，佬友们提提意见中发帖目标：通过深度学习提取音乐特征向量（类似音乐指纹） MFCCs、色度图、频谱图：描述音乐特征的三个时频关系的2D Tensor，MFCCs和色度图由频谱图派生而来

粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在某个表征学习的思路，佬友们提提意见中发帖

目标：通过深度学习提取音乐特征向量（类似音乐指纹） 
MFCCs、色度图、频谱图：描述音乐特征的三个时频关系的2D Tensor，MFCCs和色度图由频谱图派生而来。 
解法： 
1D-CNN分别处理MFCCs和色度图，得到卷积池化表示的新的时频张量 
2D-CNN处理色度图，同样得到新的时频张量 
这三个CNN保持卷积核宽度和池化参数一致，保证输出的时间序列对齐。 
在时间序列上直接堆叠三个张量，让每个时间维度获得三个特征表示。 
按照时间维度输入BiLSTM，取隐藏层，得到大小固定、提取到时序特征的张量。 
全连接降维，输出最终结果 
可能的优化点： 

频谱图信息可能与前二者重复，考虑对频谱图进行降维或者尝试舍弃掉
使用DSC降低计算量？
用GRU而不是BiLSTM，甚至考虑TCN？
全局平均池化（GAP）和RNN怎么选，需要讨论
能否引入Attention层