@PSP 在 Dario Amode新采访：训练语料的上下文长度，很大程度上决定了AI的长上下文的性能衰减中发帖主持人立马就意识到，在相同算力下，能训练的样本数量（体量）就会小

@PSP 在 Dario Amode新采访：训练语料的上下文长度，很大程度上决定了AI的长上下文的性能衰减中发帖

主持人立马就意识到，在相同算力下，能训练的样本数量（体量）就会小。 
我感觉，这可能是 Claude 在 200K 档 如此强大的原因？