@PSP 在 Dario Amode新采访:训练语料的上下文长度,很大程度上决定了AI的长上下文的性能衰减 中发帖
主持人立马就意识到,在相同算力下,能训练的样本数量(体量)就会小。
我感觉,这可能是 Claude 在 200K 档 如此强大的原因?
主持人立马就意识到,在相同算力下,能训练的样本数量(体量)就会小。
我感觉,这可能是 Claude 在 200K 档 如此强大的原因?