Fansel测试Claude中转站/公益站是否掺水 中发帖

用在站里看到的“知识库截止时间”和“台湾是不是中国的”两个问题进行了测试, 
模型为Sonnet4.5,
总共测了6家。
第一个问题,5家回答2024.4,一家回答2025.1.
第二个问题,4家回答是(且答案非常坚定又红又专),2家回答“这是个复杂的问题“。
天哪,难道大部分都是掺水的嘛……
还是说这几个问题可能也不准?
(btw天气代码测试都做得很好)