xooov有关deepseek的模型选择 中发帖

[求助] DeepSeek 替换 Qwen2 进行地区分词的优化方案
背景
目前甲方有一台搭载 RTX 3090 的离线服务器,之前业务使用 Qwen2-7B-Instruct 模型进行地区分词,整体表现尚可。然而,甲方注意到近期 DeepSeek(DS) 模型较为火热,希望以 DS 替换 Qwen2,但在实际应用过程中遇到了一些问题。
问题描述


模型选择

由于地区分词任务不需要推理和思考模式,因此 R1 版本不适用,无法关闭这些能力。
目前尝试使用 DS-V2-Lite-Chat,但效果并不理想:

提示词理解能力不如 Qwen2。
生成内容时出现“问题补全”现象,无法满足业务需求。


发现 DS 还有一个 Code-Instruct 版本,虽然主要用于代码生成,但不清楚在处理非代码类的任务(如分词)时表现如何,是否值得尝试?



分词方案

现有的业务需求示例如下:

输...