xooov 在 有关deepseek的模型选择 中发帖
[求助] DeepSeek 替换 Qwen2 进行地区分词的优化方案
背景
目前甲方有一台搭载 RTX 3090 的离线服务器,之前业务使用 Qwen2-7B-Instruct 模型进行地区分词,整体表现尚可。然而,甲方注意到近期 DeepSeek(DS) 模型较为火热,希望以 DS 替换 Qwen2,但在实际应用过程中遇到了一些问题。
问题描述
模型选择
由于地区分词任务不需要推理和思考模式,因此 R1 版本不适用,无法关闭这些能力。
目前尝试使用 DS-V2-Lite-Chat,但效果并不理想:
提示词理解能力不如 Qwen2。
生成内容时出现“问题补全”现象,无法满足业务需求。
发现 DS 还有一个 Code-Instruct 版本,虽然主要用于代码生成,但不清楚在处理非代码类的任务(如分词)时表现如何,是否值得尝试?
分词方案
现有的业务需求示例如下:
输...