鲨鱼辣椒 (@sakila)请教下ollama的大佬 中发帖

我在苹果本上运行了ollama做测试用,部署了qwen3、deepseek等32b的模型,苹果本配置是128G内存。 
平时模型均可以正常使用,但在长上下文时,模型好像只能识别部分内容。现在的结构是
提示词(1000字)+文本1+文本2,如果总长度超过10000字,大模型就会出现问题(如果文本少,则正常输出)。
我用nodejs 的ollama包、cherry直连模型等方法都测试了,上下文长度我在程序中也配置了16k甚至是40k,但一直有问题,有没有佬指点下。。。。。
下面是js的代码,js会直接报连接超时
async function llmResult(params) {
const result = await ollama.generate({
model: params.model || 'qwen3:32b-q8_0',
prompt: params...