狐狸汉克 (@foxhank)在一台Mate70鸿蒙手机上跑起来了千问2.5模型 中发帖

[c80aa921d77657bf263a4d3ab51c293] 
设备是Mate70 Pro,鸿蒙6.0.0.130,完全本地部署千问2.5 0.5b参数模型。使用llama.cpp作为后端推理模块。
感觉NPU根本没发力,纯CPU硬算的,速度大概1秒一个token,目前还在优化,但是至少证明是可行的。