0%

大模型本地推理:安卓手机

安卓手机运行llama.cpp(硬件:一加12,芯片为sd 8gen3,24GB RAM)
在termux下使用cmake构建成功,clang版本为18.1.8
纯cpu推理7B,4bit模型(gemma-1.1-7b-it.Q4_K_M)生成速度大概4-5 tok/s