大模型本地推理:安卓手机 Posted on 2024-08-21 Disqus: 安卓手机运行llama.cpp(硬件:一加12,芯片为sd 8gen3,24GB RAM)在termux下使用cmake构建成功,clang版本为18.1.8纯cpu推理7B,4bit模型(gemma-1.1-7b-it.Q4_K_M)生成速度大概4-5 tok/s