大模型本地推理:安卓手机

Posted on 2024-08-21 Disqus:

安卓手机运行llama.cpp（硬件:一加12，芯片为sd 8gen3，24GB RAM）
在termux下使用cmake构建成功，clang版本为18.1.8
纯cpu推理7B,4bit模型(gemma-1.1-7b-it.Q4_K_M)生成速度大概4-5 tok/s