0%

安卓手机运行llama.cpp(硬件:一加12,芯片为sd 8gen3,24GB RAM)
在termux下使用cmake构建成功,clang版本为18.1.8
纯cpu推理7B,4bit模型(gemma-1.1-7b-it.Q4_K_M)生成速度大概4-5 tok/s

尝试用手上这块Jetson Nano开发板(芯片为T210, 4核 arm Cortex-A57+128-core Maxwell GPU+4GB LPDDR4,功耗最大10w)跑大模型

SDK安装

烧录JetPack 4.6.1系统镜像到sd卡,之后ota升级到JetPack 4.6.5

大模型推理

直接用ollama也没问题,不过推理无法调用gpu.
于是选择手动编译llama.cpp,由于硬件比较古老(cuda只支持到10.2,系统为ubuntu 18.04,其他构建工具版本也比较低),首先从源码编译gcc 8.5,这一过程大约需要两个半小时,之后参考一些issue改了下makefile,最终构建成功.
测试了下这块硬件跑个1-2B大小的模型还是没问题的.

参考

Setup Guide for llama.cpp on Nvidia Jetson Nano 2GB