尝试用手上这块Jetson Nano开发板(芯片为T210, 4核 arm Cortex-A57+128-core Maxwell GPU+4GB LPDDR4,功耗最大10w)跑大模型
SDK安装
烧录JetPack 4.6.1系统镜像到sd卡,之后ota升级到JetPack 4.6.5
大模型推理
直接用ollama也没问题,不过推理无法调用gpu.
于是选择手动编译llama.cpp,由于硬件比较古老(cuda只支持到10.2,系统为ubuntu 18.04,其他构建工具版本也比较低),首先从源码编译gcc 8.5,这一过程大约需要两个半小时,之后参考一些issue改了下makefile,最终构建成功.
测试了下这块硬件跑个1-2B大小的模型还是没问题的.