大模型本地推理:Jetson Nano开发板

尝试用手上这块Jetson Nano开发板(芯片为T210, 4核 arm Cortex-A57+128-core Maxwell GPU+4GB LPDDR4，功耗最大10w)跑大模型

SDK安装

烧录JetPack 4.6.1系统镜像到sd卡，之后ota升级到JetPack 4.6.5

大模型推理

直接用ollama也没问题，不过推理无法调用gpu.
于是选择手动编译llama.cpp，由于硬件比较古老(cuda只支持到10.2,系统为ubuntu 18.04,其他构建工具版本也比较低)，首先从源码编译gcc 8.5，这一过程大约需要两个半小时，之后参考一些issue改了下makefile，最终构建成功.
测试了下这块硬件跑个1-2B大小的模型还是没问题的.

参考

Setup Guide for llama.cpp on Nvidia Jetson Nano 2GB