Celestial

大模型本地推理:安卓手机

Posted on 2024-08-21 Disqus:

安卓手机运行llama.cpp（硬件:一加12，芯片为sd 8gen3，24GB RAM）
在termux下使用cmake构建成功，clang版本为18.1.8
纯cpu推理7B,4bit模型(gemma-1.1-7b-it.Q4_K_M)生成速度大概4-5 tok/s

大模型本地推理:Jetson Nano开发板

Posted on 2024-08-21 Disqus:

尝试用手上这块Jetson Nano开发板(芯片为T210, 4核 arm Cortex-A57+128-core Maxwell GPU+4GB LPDDR4，功耗最大10w)跑大模型

SDK安装

烧录JetPack 4.6.1系统镜像到sd卡，之后ota升级到JetPack 4.6.5

大模型推理

直接用ollama也没问题，不过推理无法调用gpu.
于是选择手动编译llama.cpp，由于硬件比较古老(cuda只支持到10.2,系统为ubuntu 18.04,其他构建工具版本也比较低)，首先从源码编译gcc 8.5，这一过程大约需要两个半小时，之后参考一些issue改了下makefile，最终构建成功.
测试了下这块硬件跑个1-2B大小的模型还是没问题的.

参考

Setup Guide for llama.cpp on Nvidia Jetson Nano 2GB

Hello World

Posted on 2024-08-21 Edited on 2024-08-22 Disqus:

建站参考: 从零开始搭建个人博客（超详细）
评论系统: Add Comments Section to Your Hexo Blog
本人邮箱: 2509203371@qq.com