[llama.cpp] 最新build(6月5日)已支持Apple Silicon GPU!建议苹果用户更新 #505
ymcui
announced in
Announcements
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
llama.cpp已添加基于Metal的inference,推荐Apple Silicon(M系列芯片)用户更新,目前该改动已经合并至main branch。
个人实测,7B/13B模型加速达到50%以上。原PR内容详见:ggml-org/llama.cpp#1642
注意:目前该改动只支持
q4_0
模型,作者表示后续会陆续更新其他bit的量化算法。如何更新?
如果你已经安装了llama.cpp,请务必先clean
然后根据https://github.com/ggerganov/llama.cpp#metal-build 进行安装,例如:
如何使用?
只需在原有推理命令上加上
-ngl 1
即可将模型offload到Apple Silicon GPU上。例如:速度测试
初步在中文Alpaca-Plus-7B、Alpaca-Plus-13B、LLaMA-33B上进行了速度测试(注意,目前只支持
q4_0
加速)。测试设备:Apple M1 Max,8线程(-t 8
)。系统是macOS Ventura 13.4。33B offload到GPU后解码速度很慢,待后续补充测试。
GPU多轮解码结果出现异常(已在最新commit修复),不排除是个例,建议实际体验后选择是否启用GPU(-ngl 1
)。以下是Alpaca-Plus-7B的测试结果,通过
-seed 42
指定了随机种子。不启用:
启用:
Beta Was this translation helpful? Give feedback.
All reactions