找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

103

积分

0

好友

5

主题
发表于 4 天前 | 查看: 12| 回复: 0
本帖最后由 alphaFind 于 2025-11-6 23:39 编辑

为什么关注这个项目?

做量化的朋友都遇到过这个难题:想在服务器上部署个AI情绪分析模型,结果一看内存需求——28GB起步。服务器配置不够,上云又有成本和网络延迟。GGML这个开源项目给出了另一种思路:通过量化技术把模型压缩到原来的1/8,让普通硬件也能跑大模型


这是个什么项目

GGML是用C写的机器学习张量库,专门解决模型推理的性能问题。它不做训练,只做推理加速。

三个核心能力:

压缩模型体积 - 用4-bit量化把7B参数模型从28GB压到4GB
快速启动 - mmap直接映射文件到内存,几百毫秒就能加载完
跨平台运行 - CPU、CUDA、Metal都支持,不挑硬件


技术实现方式

整体架构

从下往上分四层:硬件适配层处理不同芯片的指令集,计算层实现矩阵运算和激活函数,量化层做精度转换,最上面是应用层比如llama.cpp这些。

量化原理

拿Q4_0格式举例:每32个权重参数共用一个缩放因子,单个参数只占0.56字节。原来FP32格式一个参数要4字节,现在直接省了7倍空间。代价是精度会损失1-2%,但对大多数应用来说可以接受。

运行机制

启动时把整个计算流程构建成静态图,运行过程中不再分配内存。这样能避免内存碎片和GC停顿,保证延迟稳定。另外会把相邻的算子合并执行,减少数据在内存和缓存之间的搬运次数。


实测性能表现

在M1 Pro上跑Llama-7B的Q4_0版本,单次推理45毫秒,内存占用4.2GB。同样的模型用PyTorch跑FP32版本,要28GB内存,延迟180毫秒。

树莓派4这种ARM开发板,跑Whisper语音识别的Q8_0版本,延迟能控制在50毫秒,内存不到100MB。

RTX 4090上开CUDA加速,Llama-7B的Q8_0版本推理只要12毫秒,吞吐量85 token/秒。


适合什么场景

实时决策系统
交易所机房部署推理服务,处理新闻情绪分析。本地推理延迟10毫秒以内,不用担心API调用的网络抖动。

边缘设备计算
ARM服务器上跑Q8_0模型做因子计算,单核35 token/秒的处理能力够用了。

开发测试环境
笔记本上用Q4_0版本快速验证想法,不用每次都去租GPU服务器。


文件格式说明

项目现在用GGUF格式存储模型,解决了老版本GGML格式的兼容性问题。

文件结构分四块:开头是魔数标识,然后是模型配置信息的KV存储,接着是张量索引表,最后是量化后的权重数据。

这种设计支持mmap零拷贝加载,PythonC++Rust都能直接读取,新增字段也不会影响旧模型的使用。


上手使用

编译

git clone https://github.com/ggml-org/ggml
cd ggml && mkdir build && cd build
cmake -DGGML_CUDA=ON ..
make -j8

转换模型

python convert-to-gguf.py \
  --model your_model.pt \
  --outfile model-q4_0.gguf \
  --quantize q4_0

运行推理

./bin/inference \
  --model model-q4_0.gguf \
  --threads 4 \
  --ctx-size 2048

量化方式选择

Q4_0适合内存特别紧张的情况,精度会损失1-2%。Q8_0是平衡选项,精度损失小于0.5%。FP16用在对精度要求高的场景。

不适合的场景:模型训练(只支持推理)、需要动态计算图的应用、超大规模GPU集群推理(TensorRT更合适)。


项目背景

GGML由Georgi Gerganov开发,已经获得种子投资。基于它做的llama.cpp让MacBook能本地跑Llama模型,whisper.cpp把OpenAI的语音识别移植到了CPU上。

GitHub上有1万多star,活跃贡献者100多人,MIT开源协议。


总结

GGML把AI推理从"必须用GPU"变成"CPU也能跑",量化技术和内存管理方式适合对延迟敏感的应用。如果你需要在本地快速做推理决策,可以关注这个项目。


关注《alphaFind》,持续分享量化技术干货


项目地址

GitHubggml-org/ggml
官网ggml.ai
机器学习教程https://yunpan.plus/f/29-1


标签:#GGML #Github #模型量化 #边缘推理 #低延迟 #开源项目

来自圈子: alphaFind
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|云栈社区(YunPan.Plus) ( 苏ICP备2022046150号-2 )

GMT+8, 2025-11-10 07:12 , Processed in 0.100419 second(s), 112 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 CloudStack.

快速回复 返回顶部 返回列表