当前位置: 首页 > news >正文

AI软件栈:推理框架(二)-Llama CPP1

Llama CPP的主要构造,GGUF和GGML为两个主要部分,包括模型描述文件和模型参数存储文件

文章目录

  • GGUF
  • 构建图
  • 读取权重

GGUF

  • llama.cpp 的作者 Georgi Gerganov 提出的新一代大模型描述文件 GPT-Generated Unified Format,继承自GGML,但是克服了GGML的一些缺点
    • 例如,缺少版本信息难以向后兼容;信息增加或者修改不变,手动修改模型信息不方便等;

构建图

  • 通过llma_bulid_graph在不同的基础模型之上进行参数设计(例如 llama、baichuan、MINICPM 、GEMMA、STARCODER、BERT、QW、QW2等,甚至还有MEMBA)
  • 在每个类GPT之中,通过基函数描述了计算流,同时通过暴露层数、token维度等参数作为可调模型

读取权重

  • 设计了基于分块的tensor组装,同时使用描述文件将对每个tensor及其size进行区分

相关文章:

  • 软件需求分类、需求获取(高软46)
  • 【专栏预告】《VR 360°全景视频开发:从GoPro到Unity VR眼镜应用实战》
  • 量化交易学习笔记02:双均线策略
  • YOLO简史:从YOLOv1到YOLOv12的技术革新与演进
  • 类和对象C++ (未完:对象特征)
  • 一周学会Flask3 Python Web开发-SQLAlchemy更新数据操作-班级模块
  • 蓝桥模拟+真题讲解
  • MySQL -- 基本函数
  • vmware环境(vcenter许可证过期问题)
  • pytorch小记(八):pytorch中有关于.detach()的浅显见解
  • 暨南大学MEM复试资料
  • C++ 位图 bitset
  • 设备管理VTY(Telnet、SSH)
  • 软件工程--瀑布模型和敏捷模型的解释预定义
  • 【网络】Caddy 服务器如何提供 TLS(Transport Layer Security)(传输层安全协议)
  • DeepSeek(3):DeepSeek R1 提示词⼯程
  • Java缓存String(字符串常量池)、Integer (-128 到 127 )
  • Webpack 打包技术及逆向数据分析研究
  • 8、STL中的map和pair使用方法
  • How to develop Cangjie applications based on Jetbrains Fleet
  • 3477亿美元!伯克希尔一季度现金储备再创新高,担忧关税战不确定性影响
  • 塞尔维亚总统因突发健康问题,中断对美国的正式访问并回国
  • 准80后遵义市自然资源局局长陈清松任仁怀市委副书记、代市长
  • 王毅谈金砖国家反恐和网络安全合作
  • 中国海警位中国黄岩岛领海及周边区域执法巡查
  • 日菲同意扩大安全合作,外交部:反对任何在本地区拉帮结派的做法