当前位置: 首页 > news >正文

AI软件栈:推理框架(二)-Llama CPP1

Llama CPP的主要构造,GGUF和GGML为两个主要部分,包括模型描述文件和模型参数存储文件

文章目录

  • GGUF
  • 构建图
  • 读取权重

GGUF

  • llama.cpp 的作者 Georgi Gerganov 提出的新一代大模型描述文件 GPT-Generated Unified Format,继承自GGML,但是克服了GGML的一些缺点
    • 例如,缺少版本信息难以向后兼容;信息增加或者修改不变,手动修改模型信息不方便等;

构建图

  • 通过llma_bulid_graph在不同的基础模型之上进行参数设计(例如 llama、baichuan、MINICPM 、GEMMA、STARCODER、BERT、QW、QW2等,甚至还有MEMBA)
  • 在每个类GPT之中,通过基函数描述了计算流,同时通过暴露层数、token维度等参数作为可调模型

读取权重

  • 设计了基于分块的tensor组装,同时使用描述文件将对每个tensor及其size进行区分

相关文章:

  • 软件需求分类、需求获取(高软46)
  • 【专栏预告】《VR 360°全景视频开发:从GoPro到Unity VR眼镜应用实战》
  • 量化交易学习笔记02:双均线策略
  • YOLO简史:从YOLOv1到YOLOv12的技术革新与演进
  • 类和对象C++ (未完:对象特征)
  • 一周学会Flask3 Python Web开发-SQLAlchemy更新数据操作-班级模块
  • 蓝桥模拟+真题讲解
  • MySQL -- 基本函数
  • vmware环境(vcenter许可证过期问题)
  • pytorch小记(八):pytorch中有关于.detach()的浅显见解
  • 暨南大学MEM复试资料
  • C++ 位图 bitset
  • 设备管理VTY(Telnet、SSH)
  • 软件工程--瀑布模型和敏捷模型的解释预定义
  • 【网络】Caddy 服务器如何提供 TLS(Transport Layer Security)(传输层安全协议)
  • DeepSeek(3):DeepSeek R1 提示词⼯程
  • Java缓存String(字符串常量池)、Integer (-128 到 127 )
  • Webpack 打包技术及逆向数据分析研究
  • 8、STL中的map和pair使用方法
  • How to develop Cangjie applications based on Jetbrains Fleet
  • 网站建设宣传图ps/天眼查企业查询入口
  • 如果熊掌号做的不好会不会影响网站/企业网站seo推广
  • 可以做用户调研的网站/搜索引擎查重
  • 海外永久网站/公司官网怎么制作
  • 广西柳州网站建设/建个网站费用多少
  • 做中文的云图网站/安卓优化软件