当前位置: 首页 > news >正文

论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models

EMNLP 2023

  • 神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性,但对于不同模型之间的关系,我们知之甚少。
    • 本文试图弥补这一空白,探索模型之间在权重空间和损失函数景观中的联系
  • 研究发现:
    • 权重空间中的聚集性
      • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster)

      • 对于来自同一任务但不同数据集的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster)

      • 换言之,模型的“几何位置”能够反映出它们的任务相似性和数据分布。

  •  性能区域的连通性
    • 所有在同一任务上表现良好的模型,集中分布在权重空间的某一特定区域

    • 更重要的是,该区域内任意位置的模型都具有较高性能

    • 即使这些模型未在某个特定任务上微调过,只要它们处于“好模型”之间的区域,也可能在该任务上表现良好。

  • 基于以上观察,作者设计了一种高效微调的起点选择策略

    • 不再直接使用预训练模型,而是从多个微调模型形成区域的中心点开始微调

http://www.dtcms.com/a/294241.html

相关文章:

  • springboot集成LangChain4j
  • 世博会无法在Android上启动项目:无法连接到TCP端口5554:连接被拒绝
  • 2025暑期—05神经网络-BP网络
  • PyCharm配置python软件安装步骤(附安装包)PyCharm 2025 超详细下载安装教程
  • 【CNN】LeNet网络架构
  • 盟接之桥说制造:浅谈“客供共生关系”:构建能力闭环,实现价值共赢
  • 论文笔记:On the Biology of a Large Language Model
  • Java 高频算法
  • Python通关秘籍(七)数据结构——集合
  • mysql什么时候用char,varchar,text,longtext
  • Git 完全手册:从入门到团队协作实战(4)
  • 经典神经网络之LetNet
  • 【前沿技术动态】【AI总结】RustFS:从 0 到 1 打造下一代分布式对象存储
  • Java 时间处理 API 全解析:从 JDK7 到 JDK8 的演进
  • 有序数组中出现次数超过25%的元素
  • 数字人形象视频:开启虚拟世界的全新篇章
  • Linux 723 磁盘配额 限制用户写入 quota;snap快照原理
  • IRF 真机实验
  • [AI8051U入门第八步]硬件IIC驱动AHT10温湿度传感器
  • 密码学中的概率论与统计学:从频率分析到现代密码攻击
  • 【Kubernetes】集群启动nginx,观察端口映射,work节点使用kubectl配置
  • scikit-learn 包
  • 【后端】 FastAPI
  • AI替代人工:浪潮中的沉浮与觉醒
  • LNMP-zblog分布式部署
  • 前端/后端,前台/中台/后台概念区别
  • kafka 消费者组
  • RLVR的一种扩展方案--RLPR论文阅读
  • 负压产生电路分析
  • 新增 UART 消息 - OpenExo