当前位置: 首页 > news >正文

大语言模型入门文献推荐

        分享一些入门大模型时候学习过的文献。分成两类:大模型微调论文、基础大模型论文。这些论文不用精通,明白其基本原理即可。目前技术发展太快,更多的时间和精力应该放在前沿论文的学习上。

一、基础大模型论文

       首先是目前主流的一些模型,包括GPT(Openai), GLM(清华)Llama(Meta)。相关的大模型论文还有很多,例如Qwen等。读者能就其中的论文做到举一反三即可。

  1. GPT1: Improving language understanding by generative pre-training
  2. GPT2: Language models are unsupervised multitask learners
  3. GPT-3:Language Models are Few-Shot Learners
  4. GPT-4 Technical Report
  5. InstructGPT: Training language models to follow instructions with human feedback
  6. GLM: General Language Model Pretraining with Autoregressive Blank Infilling
  7. GLM-130B: An Open Bilingual Pre-trained Model
  8. LLaMA: Open and Efficient Foundation Language Models
  9. Llama 2: Open Foundation and Fine-Tuned Chat Model

还有一些经典的文本生成论文,大家有时间也可以阅读。

  1. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
  2. T5:Exploring the limits of transfer learning with a unified text-to-text transformer
  3. ELMO:Deep contextualized word representations

二、微调方法论文

       有关大模型微调方法,目前LoRA几乎是垄断的情况,调起来也非常简单。所以其他微调方法了解即可。

  1. Prefix-Tuning: Optimizing Continuous Prompts for Generation
  2. P-tuning: GPT Understands, Too
  3. P-Tuning V2: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks
  4. Prompt tuning: The Power of Scale for Parameter-Efficient Prompt Tuning
  5. Adapter: Parameter-Efficient Transfer Learning for NLP
  6. LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    此外也有一些写的很好的微调方法综述文章。

  1. Towards a unified view of parameter-efficient transfer learning
  2. Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models
  3. Scaling down to scale up: A guide to parameter-efficient fine-tuning
  4. UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning

    刚学习的时候,经常会听到指令微调(Instruction tuning),有监督微调(supervised finetuning等),其实都是一回事,这边也放一些相关文章。

  1. Instruction Tuning for Large Language Models: A Survey
  2. Instruct learning: Finetuned Language Models are Zero-shot Learners

三、其他资料

1、P-tuning:自动构建模版,释放语言模型潜能

2、PET,必须要GPT3吗?不,BERT的MLM模型也能小样本学习

相关文章:

  • 每日Attention学习28——Strip Pooling
  • 【Golang】第二弹-----变量、基本数据类型、标识符
  • 上传本地项目到GitHub
  • 守护中国软件供应链安全,未名湖畔的筑梦人
  • Adobe Premiere Pro2023配置要求
  • 【Function】使用托管身份调用Function App触发器,以增强安全性
  • 深入解析 TensorFlow 兼容性问题及构建输出文件结构*
  • 操作系统八股文整理(一)
  • PyTorch 深度学习实战(11):强化学习与深度 Q 网络(DQN)
  • 【C++基础十】泛型编程(模板初阶)
  • Windows 环境图形化安装 Oracle 23ai
  • spring声明式事务原理02-调用第1层@Transactional方法-按需创建事务createTransactionIfNecessary
  • 深入解析“Off-the-Shelf”——从产品到AI模型的通用概念
  • 视觉定位项目中可以任意修改拍照点位吗?
  • ElementUI 表格中插入图片缩略图,鼠标悬停显示大图
  • 图像处理篇---图像预处理
  • 【宠粉赠书】极速探索 HarmonyOS NEXT:国产操作系统的未来之光
  • tongweb信创项目线上业务添堵问题排查
  • 《Python实战进阶》No21:数据存储:Redis 与 MongoDB 的使用场景
  • Spring面试:Spring,SpringMVC,SpringBoot
  • 通化县住房和城乡建设局网站/长沙有实力的关键词优化价格
  • 简易静态网站制作流程图/网站有吗免费的
  • aspx网站开发/销售技巧和话术
  • 内容管理网站/技术教程优化搜索引擎整站
  • 视频网站的链接怎么做/关键词优化公司哪家好
  • 建筑材料网站建设/菏泽资深seo报价