当前位置: 首页 > news >正文

【DataWhale】快乐学习大模型 | 202507,Task01笔记

引言

我从2016年开始接触matlab看别人做语音识别,再接触tensorflow的神经网络,2017年接触语音合成,2020年做落地的医院手写数字识别。到2020年接触pytorch做了计算机视觉图像分类,到2021年做了目标检测,2022年做了文本实体抽取,2023年做了Agent。收获了很多奖项,感觉一直在人工智能新技术上探索,但总是浮于表面,要借这次机会好好学一学LLM,不能再让Transformer还只停留在Attention和QKV上,争取从底层实现一把。
说起来,到底多大才算大语言模型最开始挺有争议的,现在0.3B的模型也开始出现了(如文心开源的 ERNIE-4.5-0.3B-PT),我的感觉是用了一定参数量的语言模型就能叫LLM,有用效果好就行。

人工智能发展历程

感觉主要是这么一个发展流程,RNN主要走文本类,CNN主要走图像类。(还有一些GAN、扩散模型等和图片生成有关的,3D卷积等和视频有关的,RL等游戏智能体相关的,ViT等Transformer和视觉结合的,图里先不表现)

统计模型
RNN
LSTM
Transformer
Encoder-Only
BERT
Encoder-Decoder
T1
Decoder-Only
GPT
CNN
ResNet
YOLO

0.3B: 0.3 Bilion, 参数量为3亿的模型
LLM: Large Language Model, 大语言模型
RNN: Recurrent Neural Network, 循环神经网络,用于文本或语音
CNN: Convolutional Neural Network, 卷积神经网络,用于视觉
GAN: Generative AdversarialNetwork, 生成对抗网络,用于图片生成
Vit: Vision Transformer, 用于视觉的Transformer
RL: Reinforcement Learning, 强化学习
LSTM: Long Short-Term Memory, 长短期记忆网络
ResNet: 残差网络, 用于层数加深时信息的传递
YOLO: You Only Look Once, 用于目标检测
Transformer: 用于增加注意力机制
BERT: Bidirectional Encoder Representations from Transformers, 用于文本分类、实体抽取
T5: Text-to-Text Transfer Transformer, 用于翻译
GPT: Generative Pre-trained Transformer, 用于对话

章节概览

Happy-LLM
基础知识
NLP 基础概念
Transformer架构
预训练语言模型
大语言模型
实战应用
动手搭建大模型
大模型训练实践
大模型应用

参考资料

1、happy-llm/docs/前言.md

http://www.dtcms.com/a/279634.html

相关文章:

  • 总结一下找素数的三种方法
  • Python3完全新手小白的学习手册 13-1项目篇《外星人入侵》
  • MFC中BOOL类型,在某些操作系统中,-1不能被识别,一般是哪些原因?
  • MFC UI控件CheckBox从专家到小白
  • MFC UI表格制作从专家到入门
  • Cocos Creator 高斯模糊效果实现解析
  • 《星盘接口2:NVMe风暴》
  • C++_编程提升_temaplate模板_案例
  • ether.js—3—contract
  • 高密度PCB板生产厂商深度解析
  • Docker容器操作命令大全
  • C++-linux 7.文件IO(一)系统调用
  • 是时候重估蔚来的技术价值了
  • 【科研绘图系列】R语言绘制世界地图
  • python的小学课外综合管理系统
  • MMpretrain 中的 LinearClsHead 结构与优化
  • 分布式光伏并网中出现的电能质量问题,如何监测与治理?
  • 【数据库】慢SQL优化 - MYSQL
  • 系统调用入口机制:多架构对比理解(以 ARM64 为主)
  • MySQL高级篇(一):从存储引擎到索引优化实战
  • 人工智能正逐步商品化,而“理解力”才是开发者的真正超能力
  • 在数字工厂实施过程中,如何对计划、调度部门进行需求调研
  • 简单排序。
  • 1.连接MySQL数据库-demo
  • 基于Snoic的音频对口型数字人
  • OneCode 3.0 VFS客户端驱动(SDK)技术解析:从架构到实战
  • Kafka 时间轮深度解析:如何O(1)处理定时任务
  • 深度测评|2025年BPM厂商排名及选型指南
  • 设计模式》》门面模式 适配器模式 区别
  • 基于Android的