当前位置: 首页 > news >正文

AI大模型的基本知识

什么是AI

让机器执行需要人类智能的任务
阶段:
早期阶段:专家系统 依赖人设定的规则
机器学习时代:数据参数训练
深度学习时代:用神经网络模拟人脑复杂结构 比如图像识别和处理
大模型时代:以规模数据和大算力为基础

AI的分类

1 分析式AI:核心任务是决策
2 生成式AI:做写作 画图等创造性工作

1 大语言模型LLM

基于海量文本数据训练 如 ChatGpt DeepSeek QWen
示例:智能客服 内容创建

2 生图、生视频模型

如Sora liblib.art jimeng

3 视觉识别模型

如视觉识别出产品外观瑕疵,分析X光或CT扫描的病灶点 如 YOLO ResNet,可做图像分类 物体检测

4 自动驾驶模型

如 辅助驾驶 无人配送

ChatGPT是如何训练出来的

1 收集数据 死记硬背 比如背下香蕉是什么
2 强化学习 问香蕉是什么 AI答出4个答案 人工给这4个答案排序 把工作交给AI 领导点评
3 强化学习优化模型 写一个水獭的故事
Rank List标注平台,给机器的回答排序

K2的参数量已达到上万亿

不同大模型的token是如何定义的

tiktokenizer.vercel.app
分词

Temperatrue、Top P的原理与作用

高 temperature: 使得生成结果更具有创造性 可能出现极小概率的答案
低 temperateur: 结果更保守

top P(概率)
Top P(设为0.9) 容易生成高质量的文本 不会出现极小概率的答案

AI大模型聊天产品的超能力

1 联网搜索 function call的能力 比如查询影响黄金价格的因素
2 读取文件 读取企业内部的有价值的文档
3 记忆能力 LLM是无状态的 每次对话时 把最近几轮问答作为背景信息一起发送给LLM;
需长期记忆的关键信息如用户名字 偏好等画像做个提取

2025年年初全球AI模型:
外国推荐的:GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash
国内推荐的:DeepSeek的 R1 V3,阿里巴巴的 Qwen3, Kimi K2(kimi.com) Qwen-tur?

前沿领域的H20

运行调用API

pip 配置上清华镜像

安装 anacoda3
jupyter 可以运行 .ipynb 文件

system
user
assitant

http://www.dtcms.com/a/314766.html

相关文章:

  • 如何解决GIT合并冲突问题
  • Python----大模型(量化 Quantization)
  • SimpleDateFormat早期Java 日期格式化工具详解
  • 强干扰下车位识别准确率↑28%!陌讯时序建模方案在充电桩占位检测的实战解析
  • 数据结构与算法:哈希函数的应用及一些工程算法
  • Git基础玩法简单描述
  • AR技术赋能能源勘探:从数据可视化到智能预测的革命性突破
  • AR技术赋能轨道交通培训:虚实结合提升学习效率
  • NumPy 重要知识点总结
  • Anthropic的商业模式与战略
  • 2.4- WPF中非 UI 线程上安全地更新 UI 控件方法
  • QT之QLocalSocket下的两进程互相守护
  • Nexus配置npm私有仓库
  • 开源的现代数据探索和可视化平台:Apache Superset 使用 Docker Compose
  • 单片机裸机程序设计架构
  • MLIR Introduction
  • Linux84 SHELL编程:流程控制 前瞻(1)
  • 数字信号处理_编程实例1
  • 京东开源新框架DripTable:轻量高效的企业级动态列表解决方案
  • 贪心算法
  • 基于Matlab的人脸识别签到系统
  • 前后端流式交互的几种方式
  • 学习嵌入式第十九天
  • 向日葵参考基因组
  • Day49 Java面向对象04 类与对象的创建
  • 【赵渝强老师】达梦数据库的DMSQL
  • Dify的部署(Docker Desktop )
  • 【Python小工具】图片转PDF
  • 破除陈规陋习的有效措施
  • Dynamic Programming【DP】2