当前位置: 首页 > news >正文

AI大模型:(一)1.大模型的发展与局限

       说起AI大模型不得不说下机器学习的发展史,机器学习包括传统机器学习、深度学习,而大模型(Large Models)属于机器学习中的深度学习(Deep Learning)领域,具体来说,它们通常基于神经网络架构。

1.机器学习的发展史

       机器学习技术的发展历程可以追溯到20世纪50年代,当时提出了感知机、神经网络等概念。80年代末期,反向传播算法的发明,给机器学习带来了希望,掀起了基于统计模型的机器学习热潮。21世纪以来,随着数据量的增加、计算能力的提升和算法的改进,机器学习技术进入了深度学习时代,取得了令人瞩目的成就。机器学习技术在很多领域都有应用,例如图像识别、自然语言处理、推荐系统等,为人类社会带来了巨大的价值和意义。

机器学习技术的发展可以分为以下几个阶段:

1. 早期阶段:上世纪50年代到70年代初期,机器学习被视为人工智能的一个子领域。这个阶段的主要方法是基于符号逻辑的推理和规则表达,例如专家系统、决策树等。1943年Warren McCulloch和Walter Pitts就提出首个神经网络模型,模拟神经元的工作方式。1949年Donald Hebb提出Hebbian学习理论,为神经网络学习奠定了基础。但1969年由于Marvin Minsky和Seymour Papert指出感知机的局限性,加之当时计算能力不足和数据稀缺限制了机器学习的发展,导致神经网络研究陷入低谷。

2. 统计学习阶段:20世纪80年代到90年代初期,机器学习开始采用统计学习方法,如最小二乘法、最大似然估计等。这个阶段的代表性算法包括神经网络、支持向量机、朴素贝叶斯等。但这个阶段是已统计学习为主的阶段,因为1990年开始神经网络因计算复杂性和理论限制再次遇冷,研究转向统计学习。

3.深度学习阶段:2006年以来,随着计算能力的提升和数据量的增加,深度学习开始崛起。深度学习是一种基于神经网络的机器学习方法,可以处理大规模、高维度的数据。深度学习的代表性算法包括卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等。

4.现代发展阶段:自2017年Transformer架构的提出,一统深度学习领域的江湖之后,彻底改变了自然语言处理领域,BERT、GPT等模型相继问世。大规模预训练模型(如GPT-3、GPT-4)在多个任务上表现出色,推动了通用人工智能(AGI)的研究。强化学习、自监督学习、联邦学习等新兴方向快速发展。

5.未来趋势:研究如何让机器具备更广泛的智能,如AI与生物医学、量子计算的融合。确保AI技术的公平性、透明性和安全性。目前大模型还有更大的挑战这也是我们后边要说的局限性。

2.GPT大模型发展历程

       大模型的发展,必然离不开GPT,为什么要说他,不仅他是现在最优秀的模型之一。还因为他验证了随着模型尺寸变大、学习的知识更多,模型的性能会大幅提升。这就是OpenAI 在 2020 年发表的论文《Scaling Laws for Neural Language Models》中提出了 Scaling Laws。虽然这篇论文在2020年提出,但当时却影响甚微。因为从GPT2开始部分闭源了,GPT3已经完全闭源,虽然在GPT3 中生成1750亿相比GPT2 1.7亿的参数有了100倍的能力提升,由于闭源,加之GPT只基于 Transformer 的解码器(Decoder-only)架构,没有编码器部分,行业内也并未有太大的影响。直到2022 年 11 月,OpenAI 发布了基于 GPT 模型的人工智能对话应用服务ChatGPT。ChatGPT沿用了InstructGPT的训练技术,并针对对话能力进行了优化。它结合了人类生成的对话数据进行训练,展现出丰富的世界知识、复杂问题求解能力、多轮对话上下文追踪与建模能力以及与人类价值观对齐的能力。ChatGPT还支持插件机制,扩展了功能,超越了以往所有人机对话系统的能力水平,引发了社会的高度关注。虽然GPT没有在技术上突破,但他用实践证明了scaling laws。从ChatGPT发布后,行业内多家巨头争相大知识量训练自家模型,也就短短几个月让模型学习全网人类几百年的知识。灌注了大量的知识后,再进行微调,人类对齐就产生现在的通用大模型。现在百模齐放,离不开GPT的贡献。OpenAI始终把创建安全、通用的大模型为自己的使命,他的成功有一定的偶然,但也是必然的。

3.大模型的发展局限性

      大模型分为推理学习、数据学习,举个相似的例子,推理学习和数据学习就像数据与物理的关系,正在输出.....待完善!

相关文章:

  • 学习threejs,构建THREE.ParametricGeometry参数化函数生成几何体
  • 逆向中常见的加密算法识别
  • Flutter 打包 ipa出现错误问题 exportArchive
  • 小红书不绑定手机号会显示ip吗
  • 实验11 机器学习-贝叶斯分类器
  • 【NCRE】2025计算机一级选择题真题题库(476道题目含答案(476/476))
  • 正点原子[第三期]Arm(iMX6U)Linux移植学习笔记-6.2uboot启动流程-lowlevel_init,s_init,_main函数执行
  • Docker安装,并pullMySQL和redis
  • 鸿蒙NEXT项目实战-百得知识库05
  • python字符级差异分析并生成 Word 报告 自然语言处理断句
  • Unity Shader Graph高级节点逻辑设计:程序化噪声生成技术详解
  • Linux 终端操作核心组合键
  • 力扣100二刷——图论、回溯
  • SAP-ABAP:SAP采购业务核心表关联关系详解
  • C#的List和DIctionary实现原理(手搓泛型类以及增删查改等功能)
  • 力扣最热一百题——跳跃游戏II
  • 诺视Micro-LED微显示芯片量产线投产 ——开启微显示技术新时代
  • 【cf】交换
  • 智能跳低成本otp语音芯片方案-wt6020 语音计数时间提示:“100次”“运动时间5分钟
  • 什么是大数据风控
  • 5天完成1000多万元交易额,“一张手机膜”畅销海内外的启示
  • 聆听百年唐调正声:唐文治王蘧常吟诵传习的背后
  • 19岁女生注射头孢离世后续:院方道歉,医生停职,监管介入
  • 圆桌丨中俄权威专家详解:两国携手维护战后国际秩序,捍卫国际公平正义
  • 中国证监会印发《推动公募基金高质量发展行动方案》
  • 计划招录2577人,“国考”补录8日开始报名