当前位置: 首页 > wzjs >正文

如何制作自己网站用爬虫做数据整合网站

如何制作自己网站,用爬虫做数据整合网站,标志logo设计,东莞网站建设属于什么专业“语言不是神的创造物,而是平凡人类的产物。”——诺姆乔姆斯基 自然语言处理(NLP)的发展史,就是人类试图教会机器理解语言本质的探索史。本文将带您穿越70年技术长河,揭示NLP领域关键的范式转换里程碑。 一、规则驱动…

“语言不是神的创造物,而是平凡人类的产物。”——诺姆·乔姆斯基

自然语言处理(NLP)的发展史,就是人类试图教会机器理解语言本质的探索史。本文将带您穿越70年技术长河,揭示NLP领域关键的范式转换里程碑。


一、规则驱动时代(1950s-1980s):语言学的黄金岁月

核心范式:基于语言学规则的手工编码

# 典型规则模板(ELIZA心理治疗系统,1966)
if "mother" in input:response = "Tell me more about your family"
elif "sad" in input:response = "Why do you feel sad?"

技术突破

  • 1954:乔治城-IBM实验,首次机器翻译(俄→英)
  • 1966:ELIZA - 第一个对话系统(模式匹配)
  • 1971:SHRDLU - 首个理解自然语言命令的系统

局限性

  • 规则爆炸:处理"打开灯"需编码[“开灯”,“亮灯”,“照明启动”…]
  • 无法处理歧义:“银行存钱” vs “河岸银行”

二、统计学习时代(1990s-2000s):概率的革命

核心范式:从语料库中学习概率模型

语料库
词频统计
概率模型
预测

关键算法

  1. N-gram语言模型
    P ( w n ∣ w 1 : n − 1 ) ≈ P ( w n ∣ w n − 1 ) P(w_n|w_{1:n-1}) \approx P(w_n|w_{n-1}) P(wnw1:n1)P(wnwn1)
  2. 隐马尔可夫模型(HMM)
    P ( 词序列 ∣ 标签序列 ) = ∏ P ( 词 ∣ 标签 ) × P ( 标签 ∣ 前标签 ) P(\text{词序列}|\text{标签序列}) = \prod P(\text{词}|\text{标签}) \times P(\text{标签}|\text{前标签}) P(词序列标签序列)=P(标签)×P(标签前标签)
  3. 最大熵模型
    P ( y ∣ x ) = 1 Z ( x ) exp ⁡ ( ∑ i λ i f i ( x , y ) ) P(y|x) = \frac{1}{Z(x)}\exp\left(\sum_i \lambda_i f_i(x,y)\right) P(yx)=Z(x)1exp(iλifi(x,y))

里程碑

  • 1990:IBM Model 1 - 统计机器翻译开端
  • 2003:条件随机场(CRF)成为NER标准方案
  • 2006:Google基于统计的翻译系统上线

局限:依赖人工特征工程,无法捕捉深层语义


三、神经网络复兴(2010-2013):深度学习的曙光

范式转换:端到端表示学习

# 词向量示例(Word2Vec, 2013)
king_vec = model.wv['king']
man_vec = model.wv['man']
woman_vec = model.wv['woman']
queen_vec = king_vec - man_vec + woman_vec  # 向量运算!

突破性工作

  1. 2011:Collobert & Weston - 首个神经网络NLP框架
  2. 2013:Mikolov - Word2Vec(CBOW/Skip-gram)
  3. 2013:Socher - RNN情感分析(树结构递归网络)

影响

  • 词向量成为NLP基础组件
  • 发现语言中的几何结构:king - man + woman ≈ queen

四、序列建模时代(2014-2017):RNN的巅峰

核心架构:循环神经网络变体

输入
LSTM
输出
GRU

关键技术

  1. Seq2Seq(2014)
    encoder = LSTM(input_seq)  # 编码
    context = encoder.last_hidden
    decoder = LSTM(init_state=context)  # 解码
    
  2. 注意力机制(2015)
    α t = softmax ( Q K T / d ) \alpha_t = \text{softmax}(QK^T/\sqrt{d}) αt=softmax(QKT/d )
  3. 神经机器翻译(NMT)
    • 2016 Google翻译从统计转向神经网络

里程碑

  • 2015:Bahdanau注意力
  • 2017:Convolutional Seq2Seq(Facebook)

局限:顺序计算无法并行,长距离依赖仍困难


五、Transformer革命(2017-2018):注意力就是一切

划时代论文:Vaswani《Attention Is All You Need》

# 自注意力核心代码
Q = linear(query)  # [batch, len, dim]
K = linear(key)    # [batch, len, dim]
V = linear(value)  # [batch, len, dim]
attn_weights = softmax(Q @ K.transpose() / sqrt(dim))
output = attn_weights @ V

架构创新

  1. 多头注意力:并行捕捉不同语义关系
  2. 位置编码:替代RNN的顺序信息
  3. 残差连接:解决深层梯度消失

影响

  • 训练速度提升5-10倍
  • BLEU分数提升30%+

六、预训练时代(2018-2020):知识蒸馏

范式特征:预训练 + 微调

大规模语料
预训练
任务微调
应用

模型进化史

模型发布时间参数量突破点
ELMo2018.0294M双向LSTM上下文嵌入
GPT-12018.06117M单向Transformer
BERT2018.10340MMasked双向预训练
GPT-22019.021.5B零样本学习能力
T52019.1011B文本到文本统一框架

技术遗产

  • 上下文词向量(如BERT的CLS向量)
  • Prompt工程雏形

七、大模型时代(2020-今):涌现的智慧

范式特征:模型即平台

# ChatGPT的思维链提示(2022)
prompt = """
Q: 咖啡馆有23个苹果,用掉20个做派,又买了6个,现在有几个?
A: 我们一步步思考:
1. 起始数:23个苹果
2. 用掉20个:23-20=3
3. 买了6个:3+6=9
所以答案是9个。
"""

关键进展

  1. 模型规模化
    • GPT-3(2020):1750亿参数
    • PaLM(2022):5400亿参数
  2. 训练方法革命
    • RLHF(人类反馈强化学习)
    • 指令微调(Instruction Tuning)
  3. 新能力涌现
    • 思维链推理(Chain-of-Thought)
    • 代码即语言(Codex)

应用生态

大模型
ChatBot
Copilot
Agent
多模态

NLP范式演进时间轴

gantttitle NLP发展七次范式革命dateFormat  YYYYsection 规则时代机器翻译实验       :1954, 3yELIZA对话系统     :1966, 5ysection 统计时代IBM Model 1      :1990, 8yCRF模型          :2003, 5ysection 神经网络Word2Vec        :2013, 2ySeq2Seq         :2014, 3ysection TransformerAttention论文    :2017, 1ysection 预训练BERT            :2018, 2yGPT-3           :2020, 1ysection 大模型ChatGPT         :2022, 2yGPT-4 Turbo     :2023, 1y

技术转折点对比

范式训练数据量典型模型规模关键指标
规则系统0手工规则覆盖规则数
统计模型MB级特征工程准确率85%
神经网络GB级百万参数词向量相似度
TransformerTB级亿级参数BLEU 40+
预训练模型TB级十亿参数GLUE 90+
大语言模型PB级万亿参数MMLU 85%+

未来方向:超越文本的认知革命

  1. 多模态融合
    • 文本+图像+音频(如GPT-4V)
  2. 自主智能体
    agent = LLM + Tools + Memory
    agent.solve("预测明年美股走势")
    
  3. 神经符号系统
    • 大模型负责直觉,符号系统保证逻辑
  4. 脑启发架构
    • 类脑脉冲神经网络处理语言

从香农的信息论到Transformer的注意力机制,NLP的发展揭示了一个深刻真理:语言理解不是代码的堆砌,而是对人性化表达的数学建模。当机器能真正理解"夏天的风是薄荷味的"这样的隐喻时,新的智能纪元才真正开启。

理解这段历史,我们才能预见:当语言不再是障碍,人类与AI的协作将重塑知识创造的边界。


文章转载自:

http://mYhxLSDc.mnypL.cn
http://kf1D1zuN.mnypL.cn
http://FSU2kbaQ.mnypL.cn
http://DYxVoyPw.mnypL.cn
http://VCIqX3YI.mnypL.cn
http://wNzs6tzQ.mnypL.cn
http://EiuDhC1K.mnypL.cn
http://MD3nWmbm.mnypL.cn
http://LqWU4C9u.mnypL.cn
http://oPDy0vsc.mnypL.cn
http://X52WbjEK.mnypL.cn
http://oZLZDdeZ.mnypL.cn
http://J03g31wE.mnypL.cn
http://8ZB90Fy4.mnypL.cn
http://w7hCQmiw.mnypL.cn
http://WRwxTXeD.mnypL.cn
http://5B4gdfpW.mnypL.cn
http://gcKEgKZZ.mnypL.cn
http://XXOr3Zd0.mnypL.cn
http://yc5BEoVu.mnypL.cn
http://68WcZduG.mnypL.cn
http://QlcELRTs.mnypL.cn
http://lLHCXu9U.mnypL.cn
http://FUs46ujo.mnypL.cn
http://APeDNWVf.mnypL.cn
http://7zTBuZQ0.mnypL.cn
http://Egt6ucCs.mnypL.cn
http://Im8iCsuk.mnypL.cn
http://L9SszjCe.mnypL.cn
http://DRksEYUV.mnypL.cn
http://www.dtcms.com/wzjs/609209.html

相关文章:

  • 淘客网站是怎么做的有深度的公司名字
  • 微信端的网站开发pythonc++ 网站开发
  • 昆明网站建设昆明昆明百度seo排名优化
  • wordpress 可视化建站企业服务类网站
  • 西安企业网站设计公司wordpress网址域名
  • 一些做的好的网站域名创建
  • 南通seo网站建设费用适合小公司的记账软件
  • 做头像的网站有哪些wordpress会员等级
  • 北京cms建站模板易无忧建站
  • 新浪博客怎么给自己网站做链接百度四川建设厅网站
  • 网站空间文件夹视频网站建设 知乎
  • 定制网站开发方案wordpress自定义文章代码和样式
  • 网站搜索引擎优化的基本内容微擎商城
  • 作品展示的网站做网站下载哪个软件
  • 微网站好制作吗北京公司地址推荐
  • 山东建设报网站中企动力邮箱登录网址
  • 手机 网站内 搜索网站建设哪个空间比较好
  • 商丘网站建设运营公司怎么区分用vs和dw做的网站
  • 做网站值钱吗网站安全监测预警平台建设成效
  • j2ee 建设简单网站域名访问wordpress
  • 图书馆网站设计方案抖音搜索关键词排名查询
  • 网站建设方案书doc模板网站文件上传wordpress修改
  • 网站建设管理的建议开发一个页面多少钱
  • 一起做的网站重庆顶呱呱网站建设
  • 嘉兴市南湖区建设街道网站建设网站需要了解些什么东西
  • 什么是网站实施太湖县城乡建设局网站
  • 做体育直播网站抓好门户网站 建设
  • 全国建设造价信息网站网站加ico
  • 景区网站建设要求企业网站建设 价格
  • wordpress网站二次开发学网络工程师