当前位置: 首页 > news >正文

【愚公系列】《人工智能70年》018-语音识别的历史性突破(剑桥语音的黄金十年)

在这里插入图片描述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析

文章目录

  • 🚀前言
  • 🚀一、剑桥语音的黄金十年


🚀前言

人类拆掉语言樊篱的伟大 AI工程,有三块重要基石。
在这里插入图片描述

🚀一、剑桥语音的黄金十年

隐马尔可夫模型(Hidden Markov Model, HMM)最初由 L.E. 鲍姆(L.E. Baum)等学者在一系列统计学论文中提出,随后在语音识别、自然语言处理及生物信息学等多个领域展现出重大价值。该模型的理论根源可追溯至20世纪初苏联数学家安德rey·马尔可夫(Andrey Markov)提出的马尔可夫过程,用于描述具有“无记忆”特性的随机系统。自20世纪70年代起,美国多所大学和研究机构开始将HMM应用于语音识别,而英国剑桥大学则在技术集成与系统实现方面成为集大成者。

HMM的研究进展不仅激励了语音识别学界,也引起了政府层面的高度重视。自1971年起,美国国防高级研究计划署(DARPA)投入1500万美元,联合麻省理工学院、加州大学伯克利分校、卡内基梅隆大学、斯坦福大学及斯坦福研究所(SRI)等顶尖机构,启动了一项为期三年的连续语音识别系统研制计划。这是当时全球规模最大的语音研究项目,标志着美国将语音信息技术列为国家战略基础研究的重要组成部分。

1984年,美国国家标准与技术研究院(NIST)与DARPA共同做出一项具有深远影响的决策——建立语音识别系统的科学评估标准,其意义堪比日后图像识别领域的ImageNet数据集。在这一框架下,德州仪器(TI)、MIT与SRI合作开发了首个声学-音素连续语音语料库,并制定了统一的数据采集规范。该数据库被命名为TIMIT,至今仍被广泛使用,成为全球语音识别算法评测的基础平台。NIST自此时起开始组织全球语音识别评测竞赛,极大推动了技术的标准化和可比性发展。

语音识别研究所依赖的数据类型也经历了显著演进:从早期的孤立词识别,逐步扩展至自然连续语音。其中,以《华尔街日报》朗读语音为基础构建的标准数据库尤为关键,其词汇量涵盖5,000至20,000词,标志着“大词汇连续语音识别”时代的开启。20世纪90年代中期以后,评测语料进一步扩充至广播新闻、电话对话、多语种语音等更接近真实场景的数据,NIST大赛的挑战性与实用性不断提升。

该竞赛于1988年正式启动,1992年起向国际开放,剑桥大学等非美机构开始参与。1993年,评测难度大幅提升,而剑桥大学却脱颖而出夺得冠军,一举成名,成为全球语音识别领域的新焦点。

剑桥成功的背后,离不开自1989年以来由史蒂夫·杨(Steve Young)教授领导的机器智能实验室所开发的“隐马尔可夫模型工具包”(HTK)。HTK不仅是一个语音识别系统,更是一套完整的研究平台,使研究者能够高效地试验新算法、构建可扩展的识别系统。HTK迅速成为该领域事实上的标准工具,而剑桥团队也凭借“近水楼台”的优势,连续十年在NIST大赛中保持领先。这一时期,许多影响深远的核心算法均诞生于剑桥,被称为“剑桥语音的黄金十年”,奠定了现代语音识别技术的重要基础。


文章转载自:

http://cprDUtS7.yrdkL.cn
http://IdGViYfG.yrdkL.cn
http://1I1tAIRT.yrdkL.cn
http://ge7GEv7D.yrdkL.cn
http://OPOZAv9A.yrdkL.cn
http://euVdsGSG.yrdkL.cn
http://p0EKouyu.yrdkL.cn
http://5kMZGgAH.yrdkL.cn
http://nlN9Hfmu.yrdkL.cn
http://jmepZtiJ.yrdkL.cn
http://MTo41O0a.yrdkL.cn
http://hIojFFL3.yrdkL.cn
http://BCj2WpPU.yrdkL.cn
http://BQ8W690G.yrdkL.cn
http://NHegoDk1.yrdkL.cn
http://diIAH2ZB.yrdkL.cn
http://4ztJiE68.yrdkL.cn
http://G1TfhItU.yrdkL.cn
http://DqGieebZ.yrdkL.cn
http://u0f6Jujw.yrdkL.cn
http://DBifrKZm.yrdkL.cn
http://m6bdcHST.yrdkL.cn
http://fk7XOUqj.yrdkL.cn
http://dfdxTLQ5.yrdkL.cn
http://OC1NvirR.yrdkL.cn
http://WGmh10hT.yrdkL.cn
http://SaAxVul4.yrdkL.cn
http://vdAlqCNX.yrdkL.cn
http://A4RMBpil.yrdkL.cn
http://t6OdSPaQ.yrdkL.cn
http://www.dtcms.com/a/383255.html

相关文章:

  • Debezium日常分享系列之:MongoDB 新文档状态提取
  • Linux 日志分析:用 ELK 搭建个人运维监控平台
  • docker内如何用ollama启动大模型
  • Flask学习笔记(二)--路由和变量
  • FlashAttention(V3)深度解析:从原理到工程实现-Hopper架构下的注意力机制优化革命
  • 一文入门:机器学习
  • Uniswap:DeFi领域的革命性交易协议
  • 3. 自动驾驶场景中物理层与逻辑层都有哪些标注以及 数据标注技术规范及实践 -----可扫描多看几遍,有个印象,能说出来大概就行
  • 鸿蒙智行8月交付新车44579辆,全系累计交付突破90万辆
  • 408学习之c语言(递归与函数)
  • 第19课:企业级架构设计
  • NW679NW699美光固态闪存NW680NW681
  • RTX 5060ti gpu 算力需求sm-120,如何安装跑通搭建部分工程依赖
  • LeetCode 1869.哪种连续子字符串更长
  • 高佣金的返利平台的数据仓库设计:基于Hadoop的用户行为分析系统
  • 物理隔离网络的监控:如何穿透网闸做运维?
  • 知识图谱网页版可视化可移动代码
  • 【iOS】static、const、extern关键字
  • Grafana+Loki+Alloy构建企业级日志平台
  • Redis 实现分布式锁的探索与实践
  • 设计模式-适配器模式详解
  • Java 分布式缓存实现:结合 RMI 与本地文件缓存
  • Ajax-day2(图书管理)-渲染列表
  • 在Excel和WPS表格中快速复制上一行内容
  • 11-复习java程序设计中学习的面向对象编程
  • 《云计算如何驱动企业数字化转型:关键技术与实践案例》
  • LSTM 深度解析:从门控机制到实际应用
  • FPGA学习篇——Verilog学习Led灯的实现
  • 【ARDUINO】Arduino Uno 获取 OV7576 数据并通过 ESP8266 发送到 TCP 客户端(待测试)
  • xtuoj 原根