当前位置: 首页 > wzjs >正文

有什么国外的黄网站网站站点查询

有什么国外的黄网站,网站站点查询,怎么免费做公司网站,台州专业做网站如果让计算机理解人类语言- One-hot 编码(One-hot Encoding,1950s) flyfish 如果让计算机理解人类语言- One-hot 编码(One-hot Encoding,1950s) 如果让计算机理解人类语言- 词袋模型(Bag of W…

如果让计算机理解人类语言- One-hot 编码(One-hot Encoding,1950s)

flyfish

如果让计算机理解人类语言- One-hot 编码(One-hot Encoding,1950s)
如果让计算机理解人类语言- 词袋模型(Bag of Words, BoW,1970s)
如果让计算机理解人类语言- Word2Vec(Word to Vector,2013)
如果让计算机理解人类语言- Qwen3 Embedding (2025)

为什么

1. 计算机“只认数字”,但光有数字不够,得让数字“带意思”

人类的语言(文本)是由字符、词、句子构成的符号系统(比如“猫”“狗”“我爱自然”),但计算机的底层运算基于二进制(0和1),无法直接“理解”这些符号。。计算机本质是“数字处理器”,只能算数字,看不懂文字、听不懂语音。所以第一步必须把语言(词、句子等)转成数字(向量)——但如果这串数字只是随便编的(比如给“猫”标1,“狗”标2),计算机根本不知道“猫”和“狗”都是动物,也分不清“我吃苹果”和“苹果吃我”的区别。

这时候,“精准的向量”就像给数字“贴了语义标签”:比如让“猫”和“狗”的向量长得像(数字差异小),“猫”和“桌子”的向量差得远;让“我吃苹果”和“苹果被我吃”的向量接近(语义相似),“我吃苹果”和“苹果吃我”的向量差别大。这样计算机才能从数字里“读”出语言的真实意思。

2. 只有精准的向量,计算机才能干“需要理解语言”的活

很多我们依赖的AI功能,都得先让计算机“懂语义”:

  • 比如机器翻译:把“猫”翻译成“cat”,不能只靠单词对应,得知道“猫”的语义是“一种小型哺乳动物”,这样才能在英语里找到对应的“cat”(而不是乱翻);
  • 比如搜索引擎:你搜“推荐好吃的水果”,计算机得明白“好吃的水果”和“美味的浆果”“甜的果类”是一个意思,才能给你推相关结果,而不是只找字面完全一样的文字;
  • 比如聊天机器人:你说“我心情不好”,它得从向量里读出“负面情绪”,才能回“要不要聊聊?”,而不是答非所问。

如果向量不精准,这些活就干砸了:翻译可能驴唇不对马嘴,搜索结果全不相关,机器人答非所问。

3. 精准的向量能让语言“可计算”,支持更复杂的操作

语言单位的向量如果足够精准,就能像数字一样“计算”,而计算结果刚好能反映语义关系:

  • 比如“国王 - 男人 + 女人 = 女王”(向量运算),这其实是让计算机通过向量计算“推理”出语义类比;
  • 比较两句话的向量“距离”,就能知道它们意思是否相近(比如判断“我喜欢你”和“你被我喜欢”是不是一个意思)。
    这些“语义计算”能力,都是靠“精准的向量表示”才能实现的——如果向量不准,计算结果就会混乱(比如算出来“国王”和“苹果”更像),自然没法推理。

用数值向量更精准地表示语言单位,本质是给计算机装上“理解语言的工具”——让冰冷的数字变成能承载语义、逻辑、关系的“语言密码”,这样计算机才能从“只会算数字”升级到“能看懂、听懂、甚至用人类语言干活”(翻译、聊天、分析等)。

One-hot 编码(One-hot Encoding)

展示One-hot编码的具体形式

场景1:文本词汇编码
假设某文本任务的词汇表(类别全集)为:["苹果", "香蕉", "橙子", "葡萄"](共4个类别),则每个词的One-hot向量如下:

  • “苹果”对应索引0 → 向量:[1, 0, 0, 0](第0位为1,其余为0)
  • “香蕉”对应索引1 → 向量:[0, 1, 0, 0](第1位为1,其余为0)
  • “橙子”对应索引2 → 向量:[0, 0, 1, 0](第2位为1,其余为0)
  • “葡萄”对应索引3 → 向量:[0, 0, 0, 1](第3位为1,其余为0)

场景2:性别类别编码
若某统计任务的性别类别全集为:["男", "女", "未知"](共3个类别),则编码为:

  • “男”对应索引0 → 向量:[1, 0, 0]
  • “女”对应索引1 → 向量:[0, 1, 0]
  • “未知”对应索引2 → 向量:[0, 0, 1]
字面含义

“One-hot Encoding” 直译为“单热编码”,其名称源于对编码逻辑的形象描述:

  • “One”(一):指编码向量中仅有“一个”位置的值为非0(通常为1),其余所有位置均为0;
  • “hot”(热):源于早期电子工程和计算机科学中的“热信号”概念——在电路或信号系统中,“热”代表“激活状态”(如高电平信号),“冷”代表“未激活状态”(如低电平信号)。因此,“One-hot”的核心是“仅单一位置处于激活状态的编码”。
离散类别的“二进制唯一标识”

One-hot编码是一种将离散类别特征(如文本中的词、物品标签、属性类别等非数值符号)转换为机器可识别的二进制数值向量的标准化方法。其核心规则可概括为:

  1. 确定该特征的“类别全集”(即所有可能的离散值集合,如词汇表、性别选项等);
  2. 为每个类别分配唯一的索引(从0或1开始,基于全集顺序);
  3. 每个类别的编码向量长度等于“类别全集的大小”;
  4. 向量中仅对应该类别索引的位置为1(激活),其余所有位置均为0(未激活)。
从“离散数据数值化”需求中自然演化

One-hot编码没有单一的“发明者”,其思想是20世纪中期随着离散数据处理需求早期统计学、计算机科学发展逐步形成的“共识性方法”。

20世纪50-60年代,计算机开始涉足统计分析(如人口普查、市场调研)和早期机器学习任务,需要处理大量非数值的离散符号(如“性别=男/女”“职业=教师/医生”“词=猫/狗”)。若直接用整数编码(如“男=1,女=2”),机器会错误解读“数值大小关系”(如误认为“女>男”),导致模型偏见。
为解决这一问题,研究者自然想到“用唯一位置标识类别”——每个类别在向量中独占一个维度,通过“1”标记存在,“0”标记不存在,既避免了虚假数值关系,又保证了类别唯一性。这种思路在20世纪70-80年代随着逻辑回归、决策树等模型的普及,逐渐成为处理离散自变量的“标准操作”,被写入早期统计学教材(如《应用回归分析》)和编程实践中。 它是人类对“离散符号→数值转换”问题的最直观解决方案。

局限性 - 无法表示语义关联:语义相关的类别,向量却完全独立

One-hot向量的“正交性”(任意两个不同向量的点积为0)导致它无法捕捉类别之间的语义关联——即使两个类别在现实中高度相关(如同属一类、有相似属性),它们的编码向量也会表现为“毫无关系”。

例子:水果与动物的词汇编码
假设某任务的词汇表(类别全集)为:["苹果", "香蕉", "老虎", "狮子"](共4个词),它们的One-hot向量如下:

  • 苹果:[1, 0, 0, 0]
  • 香蕉:[0, 1, 0, 0]
  • 老虎:[0, 0, 1, 0]
  • 狮子:[0, 0, 0, 1]

从语义上看:

  • “苹果”和“香蕉”都是“水果”,语义高度相关;
  • “老虎”和“狮子”都是“哺乳动物”,语义也高度相关。

但从One-hot向量的角度:

  • “苹果”与“香蕉”的向量点积为 1×0 + 0×1 + 0×0 + 0×0 = 0
  • “老虎”与“狮子”的向量点积同样为0;
  • 甚至“苹果”(水果)与“老虎”(动物)的点积也是0。

这意味着:在One-hot编码中,“苹果和香蕉的相似度”与“苹果和老虎的相似度”完全一样(都是0),完全违背了人类对“语义关联”的认知。模型通过这种向量学习时,无法利用“同类事物的共性”(比如“苹果和香蕉都可以吃”),只能孤立记忆每个类别,学习效率极低。

局限性 - 泛化能力弱:遇到新类别时,编码规则完全失效

One-hot编码的向量维度严格等于“原始类别全集的大小”,且每个维度对应固定类别。当出现“原始全集之外的新类别”时,原有的编码规则无法兼容,必须重构向量维度,导致新旧数据无法统一处理,泛化能力极差。

例子:新增词汇的编码困境
延续上面的例子:假设原始词汇表是 ["苹果", "香蕉", "老虎", "狮子"](4个词),编码向量维度为4。

现在出现一个新词汇“橙子”(属于水果,但不在原始词汇表中):

  • 按照One-hot规则,必须将“类别全集”更新为 ["苹果", "香蕉", "老虎", "狮子", "橙子"](5个词);
  • 此时所有原有词汇的编码向量维度必须从4扩展到5,且索引可能重新分配(比如“橙子”的索引为4):
    • 原“苹果”编码从 [1,0,0,0] 变为 [1,0,0,0,0]
    • 原“香蕉”编码从 [0,1,0,0] 变为 [0,1,0,0,0]
    • “橙子”的编码为 [0,0,0,0,1]

这会导致两个问题:

  1. 历史数据失效:之前用4维向量训练的模型,无法处理新的5维向量(输入维度不匹配),必须重新训练;
  2. 新类别孤立:“橙子”作为新类别,其编码向量与所有原有向量(包括同属水果的“苹果”“香蕉”)的点积仍为0,模型无法利用“橙子和苹果都是水果”的共性快速学习,只能像学习全新事物一样从头训练。

这种“遇到新类别就必须重构编码规则”的特性,使其在动态场景(如实时更新的词汇表、不断新增标签的分类任务)中几乎无法使用。

“One-Hot编码”(独热编码)的起源

1. 早期理论基础(20世纪50年代)

感知机与二进制编码:1957年Frank Rosenblatt提出的感知机算法,作为最早的人工神经元模型,需要将输入数据转化为二进制形式。这一需求推动了将分类数据(如字符、类别)映射为二进制向量的技术探索。
计算机系统的底层需求:早期计算机(如IBM的系统)处理分类数据时,已开始使用类似“一位有效”的编码方式(如用特定位表示状态),但未形成统一术语。

2. 统计与机器学习中的应用(20世纪60-80年代)

Dummy变量的数学基础:在统计学中,“虚拟变量”(Dummy Variables)的概念被用于回归分析,与One-Hot编码的原理类似。例如,1967年的最近邻算法已隐含了分类数据的数值化需求。
状态机设计的实践:1994年的论文明确提到在Verilog硬件描述语言中使用One-Hot编码设计状态机,此时该技术已成为工程实践的标准方法。

3. 机器学习领域的普及(20世纪90年代后)

名称的正式确立:虽然具体年份难以考证,但“One-Hot编码”这一术语在20世纪90年代后随着机器学习框架(如Scikit-learn)的发展逐渐普及,尤其在自然语言处理(NLP)中用于单词表示。
从硬件到软件的迁移:随着神经网络和深度学习的兴起,One-Hot编码成为预处理分类数据的标准步骤。例如,在词袋模型中,每个单词被映射为一个高维稀疏向量,仅对应位置为1,其余为0。

http://www.dtcms.com/wzjs/22422.html

相关文章:

  • 建设一个用教育网站百度怎么做关键词优化
  • 页面设计器翻译成英文seo人员工作内容
  • 能自己在家做网站吗软媒win7优化大师
  • 投资者教育网站建设搜索引擎是什么意思啊
  • 网站案例介绍seo排名快速
  • 北京专业网站设计报价山西seo和网络推广
  • 进不去的网站用什么浏览器电工培训机构
  • 做预算的网站网络推广运营团队
  • 营销型网站建设要纯手工seo公司
  • html5模板之家如何将网站的关键词排名优化
  • 做网站搞什么流量冯宗耀seo教程
  • 做网站宣传有用吗交换友情链接的条件
  • 重庆网站制作公司网络营销怎么做推广
  • 深圳市官网网站建设报价小说关键词生成器
  • 网站管理的主要工作有哪些沪深300指数基金
  • 网站设计的摘要营销策略理论
  • 1688网页登录济南网络优化网站
  • 长沙优化网站建设搜索引擎优化的根本目的
  • 如何查询网站空间大小百度收录提交入口网址
  • 网站设计第一步怎么做网络市场调研的方法
  • 昌吉州回族自治州建设局网站深圳网页搜索排名提升
  • 重庆观音桥1号关键词优化步骤简短
  • 个人网站建设论文中期报告如何在各大平台推广
  • 展示类网站建设台州seo优化公司
  • 怎样做静态网站网站销售怎么推广
  • 请问聊城网站建设ks数据分析神器
  • 山西建设集团网站seo排名关键词点击
  • 做ps兼职的网站有哪些营销网络的建设怎么写
  • 网站维护包含哪些内容建站系统主要包括
  • 淮安市网站建设排名