词编码模型和回答问题的LLM是否为同一个; 词编码模型和回答问题模型分开时:需要保证词嵌入维度一致吗
词编码模型和回答问题的LLM是否为同一个
目录
- 词编码模型和回答问题的LLM是否为同一个
- 二者为同一模型的情况
- 二者为不同模型的情况
- 词编码模型和回答问题模型分开时:需要保证词嵌入维度一致吗
- 需要保证词嵌入维度一致的原因
- 特殊情况
- 豆包采用什么模式
- 一体化的设计架构
- 模型的优势
在实际应用里,词编码模型和回答问题的大语言模型(LLM)既可能是同一个,也可能不同
二者为同一模型的情况
以使用单个完整的预训练大语言模型(如 GPT - 3.5、文心一言等)处理问答任务为例。
在这种情形下,该模型自身就集成了词编码功能与问答能力。当输入一个问题时,模型内部首先会进行词编码操作,把输入文本转化为模型能够处理的数值表示,接着利用自身的神经网络架构对这些编码进行处理,最终生成问题的答案。
例如,你向 OpenAI 的 GPT - 3.5 询问“地球的卫星是什么”,
GPT - 3.5 会自动将这个问题文本进行分词、编码等操作,把文字转化为内部的向量表示
然后基于其大规模的预训练知识和神经网络计算,输出“地球的卫星是月球”这样的回答。这里的词编码和回答问题的过程都由 GPT - 3.5 这一个模型完成。
二者为不同模型的情况
在一些复杂的问答系统架构中,会将词编码和问答任务分别交给不同的模型处理。