通俗易懂的大模型原理
十分钟揭秘DeepSeek原理,通俗易懂的大语言模型科普!_哔哩哔哩_bilibili
最基础原理,x是输入,y是输出。上百万和上百亿的参数
将一句话转化为数字向量
一句话就是向量矩阵
输入矩阵和参数矩阵进行计算得出输出矩阵,因为是并行计算,显卡的重要性大于cpu.
两个向量之间越接近,这两个词意思越接近
再反向返回误差,微调模型参数,使误差越来越小
训练三步骤,好的分数高,低的分数低,为追求高分数,越来越聪明。和婴儿的成长学会说话的训练差不多。
十分钟揭秘DeepSeek原理,通俗易懂的大语言模型科普!_哔哩哔哩_bilibili
最基础原理,x是输入,y是输出。上百万和上百亿的参数
将一句话转化为数字向量
一句话就是向量矩阵
输入矩阵和参数矩阵进行计算得出输出矩阵,因为是并行计算,显卡的重要性大于cpu.
两个向量之间越接近,这两个词意思越接近
再反向返回误差,微调模型参数,使误差越来越小
训练三步骤,好的分数高,低的分数低,为追求高分数,越来越聪明。和婴儿的成长学会说话的训练差不多。