当前位置: 首页 > news >正文

不同类型模型的样本组织形式

在推荐系统中,样本流作为模型的基建至关重要,样本的组织形式通常与模型预估的目标的特点相关,包括PointWise、Parwise和Listwise的建模方式;一般主要是PointWise的模型居多,其次是Listwise的,Pairwise的模型相对较少。
对于一条样本,由Feature和Label两部分组成,其中Feature根据不同维度可以划分成不同的类型特征:
在这里插入图片描述

  • 根据特征是否需要构建Embedding层分为Sparse特征和Dense特征;
  • 根据特征所归属分为:User侧特征、Context特征和Item侧特征;
  • 根据特征读入维度分为:基础特征和序列特征;
    但特征对于样本的组织形式影响并不大,主要是Label和模型建模方式决定了样本的组织方式。
    Pointwise
    最经典pointwise模型即推荐系统中的MTL精排或粗排模型,最常见的就是预估点击和转化率目标。
    暂时无法在飞书文档外展示此内容
    对于MTL模型,假如一次推荐服务的请求返回给用户10个item候选,假设对于每次请求平均曝光出来的N(N<=10)个商品,则平均每次会产生N条样本;假设每天一个推荐系统产生M次请求,一天内共产生M*N条样本,其中这些请求中大多数是曝光未点击的item,这些样本全部送入模型学习会非常消耗计算资源,因此一般会对这部分负样本进行负采样,所有正样本均保留。
    还有一种是Cascade级联模型,例如Cascade粗排,其预估目标是精排的TopN,即一次请求中,会将该次请求精排TopN作为正样本,不在top3的随机抽取N(N一般取1~3)个作为负样本,即一次请求固定产生2N条样本,每天将会产生2MN的样本,其采样是按照请求粒度采样。
    Listwise
    一般对于混排来说或者Listwise的重排模型,其打分考虑了一刷内其他候选item的信息,因此在落样本时依旧是一次请求内将进入混排或者重排打分的TopN的item,然后根据这个候选最终是否曝光出去,因此一般这种组织方式需要模型预估item曝光出去的概率,然后曝光后预估相应的点击和转化目标。
http://www.dtcms.com/a/323357.html

相关文章:

  • 机器翻译:FastText算法详解与Python的完整实现
  • Java-线程线程的创建方式
  • 十九、MySQL-DQL-基本查询
  • 校招秋招春招实习快手在线测评快手测评题库|测评解析和攻略|题库分享
  • 【unitrix数间混合计算】2.10 小数部分特征(bin_frac.rs)
  • 【和春笋一起学C++】(三十三)名称空间的其他特性
  • 小米开源大模型 MiDashengLM-7B:不仅是“听懂”,更能“理解”声音
  • B.10.01.5-电商系统的设计模式应用实战
  • 制作浏览器CEFSharp133+X86+win7 之 javascript交互(二)
  • Javaweb - 14.1 - 前端工程化
  • 从依赖外部提示的显式思维链(CoT),到内部自洽的内化推理(Internalized Reasoning)
  • ConcurrentHashMap源码详解
  • 虚拟手机号工具使用
  • 年轻新标杆!东方心绣脸韧带年轻技术升级发布
  • 基于大语言模型的智能问答系统研究
  • 谷歌官方性能文档:Android 动态性能框架优化Performance Hint API
  • Go 实用指南:如何执行 Skyline 查询(Pareto 最优点筛选)
  • [激光原理与应用-201]:光学器件 - 增益晶体 - 概述
  • Dell PowerEdge: Servers by generation (按代系划分的服务器)
  • leetcode 283. 移动零 - java
  • 【12】 神经网络与深度学习(下)
  • [激光原理与应用-204]:光学器件 - LD激光二极管工作原理以及使用方法
  • 网络超时处理与重试机制:Go最佳实践
  • 【R语言】多样本单细胞分析_SCTransform+Harmony方案(2)
  • Q-learning强化算法万字详解
  • 【工作流引擎】Flowable 和 Activiti
  • 《算法导论》第 15 章 - 动态规划
  • Python大数据分析——AdaBoost、GBDT、SMOTE与XGBoost算法模型
  • Slab 算法浅析
  • go数据处理之textproto.Pipeline