1.2.2 大数据方法论与实践指南-数据助力业务场景
数据助力业务场景
除了企业管理,很多业务场景直接依赖数据,下面每个场景从数据来源,简单处理过程,典型应用场景进行说明。
检索排序
1. 数据来源
用户侧数据:搜索关键词、历史搜索记录、点击 / 停留时长、地理位置、设备信息。
内容侧数据:文本标题 / 正文、图片 / 视频标签、内容分类、关键词、更新时间、热度(浏览 / 点赞 / 评论量)。
交互数据:搜索结果点击日志、二次搜索关键词、搜索纠错记录。
2. 数据加工技术
自然语言处理(NLP):关键词提取、语义分析(如判断 “苹果” 是水果还是品牌)、Query 意图识别(如区分 “华为手机价格” 是查询还是比价)。
向量检索技术:将内容和用户查询转化为向量(如 BERT 语义向量),通过余弦相似度等算法匹配相关性。
排序算法:传统算法(如 TF-IDF、BM25)、机器学习模型(如 LambdaMART、LightGBM),结合用户行为特征(如点击率、停留时长)优化排序。
3. 典型场景举例
电商搜索排序:用户搜索 “运动鞋”,系统根据商品标题关键词匹配度、销量、好评率、库存状态、商家权重等综合排序,展示商品列表。
信息平台搜索:用户搜索 “人工智能发展趋势”,系统优先展示权威来源(如行业报告、官方媒体)、最新发布、高互动量的内容。
内容推荐
1. 数据来源
用户数据:人口属性(年龄 / 性别 / 地域)、历史浏览 / 收藏 / 点赞记录、阅读时长、社交关系(如关注的博主)。
内容数据:内容类别(如科技 / 娱乐)、标签体系(如 “AI”“汽车评测”)、创作者标签、多媒体特征(如图像视觉特征、视频关键帧)。
环境数据:实时时间、天气、地理位置(如本地新闻推荐)、设备类型(如手机端偏好短视频)。
2. 数据加工技术
协同过滤:基于用户历史行为(如 “用户 A 和用户 B 都喜欢内容 X”)进行相似推荐。
深度学习模型:如 Wide&Deep、DeepFM、DIN(阿里深度兴趣网络),结合用户实时行为动态调整推荐策略。
冷启动技术:通过用户注册信息(如职业)或内容冷启动标签(如 “新发布科技文章”)为新用户 / 内容提供初始推荐。
3. 典型场景举例
资讯类 APP 推荐:根据用户常阅读的 “财经” 内容,推荐同领域的深度文章、视频,或关联领域(如 “股票”“基金”)内容。
短视频平台推荐:结合用户观看的 “宠物” 视频,推荐同类视频、宠物用品广告,甚至关联的 “萌娃” 内容(基于协同过滤的兴趣扩展)。
广告推荐
1. 数据来源
用户数据:基础画像(如年龄 / 性别)、兴趣标签(如 “美妆”“数码”)、消费能力(如电商订单金额)、广告历史点击 / 转化记录。
广告主数据:广告素材(图片 / 视频 / 文案)、定向条件(如地域 / 人群包)、预算 / 出价策略、落地页内容。
场景数据:实时场景(如用户当前浏览 “旅游攻略” 时推送酒店广告)、设备时段(如夜间推送助眠产品广告)。
2. 数据加工技术
实时竞价(RTB):通过 DMP(数据管理平台)整合用户标签,在广告请求时实时匹配广告主定向条件,计算 eCPM(千次展示收益)排序。
点击率预估(CTR):使用 XGBoost、深度学习模型(如 DeepCTR)预测用户对广告的点击概率,优化广告投放策略。
归因分析:通过多触点归因模型(如末次点击、线性归因)评估广告对转化的贡献度。
3. 典型场景举例
电商购物车定向广告:用户将 “口红” 加入购物车后,浏览其他页面时展示同品牌口红小样广告或竞品优惠券。
信息流广告穿插:在资讯 APP 中,根据用户阅读的 “健身” 文章,插入运动服饰广告,广告素材包含用户所在城市的门店地址(基于 LBS 数据)。
用户匹配
1. 数据来源
用户基础信息:性别、年龄、职业、教育程度、婚恋状态(如社交 APP)。
行为数据:社交互动(如聊天关键词、点赞对象)、活动参与记录(如线下聚会报名)、兴趣标签(如 “摄影”“骑行”)。
关系数据:好友列表、群组归属、共同关注对象(如社交 APP 中的 “可能认识的人”)。
2. 数据加工技术
相似性计算:基于用户画像标签(如 “喜欢电影类型”)计算 Jaccard 相似度,或通过 word2vec 将用户特征向量化后计算余弦距离。
图算法:构建用户关系图(如社交网络中的朋友链),利用 PageRank、Louvain 社区发现算法推荐潜在匹配用户。
强化学习:通过用户对匹配结果的反馈(如 “右滑喜欢”“左滑拒绝”)动态调整匹配策略。
3. 典型场景举例
社交 APP 匹配:探探根据用户设置的 “年龄 25-30 岁、喜欢阅读” 等条件,推荐相似兴趣的异性,并优先展示地理位置相近的用户。
招聘平台人才匹配:BOSS 直聘根据企业岗位需求(如 “Java 开发、3 年经验”)和求职者简历标签,推荐匹配度前 10 的候选人。
用户风控
1. 数据来源
设备数据:IP 地址、设备指纹(如 IMEI、MAC 地址)、登录地点异常(如同一账号在国内和海外同时登录)。
行为数据:登录频率(如 10 分钟内尝试登录 5 次)、操作轨迹(如注册后立即批量添加好友)、异常交互(如聊天中高频发送链接 / 二维码)。
历史风险数据:账号曾被举报记录、关联设备 / IP 的黑名单信息。
2. 数据加工技术
规则引擎:预设风险规则(如 “单日密码错误超 5 次触发验证码”“非工作时段大额转账需二次验证”)。
异常检测算法:孤立森林(Isolation Forest)、One-Class SVM,识别偏离正常行为模式的异常操作(如用户突然凌晨批量下单)。
知识图谱:构建用户 - 设备 - IP - 账号的关联网络,识别团伙作案(如多个账号使用同一设备或 IP 注册)。
3. 典型场景举例
社交 APP 防刷量:检测到新注册账号在 1 小时内关注 50 个用户且无发布内容,判定为 “机器刷号”,自动封禁。
金融 APP 登录风控:用户异地登录时,系统对比历史登录地点,若存在异常(如北京用户突然从深圳登录),要求人脸识别验证。
交易风控
1. 数据来源
交易数据:订单金额、支付方式(如信用卡 / 支付宝)、收付款方信息、交易时段(如凌晨大额转账)。
设备与环境数据:支付设备是否为常用设备、网络环境(如公共 WiFi 可能增加风险)、地理位置与 IP 归属地差异。
关联数据:商户风险等级(如高投诉率商户)、商品类目(如虚拟商品易涉诈)、历史交易纠纷记录。
2. 数据加工技术
实时反欺诈模型:使用梯度提升树(GBDT)、神经网络(如 RNN 捕捉时序特征)预测交易欺诈概率。
团伙欺诈检测:通过图神经网络(GNN)分析交易网络中的资金流向,识别 “卡头”“跑分” 团伙(如多个账户向同一账户集中转账后分散转出)。
动态风险评分:根据交易实时风险等级,动态调整验证强度(如小额交易免密支付,大额交易强制人脸识别)。
3. 典型场景举例
电商反刷单:检测到同一用户账号在同一店铺单日下单超 10 笔且收货地址异常(如多个地址为虚拟号码),判定为刷单,冻结订单并标记店铺。
支付反洗钱:银行 APP 中,用户向陌生账户转账 50 万元且无历史交易记录,系统触发人工审核,核查资金用途是否合规。
内容安全风控
1. 数据来源
内容数据:文本(如评论、发帖内容)、图片 / 视频 / 音频文件、链接 URL(如可能包含钓鱼网站)。
用户举报数据:违规内容举报记录、举报类型(如色情、暴力、谣言)。
行业黑名单:违禁词库(如涉政敏感词)、违规图片特征库(如暴恐图像的 MD5 值)、非法 URL 列表。
2. 数据加工技术
文本过滤:关键词匹配(如敏感词库)、语义分析(如通过 BERT 识别隐喻违规内容)、OCR 识别图片中的文字(如海报中的违禁信息)。
多媒体识别:图片鉴黄(如基于 CNN 的色情图像分类)、视频内容审核(抽帧分析是否包含暴力画面)、音频语音识别(如识别直播中的辱骂言论)。
机器学习模型:训练分类器区分正常内容与违规内容,如 LSTM 用于文本分类,3D-CNN 用于视频内容分析。
3. 典型场景举例
社交 APP 内容审核:用户发布图片含裸露部位时,系统自动识别并拦截发布,同时标记用户账号进一步核查。
短视频平台谣言识别:通过 NLP 分析视频文案,发现 “某地发生地震” 等未证实消息时,触发人工审核并标注 “信息待核实”。
信用评估风控
1. 数据来源
基本信息:身份证、学历、职业、收入证明、资产信息(如房产 / 车辆)。
借贷数据:历史贷款还款记录(如信用卡逾期次数)、当前负债情况、多头借贷记录(如在多个平台申请贷款)。
行为数据:电商消费记录(如按时履约率)、社交关系(如联系人中有无失信人员)、公共信用数据(如法院被执行人信息)。
2. 数据加工技术
信用评分模型:传统评分卡(如 FICO 评分)、机器学习模型(如 XGBoost 构建信用分),综合评估用户还款能力与意愿。
数据清洗与特征工程:处理缺失值(如收入未填写时用行业均值填充)、构造衍生特征(如 “近 3 个月消费波动率”)。
交叉验证:通过 K-fold 验证模型在不同数据集上的泛化能力,避免过拟合。
3. 典型场景举例
互联网小额贷款:蚂蚁借呗根据用户支付宝消费记录、余额宝资产、历史还款情况计算 “芝麻信用分”,决定是否授信及额度高低。
融资租赁风控:评估企业用户时,结合其工商信息(如注册资本、经营异常)、税务数据、海关进出口记录,判断违约风险。
画像
画像是企业内部最典型的数据应用场景之一,会有一章进行体系化介绍,此处进行简单介绍:用户画像和内容画像两种典型场景
用户画像
内容领域(如新闻、短视频、资讯平台)
标签分类:
基础属性:年龄、性别、地域、设备型号、操作系统。
内容偏好:浏览品类(如科技、娱乐、财经)、关键词(如 “AI”“明星”)、时长 / 频率、互动行为(点赞 / 评论 / 分享)。
行为特征:活跃时段、使用深度(日均启动次数)、社交传播力(内容分享率)。
兴趣标签:通过 NLP 提取内容关键词,聚类为兴趣领域(如 “数码爱好者”“影视追更族”)。
数据来源:
用户侧数据:注册信息、登录日志、浏览历史、搜索记录、互动行为数据(埋点采集)。
内容侧数据:文章 / 视频标题、正文、标签、分类、发布时间、作者信息。
第三方数据:地理位置 API(如高德 / 百度地图)、设备厂商数据(如 IMEI、OAID)。
加工处理技术方法:
数据清洗:去重、填充缺失值(如通过 KNN 算法补全年龄)、过滤异常行为(如机器刷量)。
特征工程:
文本处理:TF-IDF 提取内容关键词,LDA 主题模型聚类兴趣标签。
行为加权:根据互动强度(如分享>评论>点赞)计算偏好权重。
时间衰减:近期行为权重高于历史行为(如近 7 天浏览记录影响更大)。
标签体系构建:通过规则引擎(如 “浏览科技类内容>10 篇→科技爱好者”)或机器学习(如随机森林分类)生成复合标签。
典型应用:
个性化推荐:根据用户兴趣标签推送相关内容(如科技爱好者优先看到 AI 新闻)。
精细化运营:针对 “高互动低留存” 用户群体推送召回活动(如签到奖励)。
电商领域(如淘宝、京东、拼多多)
标签分类:
基础属性:年龄、性别、地域、消费能力(如客单价分层)、支付方式。
消费特征:浏览 / 收藏 / 加购商品类目、品牌偏好、价格敏感度(如 “低价敏感型”“品质优先型”)、购买频次。
社交属性:分享商品链接次数、拼团行为、好友购物偏好(社交电商场景)。
风险标签:退货率、差评率、薅羊毛倾向(如高频使用优惠券)。
数据来源:
用户侧数据:注册信息、收货地址、浏览 / 收藏 / 加购 / 购买记录、评价 / 晒单内容。
交易数据:订单金额、支付时间、物流信息、售后记录(退货 / 退款原因)。
第三方数据:物流 API(如顺丰 / 中通轨迹)、支付风控数据(如反欺诈黑名单)。
加工处理技术方法:
数据清洗:识别异常交易(如同一 IP 高频下单)、过滤无效评价(如 “好评” 等无意义文本)。
特征工程:
RFM 模型:计算最近消费(Recency)、消费频率(Frequency)、消费金额(Monetary),划分用户价值层级(如 “重要价值用户”“潜在流失用户”)。
协同过滤:基于用户 - 商品交互矩阵,挖掘相似用户偏好(如 “买过 A 商品的用户也买过 B”)。
情感分析:通过 BERT 模型分析评价文本情感(如 “商品质量差→负面标签”)。
标签体系构建:结合业务规则(如 “客单价>500 元→高端用户”)和机器学习(如 XGBoost 预测复购概率)生成标签。
典型应用:
精准营销:向 “母婴用品偏好” 用户推送奶粉促销信息。
风控管理:对 “高退货率 + 低信用分” 用户限制极速退款权限。
社交领域(如微信、抖音、小红书)
标签分类:
基础属性:年龄、性别、地域、社交关系链(好友数量、群组类型)。
社交行为:聊天关键词(如高频出现 “健身”)、发布内容类型(如短视频 / 图文)、互动对象(如关注列表、点赞好友)。
兴趣标签:根据发布 / 浏览内容提取关键词(如 “美妆”“旅行”),结合 LBS 生成 “本地生活活跃用户” 标签。
影响力标签:粉丝数量、内容传播量(如视频播放量、博文转发数)、KOL/KOC 分级。
数据来源:
用户侧数据:注册信息、头像 / 昵称、朋友圈 / 动态内容、聊天记录(需合规授权)。
社交关系数据:好友列表、加入群组、关注 / 粉丝关系、互动记录(如评论 @好友)。
第三方数据:地理位置数据(如签到地点)、内容版权数据(如音乐 / 视频引用来源)。
加工处理技术方法:
数据清洗:脱敏处理聊天内容(如隐藏敏感词)、过滤垃圾账号(如注册后无互动的 “僵尸号”)。
特征工程:
图神经网络(GNN):构建用户 - 好友关系图,分析社群结构(如 “母婴交流群活跃成员”)。
内容理解:通过 CV 技术提取图片 / 视频中的物体(如 “宠物”“美食”),结合 OCR 识别文本标签。
情感倾向分析:判断用户对特定话题的态度(如 “支持环保→正向标签”)。
标签体系构建:通过社交影响力算法(如 PageRank)计算用户权重,结合 LSTM 预测内容传播潜力。
典型应用:
社交推荐:基于共同兴趣标签和好友关系推荐新联系人(如 “你可能认识的摄影爱好者”)。
内容安全风控:对 “高风险关键词 + 低信用分” 用户发布的内容进行人工审核。
内容画像
内容领域(如新闻、短视频)
标签分类:
基础属性:内容类型(图文 / 视频 / 音频)、体裁(新闻 / 科普 / 娱乐)、发布时间、作者 / 机构。
内容特征:关键词(如 “新能源汽车”“人工智能”)、主题分类(如科技 - 汽车 - 电动车)、情感倾向(如 “俄乌冲突→中性 / 敏感”)。
消费数据:浏览量、完播率、互动率(点赞 / 评论 / 分享)、收藏率。
质量标签:原创度(通过文本查重判断)、专业度(如来源为权威媒体→“高可信度”)。
数据来源:
内容生产端:作者上传的文本、图片、视频文件,后台录入的分类标签。
用户消费端:内容浏览日志、互动行为数据(埋点采集)。
第三方数据:版权库数据(如音乐 / 视频版权归属)、舆情监测数据(如敏感词库)。
加工处理技术方法:
数据清洗:过滤低质内容(如字数<200 字的水文)、识别抄袭内容(如文本重复率>70%)。
特征工程:
自然语言处理(NLP):通过 BERT 模型提取文本语义特征,生成主题标签。
计算机视觉(CV):识别视频 / 图片中的物体、场景(如 “海滩”“猫咪”),提取视觉标签。
音频处理:通过语音识别(ASR)提取音频内容关键词,生成语音标签。
标签体系构建:结合规则引擎(如 “发布时间<7 天→时效性标签”)和深度学习(如 CNN 分类视频类别)生成标签。
典型应用:
个性化推荐:将 “高互动 + 低完播率” 的视频标记为 “标题党”,降低推荐权重。
内容审核:对包含 “敏感关键词 + 高传播量” 的内容触发人工复核流程。
电商领域(如商品、店铺)
标签分类:
基础属性:商品类目(如女装 - 连衣裙)、品牌、价格区间、SKU 属性(尺寸 / 颜色 / 材质)。
销售特征:销量、好评率、复购率、退货原因(如 “尺码不符”“质量问题”)。
人群匹配:目标用户标签(如 “25-30 岁女性→职场通勤装”)、适用场景(如 “夏季穿搭”“婚礼礼服”)。
营销标签:促销类型(满减 / 打折)、库存状态(限购 / 预售)、物流时效(次日达)。
数据来源:
商品端数据:商家上传的商品详情页(标题、图片、参数)、库存 / 价格变更记录。
交易数据:订单量、用户评价、退货单、客服聊天记录(如咨询尺码问题)。
第三方数据:行业趋势数据(如艾瑞咨询的品类增长报告)、竞品价格监控数据。
加工处理技术方法:
数据清洗:修正错误参数(如 “衣服材质误标为棉→实际为化纤”)、同步库存状态(避免超卖)。
特征工程:
知识图谱:构建商品 - 属性 - 用户关联关系(如 “连衣裙→材质丝绸→适合夏季→25 岁女性”)。
协同过滤:分析商品共购关系(如 “买手机的用户常买耳机”),生成搭配标签。
文本挖掘:从评价中提取高频问题(如 “鞋子磨脚→舒适度标签 - 低”)。
标签体系构建:通过关联规则算法(如 Apriori)挖掘热销组合(如 “防晒霜 + 墨镜→防晒套装”)。
典型应用:
广告投放:将 “高好评率 + 夏季适用” 的防晒霜定向推送给 “20-35 岁女性 + 搜索过防晒” 用户。
供应链优化:对 “低销量 + 高退货率” 商品标记为 “滞销款”,减少采购量。
社交领域(如用户动态、博文、短视频)
标签分类:
基础属性:内容类型(图文 / 视频 / 直播)、发布时间、地理位置(如 “上海外滩”)。
内容特征:关键词(如 “露营”“考研”)、话题标签(如 #ootd、# 学习打卡)、情感基调(如 “积极”“焦虑”)。
社交属性:@提及对象、转发链长度(如 “原发→转发 1 次→转发 10 次”)、互动类型(如 “求链接”“求教程”)。
风险标签:违规类型(广告引流 / 色情 / 敏感话题)、举报次数、历史违规记录。
数据来源:
内容生产端:用户发布的图文、视频、直播流,添加的话题标签。
社交互动端:评论内容、转发理由、点赞用户画像、直播观众互动数据(如弹幕关键词)。
第三方数据:舆情数据库(如违禁词库)、地理位置 POI 数据(如景点、商圈)。
加工处理技术方法:
数据清洗:过滤重复内容(如同一视频多次发布)、识别机器人账号发布的垃圾广告。
特征工程:
多模态融合:结合文本(博文内容)、图像(配图)、音频(视频语音)生成综合标签。
传播路径分析:通过图算法(如最短路径)识别内容传播枢纽节点(如 “转发量 TOP10 的 KOL”)。
风险识别:使用 CNN 检测图片中的违规元素(如暴露画面),通过 LSTM 识别文本中的敏感词。
标签体系构建:通过内容热度算法(如考虑点赞 / 转发 / 完播率的加权得分)生成 “爆款潜力” 标签。
典型应用:
内容分发:将 “高互动 + 正能量” 的短视频推荐给 “关注励志话题” 的用户。
社区治理:对 “含广告关键词 + 低粉丝量” 的博文自动标记为 “疑似营销”,限制流量曝光。
上面从应用方面说了使用场景,后续讲述满足以上要求数据如何产出的。
