当前位置：首页 > news >正文

长沙市天心区建设局网站常用网站后缀

news 2025/10/30 2:28:47

长沙市天心区建设局网站,常用网站后缀,wordpress if分类,如何提高网站知名度一、L1 和 L2 正则化的区别？对数据分布有什么要求，它们都能防止过拟合吗？ 1.1. L1 与 L2 正则化的区别特性L1 正则化（Lasso）L2 正则化（Ridge）正则项λ * ∑|wᵢ| λ ∗ ∑ ( w i 2 ) λ * ∑…

一、L1 和 L2 正则化的区别？对数据分布有什么要求，它们都能防止过拟合吗？

1.1. L1 与 L2 正则化的区别

特性	L1 正则化（Lasso）	L2 正则化（Ridge）
正则项	λ * ∑\|wᵢ\|	$λ * \sum (w_{i}^{2})$
几何意义	曼哈顿距离	欧几里得距离
是否稀疏	会产生稀疏解（可做特征选择）	一般不会产生稀疏解
使用场景	特征选择、高维稀疏问题	多重共线性、连续性特征问题

1.2. 对数据分布的要求

L1 正则化：
- 特征间相关性高时效果较差（可能任意选择一个）；
- 更适合高维稀疏特征（如文本、基因数据）；
L2 正则化：
- 更适合特征均匀分布、非稀疏数据；
- 对特征间存在多重共线性效果更稳定；
- 对正态分布特征表现更好；

1.3. 它们都能防止过拟合吗？

是的，L1 和 L2 都能防止过拟合：

L1 通过让某些特征权重变为 0，起到特征选择的作用；
L2 通过惩罚权重过大的参数，使模型更平滑、更稳定；

1.4. 总结建议

场景	推荐使用的正则化方式
高维稀疏特征	L1
需要自动特征选择	L1
特征之间存在多重共线性	L2
更注重解的稳定性	L2
想结合两者优点	Elastic Net（L1 + L2 混合）

二、冷启动场景下Embedding初始化方案有那些？

2.1. 随机初始化

直接高斯或者均匀随机初始化。缺点就是没有任何先验知识可能导致收敛变慢或者模型不稳定

2.2. 使用平均 Embedding

所有未知的物品的Embedding = 所有老物品Embedding的平均值。这样可能稳定点，适用于新物品和老物品有几分相似

2.3. 相似对象初始化

基于新对象的一些辅助信息（如属性、上下文、元数据）找出最相似的已有对象，使用其 Embedding 或加权平均。

2.4. 搞迁移学习或者叫预训练模型初始化

先训练一个元模型就是输出Embedding，根据新对象的元特征生成对应的 Embedding

2.5. 使用图神经网络

这个比较复杂，图本身也不好训练，感觉只有任务要求很高的情况才搞这么复杂

三、详细解释一下DCN模型

论文原文：Deep & Cross Networkfor Ad Click Predictions, KDD’2017, Google

3.1. 设计这个模型其实也是为了更加充分的特征交叉，DNN + Cross Net模型架构如下：

在这里插入图片描述

3.2. Cross Net 的具体细节

对于第 l 层：
$x_{l+1} = x_0 \cdot (w_l^T x_l) + b_l + x_l$
其中：

$x_0$ 为原始输入向量（固定不变）
$x_l$ 为当前层输入
$w_l \in \mathbb{R}^d$ ， $b_l \in \mathbb{R}^d$
· 为哈达马积（逐元素乘）

3.3. Cross Net的优势

$X_{i+1} = X_0 X_i^T W_i + X_i + b_i$

$X_0$ 可视为常数输入， $W_i$ 视为函数 $F$ ，公式可改写为：
$X_{i+1} = F(X_i) + X_i + b_i$

与残差连接的对比

残差连接的标准公式： $y = f (x) + x$

相似之处

两者均采用“原始输入 + 变换结果”的结构。
均具备避免梯度消失的特性。
适合构建深层网络。

四、DIN 的 Target Attention 是怎么做的？

4.1. 背景：DIN 主要解决什么？

DIN（Deep Interest Network）用于电商推荐，它的特点是：

用户有很多历史行为（点击、浏览、收藏等）
但不是每次历史行为都和当前待推荐商品相关

所以，需要根据当前的待推荐商品（target item）动态地去关注用户的历史行为。这就是 Target Attention —— 针对不同的目标，动态建模兴趣的注意力机制。

4.2. DIN 中 Target Attention 的计算流程

假设：

用户历史行为序列： ${h_1, h_2, ..., h_n\}$
当前候选物品（Target Item）： $t$

4.2.1. Attention步骤是：

第一步：拼接特征

对每个历史行为 $h_i$ 和当前target $t$ ，做特征组合。
通常的组合方法是：

拼接 (Concat)： $[h_i, t, h_i - t, h_i \circ t]$
- $h_i - t$ ：捕捉差异
- $h_i \circ t$ ：逐元素乘（哈达马积，捕捉交互）
- $[\cdot]$ ：表示拼接

第二步：MLP 得分

将上面组合后的特征，输入一个小的MLP（多层感知机），输出一个相关性得分（attention weight）。
$\alpha_i = \text{MLP}([h_i, t, h_i - t, h_i \circ t])$
注意：

这里的 MLP 是共享参数的。
不是标准的 “点积Attention”（比如 Transformer里的那种），而是通过 MLP学习得分。

第三步：Softmax归一化

对所有得分 $\{\alpha_1, \alpha_2, ..., \alpha_n\}$ 做 softmax 归一化：
$\beta_i = \frac{\exp(\alpha_i)}{\sum_{j=1}^n \exp(\alpha_j)}$
这样可以保证权重加起来为 1。

第四步：加权求和

最后，用归一化后的权重对历史行为加权求和，得到一个综合向量：
$h_{attn} = \sum_{i=1}^n \beta_i h_i$
这个 $h_{attn}$ 就是最终代表用户兴趣的向量，专门针对当前target。

http://www.dtcms.com/a/543693.html

相关文章：

河南网站建设哪家公司好皮具网站建设策划书

做免费视频网站违法吗做加盟正规网站

青州网站定制数据分析

对比色网站设计网站源码哪个好

吉安公司做网站延安做网站电话

公司做网站需要准备什么电子设计全国网站建设

上海网站建设的网深圳网络推广公司有哪些

地方门户网站如何宣传莱芜房产网站

网站建设维护费合同范本企业关键词优化专业公司

网站设计与管理教程罗湖网站设计开发

常州建设网站公司哪家好和生活爱辽宁免费下载安装

网站索引量是什么意思欧美网站建设案例

阿里巴巴做网站的电话号码图书馆网站建设研究

石嘴山市建设局网站mvc 网站建设

苏州微网站建设公司哪家好百度网盘电脑版登录入口

网站建设人工费网站怎么做的支付宝

网站建设报价表格哪个网站做的w7系统好

个人主题网站7块钱建购物网站

深圳网站建设信科网络佛山百度关键词推广

xml网站模板深圳外贸公司名单

怎么在网站上面做悬浮广告百度网站怎么提升排名

cms网站群电脑版h5制作软件

哪里教做网站带维护wordpress 图片自述

宁波网站设计相信荣胜网络微信小程序公司

网站制作服务网络空间购买

漂亮的网站单页织梦网站描述

如何查看网站做没做竞价莆田做网站的公司

郑州区块链数字钱包网站开发公司档案馆网站机房建设

沈阳网站设计定制wordpress 钩子列表

网站备案安全吗石家庄网络推广