null - 程序员宅基地

推荐系统——召回模型-程序员宅基地

YoutubeDNN

内容

YoutubeDNN是Youtube用于做视频推荐的落地模型，可谓推荐系统中的经典，其大体思路为召回阶段使用多个简单模型筛除大量相关度较低的样本，排序阶段使用较为复杂的模型获取精准的推荐结果。
在这里插入图片描述召回部分：主要的输入是用户的点击历史数据，输出是与该用户相关的一个候选视频集合；
精排部分：主要方法是特征工程，模型设计和训练方法；
线下评估：采用一些常用的评估指标，通过A/B实验观察用户真实行为；
其中，召回模型将百万级的数据筛除到百，排序模型从数百个数据中获取数十个推荐结果。排序模型的输入特征中，引入了更多描述用户、video以及二者关系的特征。

如何实现预测next watch的多分类任务，使用负采样把一个多分类变为多个二分类。
在serving时为什么不用训练的召回模型去预测，而是用最近邻搜索，因为serving时使用召回模型对百万级的数据逐一预测太过耗时，因此通过训练得到user和video的embedding后，只需通过相似度取TopK即可。
对训练集预处理时，不采用原始用户日志而是对每个用户取等量样本减少高活跃用户对模型的过度影响。
优化目标为什么不用经典的CTR、播放率，而是用曝光预期播放时长。从模型角度看，观看时长更能反映用户的真实兴趣；从商业角度看，观看时长越长，获得的广告收益越多；且增加用户的观看时长更符合一个视频网站的长期利益和用户粘性。
在做video embedding时，直接把大量长尾video用零向量代替，节省serving时的内存资源。

数据类型

输入层是用户观看视频序列的embedding mean pooling、搜索词的embedding mean pooling、地理位置embedding、用户特征；
输入层给到三层激活函数位ReLU的全连接层，然后得到用户向量；
最后，经过softmax层，得到每个视频的观看概率。

import torch
import torch.nn.functional as F
from torch_rechub.basic.layers import MLP, EmbeddingLayer
from tqdm import tqdm
 
class YoutubeDNN(torch.nn.Module):
    def __init__(self, user_features, item_features, neg_item_feature, user_params, temperature=1.0):
        super().__init__()
        self.user_features = user_features
        self.item_features = item_features
        self.neg_item_feature = neg_item_feature
        self.temperature = temperature
        self.user_dims = sum([fea.embed_dim for fea in user_features])
        self.embedding = EmbeddingLayer(user_features + item_features)
        self.user_mlp = MLP(self.user_dims, output_layer=False, **user_params)
        self.mode = None
 
    def forward(self, x):
        user_embedding = self.user_tower(x)
        item_embedding = self.item_tower(x)
        if self.mode == "user":
            return user_embedding
        if self.mode == "item":
            return item_embedding
 
        # 计算相似度
        y = torch.mul(user_embedding, item_embedding).sum(dim=2)
        y = y / self.temperature
        return y
 
    def user_tower(self, x):
        # 用于inference_embedding阶段
        if self.mode == "item":
            return None
        input_user = self.embedding(x, self.user_features, squeeze_dim=True)
        user_embedding = self.user_mlp(input_user).unsqueeze(1)
        user_embedding = F.normalize(user_embedding, p=2, dim=2)
        if self.mode == "user":
            return user_embedding.squeeze(1)
        return user_embedding
 
    def item_tower(self, x):
        if self.mode == "user":
            return None
        pos_embedding = self.embedding(x, self.item_features, squeeze_dim=False)
        pos_embedding = F.normalize(pos_embedding, p=2, dim=2)
        if self.mode == "item":
            return pos_embedding.squeeze(1)
        neg_embeddings = self.embedding(x, self.neg_item_feature, squeeze_dim=False).squeeze(1)
        neg_embeddings = F.normalize(neg_embeddings, p=2, dim=2)
        return torch.cat((pos_embedding, neg_embeddings), dim=1)

DSSM

原理

利用深度神经网络将文本表示为低维度的向量，应用于文本相似度匹配场景下的一个算法。

可以用于相似度计算

特点L相似性计算的场景

先后实现原理

使用深度学习网络将query和doc映射到相同维度的语义空间中，即query侧特征的embedding和doc侧特征的embedding，从而得到语句的低维语义向量表达sentence embedding，用于预测两句话的语义相似度。

在这里插入图片描述
模型结构：=分别经过各自的DNN得到embedding，再计算两者之间的相似度，类似孪生网络
特点：

user和item两侧最终得到的embedding维度需要保持一致，特征向量大小统一

对物料库中所有item计算相似度时，负采样进行近似计算， 在海量的候选数据进行召回的场景下，速度很快

缺点：双塔结构无法考虑两侧特征之间的交互信息，在一定程度上牺牲掉模型的部分精准性。

模型采样方式

正负样本采样

正样本：选“用户点击”的item为正样本。最多考虑一下用户停留时长，将“用户误点击”排除在外
负样本：user与item不匹配的样本，为负样本。

其它方式

全局随机采样：从全局候选item里面随机抽取一定数量作为召回模型的负样本，但可能会导致长尾现象。
全局随机采样+热门打压：对一些热门item进行适当的采样，减少热门对搜索的影响，提高模型对相似item的区分能力。

硬标签增强

Hard Negative增强样本：选取一部分匹配度适中的item，增加模型在训练时的难度

随机采样

Batch内随机选择：利用其他样本的正样本在batch内随机采样作为自己的负样本

import torch
from torch import nn
class DSSM(nn.Module):    
    def __init__(self, user_features, item_features, user_params, item_params, temperature=1.0):
        super().__init__()
        self.user_features = user_features
        self.item_features = item_features
        self.temperature = temperature

        self.user_dims = sum([fea.embed_dim for fea in user_features])
        self.item_dims = sum([fea.embed_dim for fea in item_features])
 
        self.embedding = EmbeddingLayer(user_features + item_features)
        self.user_mlp = MLP(self.user_dims, output_layer=False, **user_params)
        self.item_mlp = MLP(self.item_dims, output_layer=False, **item_params)
        self.mode = None
 
    def forward(self, x):
        user_embedding = self.user_tower(x)
        item_embedding = self.item_tower(x)
        if self.mode == "user":
            return user_embedding
        if self.mode == "item":
            return item_embedding
 
        # 计算余弦相似度
        y = torch.mul(user_embedding, item_embedding).sum(dim=1)
        return torch.sigmoid(y)
 
    def user_tower(self, x):
        if self.mode == "item":
            return None
        input_user = self.embedding(x, self.user_features, squeeze_dim=True)
        # user DNN
        user_embedding = self.user_mlp(input_user)
        user_embedding = F.normalize(user2embedding, p=2, dim=1)
        return user_embedding
 
    def item2tower(self, x):
        if self.mode == "user":
            return None
        input_item = self.embedding(x, self.item_features, squeeze_dim=True)
        # item DNN
        item_embedding = self.item_mlp(input_item)
        item_embedding = F.normalize(item_embedding, p=2, dim=1)
        return item_embedding

DSSM为双塔模型，user与item分别经过的DNN得到embedding，再计算两者之间的相似度。
训练样本，正样本为正确的搜索目标，负样本为全局采样+热门打击所得到的负样本。
YoutubeDNN在双塔模型基础上进行了改进，
召回阶段使用多个简单模型筛除大量相关度较低的样本，有点MTCNN筛选的思想，最后用个决策网络
排序阶段使用较为复杂的模型获取精准的推荐结果。
DSSM核心思想是把查询文本（query）和内容文本（doc）映射到同维度的语义空间中，以最优化查询文本和内容文本的语义向量之间的余弦相似度为目的

本文链接：https://blog.csdn.net/weixin_42917352/article/details/125449551

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios