用于评估某个元素被用户关注或选择的概率,并据此加权排序。我给你详细梳理一下概念、组成因素和应用场景。
概率权重模型(Probabilistic Weighting Model / Probabilistic Ranking Model)核心思想是:
给每个对象(如商品、网页、广告、搜索结果)分配一个概率权重,这个权重表示该对象被用户点击、购买或选择的可能性,然后根据权重进行排序或推荐。
换句话说,权重越高,系统越认为用户更可能感兴趣或行动。
在搜索引擎里,这个权重通常用于评分函数(score function),如:
Score(Document)=P(Relevance∣Features)\text{Score(Document)} = P(\text{Relevance} \mid \text{Features})
用于信息检索(搜索引擎)
基于词频-逆文档频率(TF-IDF)优化
核心公式:
Score(D,Q)=∑t∈Qf(t,D)⋅(k+1)f(t,D)+k⋅(1−b+b⋅∣D∣avgdl)⋅logN−n(t)+0.5n(t)+0.5\text{Score}(D, Q) = \sum_{t \in Q} \frac{f(t,D) \cdot (k+1)}{f(t,D) + k \cdot (1 – b + b \cdot \frac{|D|}{\text{avgdl}})} \cdot \log \frac{N – n(t) + 0.5}{n(t) + 0.5}
解释:
f(t,D)f(t,D):词 tt 在文档 DD 的出现频率
n(t)n(t):包含词 tt 的文档数量
NN:总文档数
k,bk, b:调节参数
特点:模型本质是一个概率模型,衡量文档与查询的相关性。
常用于推荐系统和广告排序
给每个内容/商品计算点击概率(Click-Through Rate, CTR)或购买概率
可以用 逻辑回归、GBDT、深度学习 等预测:
P(Click∣Features)=σ(W⋅X+b)P(\text{Click} \mid \text{Features}) = \sigma(W \cdot X + b)
综合多个信号(特征),给对象一个综合概率:
Weight=α1P(Click)+α2P(Purchase)+α3P(Relevance)\text{Weight} = \alpha_1 P(\text{Click}) + \alpha_2 P(\text{Purchase}) + \alpha_3 P(\text{Relevance})
αi\alpha_i 是权重系数,可根据业务调整。
| 因素类别 | 示例 | 说明 |
|---|---|---|
| 用户特征 | 年龄、性别、地理位置、兴趣偏好 | 不同用户点击概率不同 |
| 行为特征 | 历史点击、浏览时长、购买记录 | 历史行为强相关 |
| 内容特征 | 关键词匹配度、价格、品牌、评分 | 内容本身的吸引力 |
| 上下文特征 | 时间、设备、页面位置 | 不同上下文概率不同 |
| 社会信号 | 评论数、点赞数、分享数 | 越受欢迎的内容概率越高 |
在搜索或推荐中,系统通常会给每个因素分配一个权重,然后通过概率模型整合成最终排序分数。
搜索引擎排序
根据查询和文档相关性,计算文档被点击的概率。
电商推荐
根据用户行为和商品特征,预测购买概率排序商品。
广告投放
预测广告的CTR和转化率,按概率权重出价或排序。
信息过滤系统
新闻推荐、内容推送,优先展示高概率感兴趣内容。
可以结合多种特征,灵活调整权重
可解释性较好(概率值可理解为点击或购买概率)
在推荐/排序任务中效果稳健
模型精度依赖特征质量
数据稀疏或冷启动问题可能导致概率不可靠
需要不断调优参数和权重