往期阅读
当前版: 09版 上一版  下一版
上一篇    下一篇
放大 缩小 默认   
星期文库
概率与科学决策之五

如何实现精准推荐

林 君
  上网时,你可能经常看到平台推荐的广告,并且这条广告和你的基本信息或行为有一定联系。为什么平台推荐的广告会如此精准呢?因为平台根据你的基本信息(如果你曾经授权过)、行为或你的联系人的行为对你有了解,也就是用户画像。

  用户画像的构建过程运用到了概率。要想给用户做好用户画像,必须选择好标签,比如性别、年龄等。区分度越大的属性,越适合做用户标签。评价属性的区分度时常用的指标是基尼不纯度(Gini Impurity)和信息增益。

  基尼不纯度指的是在一个随机试验中,一个随机事件变成它的对立事件的概率。下面做两个随机试验:

  抛掷一枚质地均匀的硬币,记正面向上为目标事件X,则P(X=1)=0.5;则反面向上的概率为P(X=0)=0.5。事件X的基尼不纯度为P(X=1)×[1-P(X=1)]+P(X=0)×[1-P(X=0)]=0.5。

  某人掷飞镖,将投中靶心记为目标事件Y,已知P(Y=1)=0.8,没投中靶心的概率为P(Y=0)=0.2,则事件Y的基尼不纯度为P(Y=1)×[1-P(Y=1)]+P(Y=0)×[1-P(Y=0)]=0.32。

  显然,随机试验的基尼不纯度越高,试验的不确定性越大,即该试验中不容易判断出目标事件是否更容易发生。在上面的例子中,随机试验B的基尼不纯度较小,投中靶心的概率较大;随机试验A的基尼不纯度较大,正面朝上的概率较小。

  另一种评价属性区分度的指标是信息增益,信息增益评价的是数据集分类后的纯度:值越大,纯度越高。

  信息增益代表了在一种分类后,信息复杂度(不确定性)减少的程度。因为信息增益的公式涉及的数学知识比较复杂,这里就不展开具体计算了。

  由于信息增益的计算方式导致属性取值越多,信息增益越大,为了避免由于属性取值增多导致信息增益偏大,可以使用信息增益率来替代信息增益,即对取值较多的属性进行一定的系数惩罚。

  通过计算不同属性的信息增益率,选择使信息增益率最大的属性,给用户贴上标签,每类用户带有多个标签,这就是用户画像的基本模型。有了用户画像,平台就可以根据用户画像构建决策树模型,进而向用户进行产品推荐了。

上一篇    下一篇
 
标题导航
~~~
●瓶外续谭~~~
~~~
●世相杂谈~~~
●网络新词语~~~
~~~
~~~
~~~
●百草园~~~
星期文库
概率与科学决策之五~~~
~~~
~~~
~~~
~~~
   第01版:要闻
   第02版:沿着习近平总书记指引的方向奋力前行
   第03版:时事·中国
   第04版:时事·世界
   第05版:廉润津沽
   第06版:民生·社会
   第07版:文娱
   第08版:体育
   第09版:副刊
   第10版:民生·消费
   第11版:民生·服务
   第12版:副刊·记忆
   第13版:文摘
   第14版:文摘
   第15版:文摘
   第16版:文摘
世界上最早的纸币
五短身材
互惠效应
兄 弟
空气友
山水的觉醒
老 板
废名的相貌
纸 船
如何实现精准推荐
口述津沽:民间语境下的丁字沽
彗星年代:1918,世界重启时
两周逃出脏乱房间
广告