推荐系统:技术、评估及高效算法_关键词优化排名用什么软件比较好[通俗易懂]

前言

记录论文中常用的评价指标，方便查阅。

推荐系统排序（Ranking）评价指标

一、准确率（Precision）和召回率（Recall）

（令R(u)是根据用户在训练集上的行为给用户作出的推荐列表，而T(u)是用户在测试集上的行为列表。）

对用户u推荐N个物品（记为R(u)），令用户u在测试集上喜欢的物品集合为T(u)，然后可以通过准确率/召回率评测推荐算法的精度：

准确率描述最终的推荐列表中有多少比例是发生过的用户—物品评分记录；

召回率描述有多少比例的用户—物品评分记录包含在最终的推荐列表中。

准确率和召回率计算方法的Python代码如下：

def Recall(train,test,N):
    hit=0
    all=0
    for user in train.keys():
        Tu=test[user]
        rank=GetRecommendation(user,N)
        for item,pui in rank:
            if item in Tu:
                hit+=1
        all+=len(Tu)
    return hit/(all*1.0)

def Precision(train,test,N):
    hit=0
    all=0
    for user in train.keys():
        Tu=test[user]
        rank=GetRecommendation(user,N)
        for item,pui in rank:
            if item in Tu:
                hit+=1
        all+=N
    return hit/(all*1.0)

下面的Python代码同时计算出了一个推荐算法的准确率和召回率：

def PrecisionRecall(test, N): 
  hit = 0 
  n_recall = 0 
  n_precision = 0 
  for user, items in test.items(): 
    rank = Recommend(user, N) 
    hit += len(rank & items) 
    n_recall += len(items) 
    n_precision += N 
  return [hit / (1.0 * n_recall), hit / (1.0 * n_precision)]

有的时候，为了全面评测TopN推荐的准确率和召回率，一般会选取不同的推荐列表长度N，计算出一组准确率/召回率，然后画出准确率/召回率曲线（precision/recall curve）。

二、Mean average precision(MAP)：

（1）Average precision(AveP)：

由前面可知，准确率和召回率都只能衡量检索性能的一个方面，最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候，肯定会影响准确率，所以可以把准确率看做是召回率的函数，即：P=f®，也就是随着召回率从0到1，准确率的变化情况。那么就可以对函数P=f®在R上进行积分，可以求PP的期望均值。公式如下：

其中rel(k)表示第k个文档是否相关，若相关则为1，否则为0，P(k)表示前k个文档的准确率。 AveP的计算方式可以简单的认为是：

其中R表示相关文档的总个数，position®表示，结果列表从前往后看，第r个相关文档在列表中的位置。比如，有三个相关文档，位置分别为1、3、6，那么AveP=13×(11+23+36)。在编程的时候需要注意，位置和第i个相关文档，都是从1开始的，不是从0开始的。

AveP意义是在召回率从0到1逐步提高的同时，对每个R位置上的P进行相加，也即要保证准确率比较高，才能使最后的AveP比较大。

（2）Mean average precision(MAP)：

通常会用多个查询语句来衡量检索系统的性能，所以应该对多个查询语句的AveP求均值(the mean of average precision scores)，即公式：

单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。
主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。
MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就应该越高。如果系统没有返回相关文档，则准确率默认为0。
MAP的衡量标准比较单一，q(query，搜索词)与d(doc，检索到的doc)的关系非0即1，核心是利用q对应的相关的d出现的位置来进行排序算法准确性的评估。

例如：假设有两个主题，主题1有4个相关网页（假设q1有4个相关d），主题2有5个相关网页（假设q2有5个相关d）。某系统对于主题1检索出4个相关网页，其rank分别为1, 2, 4, 7；对于主题2检索出3个相关网页，其rank分别为1,3,5 。对于主题1，平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2，平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。”

需要注意：在利用MAP的评估的时候，需要知道：1. 每个q有多少个相关的d; 2. 排序结果中这些d的位置 3. 相关的定义

三、 NDCG(Normalized Discounted Cumulative Gain)

N：归一化，D：衰减率，C：累加，G：熵（关键），==》》：归一化的，带有衰减函数的，再带有累加的熵。

在MAP计算公式中，文档只有相关不相关两种，而在nDCG中，文档的相关度可以分多个等级进行打分。

（1）Cumulative Gain(CG)：

表示前p个位置累计得到的效益，公式如下：

其中表示第i个文档的相关度等级，如：2表示非常相关，1表示相关，0表示无关，-1表示垃圾文件。

（2）Discounted cumulative gain(DCG)：

由于在的计算中对位置信息不敏感，比如检索到了三个文档相关度依次是{3,-1,1}和{-1,1,3}，显然前面的排序更优，但是它们的CG相同，所以要引入对位置信息的度量计算，既要考虑文档的相关度等级，也要考虑它所在的位置信息。假设每个位置按照从小到大的排序，它们的价值依次递减，如：可以假设第i个位置的价值是，那么排在第i个位置的文档所产生的效益就是。公式如下：