前面的一篇文章介绍了可以用来评估KPI的数据上下文——质量控制图,通常我们会用KPI来衡量一些内容的质量、流量的质量,以及访问的质量等,我们经常根据KPI指标直接排序,并认为排在前几名的就是优质的内容,但其实这种方式并不是对所有的KPI都有效。举个最简单的例子:转化率Conversion Rate是很多网站的KPI指标,一般我们会让为Conversion Rate越高则渠道质量越好,或者内容质量越高,但有一种情况,如果网站内容普遍的转化率为10%,但有一个内容的访问次数一共2次,其中有一次实现了成功的转化,那该内容的转化率就是50%,是不是很“高”?是不是真的有这么高?
所以我们在分析关键指标的变化趋势,控制KPI的质量的时候,还需要注意一个问题,那就是如何运用KPI进行有效的评价。
其实Google Analytics已经给了我们答案,在前段时间推出了Weighted Sort(赋权排序)的功能,Avinash Kaushik先生在先前的博文——End of Dumb Tables in Web Analytics Tools! Hello: Weighted Sort对这个功能做过介绍,因为近段时间需要用到这个功能,但我的数据并不在GA上,所以我必须自己设计一套给关键指标赋权的体系,以发现到底这些KPI值可以达到多少预期,这里来分享下我的应用实例。
KPI期望值公式
还是以转化率Conversion Rate为例,电子商务中每个商品的转化率应该是:购买该商品成功的数量/该商品被浏览的次数,所以从统计学的角度来看,当商品的浏览次数(不妨叫做基数,数学上的集合元素个数或者统计学上的样本总数)这个基数越大时,转化率CR的置信度也就越高,同样是10%的转化率,浏览次数为1000的商品显然要比浏览次数只有100的商品在转化率这个数值上的可信度要高。
根据上面的结论,我们需要根据每个商品转化率的真实值(Actual Value),权衡它的可信度,进而计算得到该商品转化率的期望值(Excepted Value),而这里的可信度就是真实值可以获得的权重,比如60%,那么还有个问题,既然是加权和,另外的40%的权重应该由什么来中和呢?参考GA中Weighted Sort的计算公式,用的是均值,也就是所有转化率的平均,非常不错的idea,于是我们可以得到以下公式了:
期望值(Excepted Value)=权重(Weight)×真实值(Actual Value)+(1-权重)×均值(Average Value)
我们看看哪些数据我们现在就可以拿到,权重显然还不行,真实值应该已经统计得到了,均值?既然有了所有的真实值,那么均值就是一个取平均的简单计算了。好的,那下面就说说我是如何来确定这个权重的。
权重的确定
先看看权重需要符合哪些原则,应该表现为怎样的一个特征。显然,权重的取值范围应该在[0,1],也就是0到100%之间;另外,权重跟基数应该是正相关的,也就是基数越大,权重应该越大。如果你看过我之前的文章——数据的标准化,是不是已经想到了什么?是的,里面有几个公式可以直接用,简单地说,就是将基数进行归一化处理。
KPI的基数一般都是自然数,比如转化率的浏览次数、Bounce Rate的访问数,人均消费的用户数等,所以反正切函数atan不适用,min-max和log函数都适用,可以用散点图简单看一下分别用这两种方法归一化之后权重和基数的变化关系:
Min-max
Min-max是直线的正相关,也就是权重和基数同比例地变化,变化速度一直。
Log函数
Log函数是对数曲线的正相关,也就是权重的变化速度要比基数来得快。
根据这两个方法的特征,我选择了log函数作为权重的计算函数,因为它更符合基数和可信度之间的关系。
应用实例
既然KPI期望值的计算公式,及公式所有需要的数据都已经可以得到了,那么我们就来看看,KPI的基数是如何影响KPI的期望值的:
即基数越大,期望值越接近真实值,反之,则越接近平均值。算法和公式确定之后,我们就可以将其应用到实际的案例当中去了,这里以网站的转化率CR为例,看看这个KPI期望值的算法是不是有效的。
表格中的例子是用转化率评价每个渠道流量的质量,比对加权前后的转化率情况,可以看到渠道4由于进入的访问数(基数)较小,所以预期的转化并没有真实值反映的那么好,甚至要差于渠道1;而渠道1因为基数较大,其真实转化率基本能够反映现实情况,渠道2因为基数最大,所以期望值就是实际值。
你也不妨试着用上述的方法转化下你的KPI,发掘一下KPI背后到底隐藏着哪些真相,也许你会发现转化后的结果更加可信,更加能让数据需求方所接受了,那么这个转变就成功了。不要忘了在评论中发表下尝试后的感想,分享下你的使用经历。
文章来源:网站数据分析