你线上生活的点滴数据是如何成为互联网公司淘金的工具的?数据挖掘分析工程师功不可没。正是他们从浩瀚如恒河微沙的信息中提取有价值数据进行分析和处理,来优化他们的产品,发挥更大的商业价值的。那么他们具体工作是如何完成的?对于你自主贡献上来的数据又有什么要吐槽的呢?
“比相亲更靠谱”
我和数据打交道有9年多时间了。
一开始是在传统企业做数据分析。来到互联网企业后,尽管同样是做数据分析,但差别太明显了:之前我面对的数据量和现在比起来很小很小,处理起来也相对容易。现在我面对的数据量非常大,而且还在不断变得更大,传统的处理方法已经不能满足现在的需要了,那种借一个现成的软件完成分析的日子一去不复返,算法上没有现成的工具,我们要用自己的语言来实现算法。
另一个大的差别在于,以前我只是注重对客户的分析,所有分析都是营销驱动的,产品概念几乎没有。怎么理解这个差别呢?举例说,之前我们想针对客户做一个促销活动,那我只要扒用户数据,各个维度上的筛选把针对人群给“圈”出来提供给前线的部门就可以。但现在更多是以产品概念为重心,好比要让用户在网站停留更多时间,更顺畅使用网站的服务,每一款新的应用甚至是一个点击按钮的设置和设计都要不断通过算法来优化。
我们的工作可以简单分两部分,一个是底层数据仓库的构建,在我们公司每个产品线业务都在源源不断产生用户的数据,需要这个岗位的同事把它们抽取过来集中到一起;另一个则是基于底层数据的应用,那就是挖掘和分析,还有就是对数据做二次开发。
当我一开始来到互联网公司面对这一职位的时候,别提有多兴奋。我之前就一直在想,用户的基本特征,像性别职业等等信息自然不在话下;如果我去的是一个电子商务公司,那么用户的购买信息还可以看出他的家庭状况(最近买尿布奶粉的人估计就是当了爸爸妈妈的人了)、消费水平,如果他还参加了团购业务,那他线下活动的地域范围都可以略知一二;要是在社交网站,从用户的日常发言、评论还能看出他的“三观(人生观、价值观、世界观)”……
只要用户与网络的联系越来越紧密,那么他们聊天聊什么、买什么东西、看什么电影、读什么书、对某一件事情的态度、跟什么样的人交往以及他内心真实的想法等,通过数据都能毫无保留地看得到的。我曾和朋友开玩笑说,这比面对面去相亲要靠谱很多了!
“变废为宝”的工作
可是,自从我从事这个工作之后,发现这是份非常有挑战性的工作。虽说用户之前沉淀在我们这儿的数据很丰富,但我们要做的是去预测此时此刻他的需求是什么。预测这个事情就存在准确率的问题。据说Netflix(Nasdaq:NFLX;美国在线影片租赁提供商)用了强大的推荐算法,也只是把用户的点击率提高了一点点而已。
所以这个工作是绝对称得上如履薄冰的———哪怕是注册信息当中已经有了用户的性别信息,但实际上我们要将每一次用户新的登录,都当做陌生人来重新判断一次他的性别。虽然商品信息可以简单分为“男款”、“女款”,但这不意味着我们可以简单地对男性用户推荐皮夹克,而对女性用户就推荐香水。为什么这么做呢?这其实很好理解。现实生活中,男生为女生买香水,女生为男生买皮夹克,不都很常见的吗?
如果我的目的是向他推荐皮夹克这个类别的商品,这时候,我们炮制出来的那套算法会把他的浏览历史记录、消费历史等等信息,在一个设定的周期内做一次统计,得出他在跟皮夹克相关的商品类目下最近一段时间的购买频次和金额等结果,从而判断此时此刻这个用户需不需要皮夹克、能够接受的价格区间的结论。这些数据在接近闪电般的系统速度之下,组合成了这个用户当时眼前屏幕上所看到的信息。
即便准确率在我看来还是有点粗糙,但互联网公司又不得不继续做这个事情。沉淀下来的很多用户数据和行为信息,对互联网公司来说是非常重要的,我们巴不得数据越丰富越好,虽然有人会觉得数据当中也有很多是没有价值的,但这绝对是见仁见智,就看你怎么“变废为宝”了。
所以,从事我们这个岗位,两种素质是必备的,第一个是比较强的数据处理分析能力,第二个则是商业敏感性和业务敏感性。所有的数据挖掘都是针对某个业务提供某个服务,我们对自己业务理解得有多深,数据的价值就有多重要。
决策的辅佐者
说点有成就感的经历吧。数据挖掘的工作,和产品经理、研发的同事互动相当多。有一次,产品经理想将社区中用户讨论的话题按照一些标签来做些分类,于是大家头脑风暴集思广益,列了诸如星座、两性、年龄等标签,这些标签到我们这儿来,自然要经过我们逐个进行“论证”了。通过对社区中用户的数据挖掘和分析,我们把星座这个看似很炫很酷的标签给否决掉了,因为铁的事实摆在我们眼前:用户是什么星座,对话题的影响体现不出相当明显的差异。
我感觉研发和产品运营的同事提出的需求其实是不明确的,如果他们提出明确需求,那我们的工作就只是简单的数据提取而已了。更多情况下,他们只是提出假设和疑问,但并不知道最优的结果是什么,这就是我们来回答的问题。
但这也不是说我们的岗位就有多么了不起。就跟传统企业做生意一样,决策者也会分析经销商的数据什么的,但最终还是要结合行业经验来做决定,有时候还带着点冒险的直觉。互联网公司的产品同事们也是这样的。数据本身是辅助做决策的,并不是百分之百完全无误的,当然,有问题的话,我们能做的还是会继续修正之前的算法。毕竟从长远来看,数据的魅力就在于大的方向感和目标性上所发挥的无可取代的作用。
所以,说我们让用户裸奔了,这真是过誉了。至少我们并不这么认为,这不是谦虚,而是远远没有达到这一步。到现在,还有同行离开这个职位,一跟我见面就说“用户数据分析这东西其实挺不准的”这些话呢。
(本文据创富志记者对多家互联网大型及初创型公司数据工程师的采访综合整理)