决战大数据(升级版):大数据的关键思考
上QQ阅读APP看书,第一时间看更新

icon2

论是企业还是个人、无论我们承认与否,在大数据时代,我们周围到处都充斥着碎片化的数据。为此,我们很容易迷失在海量的数据之中。我们盲目地进行大数据投资,收集越来越多的数据。但是,令人沮丧的是,这些数据却是“死”数据。那么,什么是“死”数据呢?在我看来,“死”数据就是单纯存储在数据库中,无法被分析和使用,并且不能够产生价值的数据

如何激活这些“死”数据,让整个大数据“活”起来,并成为企业运营的牵引力呢?答案就是:把数据用起来!

大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入这个自循环中,并应用于各个行业。举个最简单的例子来说,现在的很多网站都有推荐功能,很多推荐出来的东西,如音乐、视频、商品,都可以让用户来选择“喜欢”或者“不喜欢”(当然,不点击未必代表不喜欢)。这样,企业就可以通过用户的选择基于计算机后台算法为用户重新推荐,这就变成了一个循环:从基于已有的数据进行“分析-推荐-反馈-再推荐”的过程。当然,自循环还远不止这一种形式。多样化的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发

目前,企业对于数据应用仍然持有半信半疑的态度。多年来,企业因无法建立数据收集的循环,致使其运营数据更多地建立在直觉的判断和分析基础之上。当面对周围海量的消费者数据时,充满了危机的大数据更难为企业的运作提供清晰的思路。无从下手,成为企业面临大数据时代的核心短板。这时,如果没有找出相关的关键解决方法,企业就会在由海量数据构成的新兴市场中错失发展的良机。

在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。所谓“活”做数据收集,就是指企业不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析;“活”看数据指标,就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。

“活”做数据收集,抓住相关性

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。

关于数据收集,中国研究大数据的著名学者、电子科技大学的周涛教授曾分享了一个非常重要的观点。他说,做大数据收集不外乎两方面,一方面是“自己用”,即用其他外面的数据来增加自己手上数据的精准度,为我所用;另一方面是“给别人用”,即把我的数据贡献给外面很需要我的数据的人,从而提高他的数据的精准度。

数据分析实例

亚马逊的数据收集有一个很经典的例子,恰恰体现了这一点。在很多年前,亚马逊就主动去收集用户的IP地址,然后从IP地址破译出用户所处位置的附近多少公里内是否有书店。工作人员从收集到的数据中了解到,一个人是否选择在网上买书,很重要的原因是他的附近有没有书店。

亚马逊是主动收集数据,即通过收集一个外部数据,来帮助自身判断线下是否存在潜在的竞争对手。

企业在做数据收集的时候,并不总是能够直接收集到所需要的关键数据,这时候就需要变通一下了。我曾经在一个外贸B2B平台工作过,当时很多人不知道我是如何找出新品种的趋势的,我也没有对任何人说过我的招数,有的人甚至以为在我背后有高手相助。而事实上,我之所以发现了新品种,是通过追踪美国垂直行业电商的广告关键词变化来实现的。

中国的生产商跟美国消费者的距离如此远,我们如何才能收集到美国消费者的数据?一般来说,是不可能的。有一批厂家是从中国海关购买数据,但是海关的数据是滞后的,无法让企业及时获取行业的发展趋势。不过,这种趋势就在美国采购关键词的那些经理手上,而这个数据是可以从国外网站搜索到的,于是答案就这样到了我的手上。

在美国,这些搜索引擎营销(SEM)专家会为公司设计购买关键词的方案,而我就主要关注这些人的数据,看他们换了什么关键词,以了解美国的商品发展趋势。这样,我就可以很快地告诉类目经理,美国现在流行什么样的东西,而这就是利用外部数据来帮助自己做决策的方法。

以鞋类为例,我的做法具体来说,先是观察在美国做得最好的几家鞋类网站买入了什么关键词、变换了什么关键词、有什么关键词是常态的以及有什么关键词是在季节更迭的时候才买入的。在观察到这些关键词之后,我放到谷歌中去观察关键词的增长趋势,去eBay看看这一款鞋子有没有交易及价格的变化。在知道eBay有交易之后,我再放到国内电商平台中搜索这个产品。如果没有出现相应的搜索结果,就意味着这可能是一个良机。

因此,做大数据收集,有时候需要更多的灵活变通。从上面可以看出,亚马逊的案例的确经典,因为它找到了消费者购买决策链条中的一个关键点;而B2B寻找关键词的重点在于如何观察第三者数据。每个人都知道在收集消费者数据时最好是观察直接用户,但如果没有这个数据,你观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人。

生活中其实也有这样的例子,我曾经给我的朋友分享了一个很简单且有趣的例子。如果你想知道香港的某家酒楼生意好不好,你问问门口卖报纸的人就知道了——香港人喜欢去喝茶的时候买一份报纸。

其实,这个规律不是我观察到的,而是香港税务局发现的。香港税务局如果担心酒楼虚报营业额的话,就可以通过直接去查卖报纸的商家卖了多少份报纸来判断,这是一个非常有趣却很实际的灵活收集用户数据的案例。

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。而“活”做数据收集的一大好处,就是能够规避现有数据框架的弊端,更好地反映用户的实际需求和企业的实际情况。媒体常用的“克强指数”是“活”做数据收集非常好的案例,通过耗电量、铁路运货量和银行贷款发放量三大数据的结合来观察经济的发展,有助于剔除GDP统计数据中存在的水分。

“活”看数据指标,动态地使用数据

把数据激活,从静态数据变成动态数据,必须要用场景来验证。

我们不仅要灵活地收集数据,而且还要注意到,数据收集只是第一步,如果不让数据“活”起来,仅仅是把我们收集的数据简单堆砌在一起,是没有意义的。

用场景验证

在注册某个网站时,消费者常常需要填写自己的性别。我填写的答案是男性,但是如果你分析我的购买行为时会发现,很多时候我的购买行为告诉网站,这些商品的目标用户并不是我自己,因为我也会为我的妻子和父母买东西。

当收集到的这些数据不能为企业所用时,企业就永远不知道关于我的这个数据原来是不准确的。这些数据好像是准确地描述了我的性别,但是却不能很准确地描述我的搜索和购物行为

在梳理阿里巴巴的数据时,我们惊讶于为什么阿里巴巴会有18个性别标签。乍一听,很不可思议。你肯定会想,阿里巴巴是不是在闭门造车,是不是自己凭空造出了这么多的性别?

事实上,每一个性别表现都并非看上去那么简单,因为它的分类是基于用户在不同场景中不同表现而作出的。这就揭示了一个问题,我们每个人都不会只呈现出简单的一面,比如在安静时和在人前时,我们就会表现出不一样的自我。不同的性别标签其实就是应用了这一点:同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是我所说的场景,结合场景应用数据就是“活”用数据。其实,有多少个性别标签并不重要,重要的是如何让用户在不同的场景中获得更好的服务。

亚马逊一直在自己的商业活动中应用这个理论。多年以来,亚马逊就使用动态模型——相对于“历史的你”,它的推荐更相信“现在的你”。所以,它相信今天登录网站的你有什么需要与兴趣,比起历史的“你”来说更重要。

我们不妨开拓一下思路,假如你在一家网站买了一份保险,又买了一件衣服。这两件事情,哪一个能更多地证明你是“本我”,而哪一个能更多地证明你是“被别人影响的我”?

推荐系统的运作原理是通过推荐一件商品去影响你的购买决策。一般来说,你要为自己做一个很长远的购买决定时,会综合考虑一些因素,这时的购买决策会跟你本身的性格产生紧密联系。比如,你的性格是不爱晒自己的东西,不爱很刺激的活动,那么你就不会买一辆跑车,这是你深思熟虑之后作出的决定。

总的来看,对于用户购买行为的场景,我们大都无法判定它的产生到底是因为长期积累的性格多一点,还是受今天心情的影响多一点。而且,前提是假定,别人没有用你的账号购物。如果今天是你的女朋友借了你的账号去购物,这个系统可能就无法作出正确的推荐了。

把数据激活,从静态数据变成动态数据,必须要用场景来验证,静态数据是没有用的。理所当然,企业很容易一开始就假定“你告诉我身份证上你是男的,肯定就是最准确的”。从表面上来说,企业凭借用户自己填写的数据来做决策会更精准,但结果却相反。在做了很多测试后我们发现,动态的观察数据更能准确地反映出用户的信息和需求。

但是,如果用户在做一个比较重要的购买决定时,真实性别、真实职业以及一些描述个人的静态数据对于企业来说就更具有参考性了。对消费者来说,购物就是决策,凡是决策,都是要对比、细分、溯源、看趋势。所谓的冲动消费是“什么都不管了”,直接拍下,那就要分析购物当天的场景了,或许那天是“双11”?

别再死盯着ROI

从公司价值的角度来看,我在B2B外贸公司得到了一个重要的经验——如果企业不把数据活用起来,只是死盯一个数据的话,企业的运营必定不会理想。

当时,我所在的公司买入广告关键词时,一直用的重要考核数据是投资回报率(ROI),即每个广告关键词能给公司贡献多少交易量。如果我们灵活使用数据,会怎么样?

我当年就对公司的管理者提出了一个建议:把一些使用得很好的广告关键词(排行榜前30%)拿出来,调查根据这些关键词登录网站购物的消费者在三个月后是否还会来买东西的问题。

事实证明,这些用得很好的广告关键词,有一半只吸引了用户的一次购买行为。因为,这些公司买的关键词都是“最便宜的××”,这些关键词对某些消费者来说有着很大的吸引力,但是并不总会产生巨大的效用。

也因为这样,企业吸引来的用户都是一般消费者,却不是真正做批发的人。企业管理者完全不知道当时掌控ROI的部门其实是在做赔本生意。

所以,机械式地使用数据的结果就是,企业会因为“只看狭义ROI”死得很惨。ROI只能体现广告关键词在当天使用的效果,并不能反映出这个关键词以及其吸引来的用户对网站的长期价值。当时,公司把所谓的自己最“好”的广告关键词删掉之后,管理者发现3个月内企业的业绩没有受到任何影响。

“活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是我们的数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题或者开创了什么机会。要牢牢记住,活用数据很重要。

“活”的数据是“活”用数据的精髓所在。《孙子兵法》曰:“兵无常势,水无常形,能因敌变化而取胜者,谓之神。”这句话在数据应用方面同样适用。如果企业能够基于场景和相关的“活”数据将数据应用发挥出最大的价值,那么新的商业模式的开创也就会在不远的将来成为可能。