销售与市场网

大数据污染与用户画像

2016-7-15 14:47| 查看: 121882| 评论: 0|原作者: 陈禹安

摘要: 互联网技术与大数据应用无疑是大势所趋,但高楼万丈平地起,如果从一开始就无法提供高纯净度的数据基础,任何美好设想都将是无本之木、无源之水。


      自“大数据”成为热词以来,几乎一夜之间,很多公司就开始标榜自己“具备强大的数据挖掘能力”。但实际上,大数据时代刚刚萌芽,所谓的大数据应用远远没有达到“神乎其神”的程度。
      2016年4月21日,亚马逊中国联合新华网开展了“2016全民阅读调查”,通过覆盖全国500多个城市、11800多位受访用户的数据调查,并结合多年来对中国市场的深入研究以及读者在线消费行为的分析,发布了一份调查报告。
      这份报告的一些结论颇令人奇怪。比如,“70后”爱读生活和少儿类图书,“80后”对经管以及孕产育儿类书籍情有独钟。不同年龄段的读者在题材选择上确实会有所不同,但“70后”中年纪最大的已经46岁,最小的也已37岁,这一头一尾的差别显然不能用“爱读生活和少儿类图书”来统一,而且“70后”确实可能买少儿类图书,但未必就是“爱读”。
      亚马逊对于数据的解读实在是太过粗疏了,而且也经不起推敲。导致这一结果的原因可能是调查样本偏差,也可能是数据在采集时就已经被污染。前者是调查方式的问题,如是后者,则与“数据身份归属”密切相关,因为无论是通过亚马逊网站还是Kindle采集的信息,都可能无法精准认证。
      在当下的互联网技术支撑下,数据采集已经不是什么难题,但针对任何数据的分析、评估、研判乃至具体的应用,首先就要明确数据的身份归属。也就是说,某一组数据到底是由哪一个具体的鲜活个体产生的。如果数据不是由某个确定的单一个体产生的,显然就无法依据这种被污染了的数据来做出正确的分析和合理的判断。
      这个问题看似简单,但在现实场景中却存在着至少两类数据身份归属不明的情形。
      第一类是数据身份错位。
      基于互联网技术的商业应用,往往需要用户在使用之前进行注册。比如,使用Uber、滴滴打车这样的APP,用户必须将自己的一些身份信息填写上传,才能正常使用。而Uber、滴滴的后台则根据这些身份信息,来做对应身份的数据分析与挖掘。但是因为互联网新技术存在着学习门槛,并不是所有有意成为用户的人都能轻松克服学习阻抗的,只能请求他人帮助或代劳。
      有一次,我打Uber的时候,从手机端看到的信息是一位年轻的女司机,但随后的电话沟通却表明是一位年长的男性。等上了车做了一些了解后,才知道这是女儿为了让退休在家的父亲有事可做而注册了Uber司机账号,但她是用自己的身份而不是父亲的身份注册的。这就造成了数据身份错位。如果Uber以此账号来认证这一数据身份的行为,就可能出现偏差。举一个极端的例子,当这位女士作为乘客享用Uber服务的同时,她(实际上是她的父亲,但后台系统却无法自动识别)又作为司机在为别的乘客提供Uber服务。这虽然只是我的个人经历,但类似的情形却绝非罕见。据报道,北京的一个司机,从网上搜索出一辆他人的白色别克车信息,利用这辆车的相关信息和自己本人的驾驶证信息及手机号,注册成为一名滴滴专车司机,并开始接单。这个司机后来因为强奸女乘客而被判刑。这是车辆信息失真导致数据污染的情形。还有广东番禺的一个司机,也是利用岳父的身份信息注册的滴滴司机账号。这个司机也因为强奸女乘客而被判刑。举这几个例子,不是要强化数据污染、信息失真的用户与犯罪之间的必然联系,但是从心理学的角度来看,信息失真带来的某种程度的“匿名效应”确实使得相关人员更有可能抱有侥幸心理而逾越道德或法律的约束。
      此外,还有一种是“合理帮助”导致的数据污染。施以援手者尽管也是以被帮助者本人的身份信息注册的,但还是有可能夹杂部分自己的信息。比如,2015年“双12”时,支付宝为了增加用户,与线下3万家超市便利店合作,凡使用支付宝支付的,全线五折,50元封顶。这一优惠力度对那些高度价格敏感者(大伯大妈们)的诱惑力不言而喻,但他们大多从来没有使用过支付宝。于是,在活动现场,就出现了超市或便利店的收银员帮助他们下载、安装、注册支付宝APP而排长队的场景。为了尽快完成,收银员们并不会完全按照大伯大妈的真实身份信息注册,而是潦草完成,能略则略,或是直接将某个默认的选择用之于所有人。这样的数据身份显然是有瑕疵的。
      第二类是数据身份共享。
      浙江义乌一位经商的赵先生,为了方便女儿玩手机,把12岁女儿乐乐的指纹也加入了手机开锁密码。不料,乐乐在父亲手机里的一款社交K歌APP上听歌时,竟然在3天内打赏出去16万元。对于这款APP来说,如果开展后台数据统计分析,一定会将打赏行为视为赵先生本人所为,却不知道这是她年幼的女儿共享了赵先生的数据身份所致。
      再以我自己的经历为例。我的孩子有段时间在一个培训机构补课,中午需要自行解决午餐。于是,用我的身份信息资料以及信用卡注册的支付宝就成了孩子的支付工具。孩子除了支付中午的外卖之外,也会用支付宝在淘宝上购买一些她所喜欢的小东西。如果将一个小女孩的购物行为归结到一个大男人的身上,岂不是张冠李戴?
      中国人的个人边界意识较之于西方人是十分淡漠的。在各种亲密关系中,这类数据身份共享是一种常态。诸如丈夫请妻子用自己的淘宝账号购物,员工用自己的私人账号为公家采购都是符合中国国情的。但数据身份的共享却为后续的大数据处理带来了极大的麻烦。这是另一类型的大数据污染。
      大数据的应用显然是向着精准预测的方向演进的。
      据说电商巨头亚马逊已经申请了预测式发货的新专利。亚马逊会根据某个用户之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间等数据,预测用户的购物习惯,从而在他实际下单前便将包裹发出。
      显然,亚马逊的这一大数据应用是建立在历史数据的高纯净度的前提之下的,基于这些高纯净度数据来给用户画像。如果因为数据身份错位或共享而导致大数据污染,所谓的用户画像就是失真的,也就不可能成为数据分析与预测决策的依据。
      一句俗话能够特别形象地表明大数据污染与大数据应用之间的关系,这就是“一颗老鼠屎,坏了一锅粥”。在当下互联网创业大干快上的大环境下,创业公司为了尽快地跑马圈地抢地盘,往往是萝卜快了不洗泥,很少有意识或有精力来顾及数据纯净度的问题。甚至有些创业公司为了拿出过得去的数据,主动造假。但这样做,势必会为未来埋下重大隐患,所积存的历史数据很有可能因为污染严重而失去基本效用。
      互联网技术与大数据应用无疑是大势所趋,未来的商业必然是向着极度精准化的方向演进的。但高楼万丈平地起,如果从一开始就无法提供高纯净度的数据基础,任何美好设想都将是无本之木,无源之水。
      所以,我们必须重视杜绝大数据污染以及用户画像的真实度,这就要求我们必须把好“数据身份认证关”,这才是大数据应用之基。做不好这项基础工作的互联网公司,就不要急着奢谈“强大的数据挖掘能力”了,而消费者们也要保持足够的清醒,不要盲目相信那些神乎其神的“大数据奇迹”。 

编辑:
上 尉(微信号:swei-226)

更多资讯请关注销售与市场微信公众号。

销售与市场网 www.cmmo.cn(作者: 陈禹安)
责任编辑: 赵艳丽     责任校对: 肖亚超     审核:徐昊晨
免责声明:本网部分文章来源于第三方平台,不代表本网观点,如有侵权请联系我们删除!

酷毙

雷人
1

鲜花

鸡蛋

路过

刚表态过的朋友 (1 人)

收藏 邀请 分享到  

相关阅读

最新评论

验证码 换一个

销售与市场官方网站 ( 豫ICP备19000188号-5

GMT+8, 2024-4-26 00:05 , Processed in 0.035168 second(s), 20 queries .

Powered by 销售与市场网 河南销售与市场杂志社有限公司

© 1994-2021 www.cmmo.cn

回顶部