大数据那点"破"事儿?

15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

大数据这个词听起来很大很远,但实际上,我们每个人的信息、网络行为的痕迹都被不断记录着,组成大数据的一部分。而对我们来说,暗潮汹涌的网络世界乱象纷呈,大数据带给我们的"破"事儿很多。

  • 如果没有叶文洁发送电文,就不会有智子锁死人类科技!
  • 如果没有黑暗森林的震慑,就不会有罗辑执剑威慑纪元!
  • 如果没有云天明的安乐死,就不会有三体童话暗藏隐喻!

也因此,从某种程度上来说整个《三体》世界的遭遇就是"信息不对称"的终极演绎,只不过在大刘的春秋笔法之下变成了一幕幕太空歌剧。

而信息的本质是什么?

不外乎数据。

对信息的加工折叠,又可以上升到"科技"。

往小了说,数据涉及到个人隐私,诸如是非、对错和立场;往大了说,数据正在参与并干预整个人类世界的社会生活,不管是昨天、今天还是明天。

当越来越多的历史被网络誊写、越来越多的痕迹被网络捕捉、越来越多的情绪被网络放大;不知不觉,我们竟然已经习惯了空间中充斥WiFi、空气中弥漫byte的生活;就像飞鸟对于自由的渴望、鱼儿必须生活在水中,我们也很难逃脱那张触手可及的"网"。

2018年8月,统计机构Strategy Analytics旗下AppOptix发布了一组数据:安卓手机用户平均每天要解锁65.8次,累计看屏幕的时间4小时。

自然,这组数据不能以偏概全。

相较于国内如火如荼的互联网生态,我们有过之而无不及。

我们"有幸"避开了Facebook、Twitter、Instagram、Snapchat的狂轰滥炸,却一头栽进了微博、微信、快手和抖音的天方夜谭:

  • 在微博上阅尽天下大事
  • 在微信上深挖个中趣闻
  • 在快手上饱尝人间至味
  • 在抖音上坐享三千后宫
  • 然后在B站追番
  • 在优爱腾追剧
  • ……

有点佛、有点丧、还有点慵懒,这似乎就是大多数年轻人的日常。

而生活在这样一眼能够看见尽头的日常中,我们就像是被放养在一个个食槽周遭的"数码宝贝",每时每刻我们都会创造出庞大的数据流。

但是由于这些数据无法直接变现,部分有效数据混淆在更多无效数据之中,必须打包规整才有意义;等到数据积累到某种规模,迎头赶上又或者凭空捏造一个风口,这就是大多数互联网企业的商业模式。

因为个人数据价值有限,企业想要生存前期往往会用投其所好的"养猪模式",但若规模真的无法做大就会采取"竭泽而渔"的战术。

但用户有机会量变的话,企业就不会那么急功近利,相当长一段时间都会专注于用户体验和增量,直到他们通过不可逆的"商业化"进程开始"薅羊毛"。在这个过程中,企业向"钱"看,用户却大致可以分为四类:

  1. 吃干抹净不吐骨头的鱼
  2. 养肥再杀的猪
  3. 浑然不觉的羊
  4. 一毛不拔的铁公鸡。

我们无意追责企业的市侩,也没有批判用户功利的资格。

作为"数据农场主"的互联网企业和甘为"数码宝贝"的用户之间原本就类似于"姜太公钓鱼"你情我愿的"商业行为",只要不触碰法律的底线,这种行为就还算正常。

但现在的问题是:

  • 一方面互联网领域立法不是亡羊补牢,就是姗姗来迟,我们总是在出现问题之后才想着弥补,却无法从根本上杜绝这些钻漏洞的互联网企业;
  • 另一方面有些互联网企业有了一定的用户规模之后,他们经常会产生循规蹈矩"薅羊毛"太累的错觉,总是主动或被动想去试探法律的边界,想去捞一波"快钱",再不济也要捞一波流量。

这就带来一个后果,在互联网上"违法"的成本没那么高,因而总有人"铤而走险"。

毕竟,现在的互联网法律还不够健全,无法涵盖方方面面。就算是真的引起"群民激愤"、被有关部门"叫停",一个禁言、下架、道歉,又或者是暂停整改就能解决大多数问题;若问题更严重,删号、打入"冷宫"、抑或变成"老赖"似乎也"无伤大雅"。

这也就导致当下的互联网环境极端"不安分":

几个老牌权贵垄断了绝大多数用户的口径,新兴贵族想要崛起就必须在他们眼皮底下、尾大不掉的小路上"弯道超车"。它们就必须像微博一样崛起于草莽、像微信一样踩着巨人的肩膀、像快手一样不骄不躁水到渠成、又或者像抖音一样先声夺人颜值至上。从微博到抖音,这些"数据生态"都有着各自爆款的特质。

而抖音之所以能够凌驾于微博、微信和快手,虽然和它承载内容的载体,呈现方式、信息/数据密度有一定关系;但本质上还是因为抖音的推荐算法,它擅长用更高密度的"兴趣"数据来取悦用户,而这一套它在头条上就百试不厌。

当然,这一边微博、微信、快手和抖音大发利市,另一边多闪、马桶、聊天宝和最近的绿洲、zao却是高开低走;前者可谓是生态逻辑的胜利,而后者的昙花一现与其说是各自的实力不如说是源于争议。

从某种程度上来说,虽然依旧有那么一部分"人来疯"的用户带节奏,但用户总体上却是越来越成熟:

我们开始关注个人隐私、抵制侵权、不那么在乎一点蝇头小利,也不再热衷于亲密好友和陌生人之间的"激进"关系。

当我们开始呼吁着逃离微信、微博、抖音和快手的时候,这一波互联网企业却还没有看透;

在他们的"封建思想"中,用户这类"数码宝贝"只要给他们一点"奶头乐"刺激,就会像"水军"一样老老实实的给自己开荒拓土。

毕竟,你失去的只是一座"孤岛",而他们给你的却是另一座"绿洲"。可他们忘了,这座"绿洲"什么都准备好了,可没人就没法生存。

一、大数据价值连城?

数据/网络的必然性?

想必不需要我们赘述。

从最早的BBS、天涯、猫扑,到后来居上的权贵微博、微信、头条,从不温不火的豆瓣、知乎、网易云音乐,到新近崛起的新贵快手、抖音、小红书;我们就像一只只不知疲倦的"数码宝贝",在数字世界的莽荒中追寻一个又一个"绿洲"。

相比于那些先知先觉的"既得利益者"总能在规则之下如鱼得水,后知后觉的我们却只能成为数字化的大多数;我们只能眼睁睁的看着他们起高楼、宴宾客、楼塌了,然后去追逐下一个风口。

如果说,多闪、马桶、聊天宝、绿洲和zao只是一座座"孤岛",那么,微博、微信、快手、抖音和Facebook、Twitter、Instagram、Snapchat就是一块块"新大陆";它们时时刻刻都在产生着大量的行为和情绪数据,而这些数据就是大多数人所需要的"存在感"。

购物的时候有电商、送货上门有快递、饿了可以点外卖、想出远门可以叫车、上街可以扫码支付、想看电影在线选座……这样的生活在百十年前,我们想都不敢想。

但在互联网时代,一切遥远的东西都似乎触手可及、一切被时间淡忘的东西都有白纸黑字的记忆、而一切发生在明天的事情我们或多或少都能找到蛛丝马迹;再加上我们当下聚焦的风口自动驾驶、5G、万物互联和AI,我们早已离不开网络,又或者说是数据。

8月底,中国互联网络信息中心确认"中国网民达 8.54 亿",这些人聚集在一起不管干点什么都能产生巨大的影响力;而他们无意识的"生产"数据,每一分钟、每一秒产生的都是"大数据"。

大数据能干什么?

小到个人隐私,智能穿戴;大到公共交通、城市大脑。

大数据能为数据分析师以及人工智能提供大量参考和学习数据,方便他们在现有资源下试探并找寻最优解。

举个例子,微信交通卡已经在全国近200个城市上线,而微信、支付宝购票充值也已然开始逐步覆盖全国地铁站,这将会用户出行和地铁效率带来极大提升。

当然,大数据也并非"有百利而无一害",比如近日俄罗斯指责谷歌干涉其选举、而早在2016年美国就指责过俄罗斯黑客干涉其大选。

发现没,凡是涉及到大数据的:

个人收益潜移默化并没有那么大反响,但是对于企业、对于社会却被广泛需要;

这就涉及到一些灰度和急功近利的地方:

要知道每一个流量平台的兴起,都是对于数据的"极端处理"而带来的流量红利;

只不过有些平台撞破南墙之后幸存下来,有些平台万箭穿心之后黯然死去,因而很多互联网企业容易用力过猛。

  • 荷兰称Windows 10远程收集用户数据,或违反隐私法;
  • 美参议院指责扎克伯格在隐私问题上撒谎,应被判入狱;
  • 在国内,因涉嫌信息披露违法违规暴风集团遭证监会立案调查……

一方面是大公司频频违规"踩过界",另一方面却是用户为了享受科技生活的便利主动又或者被动交托了大量数据;部分隐私数据随着时间推移,在各种平台富集,而这又让大数据平台"垂涎欲滴"。那么,大数据又有什么魅力,让个人、企业和社会都"蠢蠢欲动"?

第一,大数据价值百万

如果高中生窃取上亿条公民信息在海外销售,获利2万不能让你感觉到"数据"的价值;那么YouTube侵犯儿童隐私,谷歌将向FTC支付2亿美元罚金是否能让你正襟危坐?

如果McAfee拟今年IPO,寻求80亿美元估值让你觉得太远;那么Facebook Libra协会发布漏洞悬赏计划,最高赏金1万美元是否能让你摩拳擦掌?

第二,大数据影响民生

如果Facebook用户电话号码数据库曝光,数据超过4.19亿条还不能让你感同身受;那么支付宝用户低碳行为数据与荒漠化地区的种树行为连接,3年碳减排792万吨是否能让你身临其境?

如果上海迪士尼松口,部分食物可被带入安检更人性化的措施让人感觉不到尊重;那么支付宝愿意为你入不敷出的收入支付500万保险,是否能让你感觉到满足?

第三,大数据动摇治安

如果美法官裁定禁止强迫嫌疑人使用生物识别技术解锁iPhone,让你心生感叹;那么美总统竞选人,将任命官员阻止Facebook谷歌控制新闻媒体是不是就有点草木皆兵?

如果FBI 等召集互联网巨头开会,提前部署保明年大选安全让你感觉多此一举;那么推特CEO多尔西的推特账号被黑客组织"The Chuckling Squad"入侵发布种族主义言论为纳粹德国辩护,是不是让你惊出一身冷汗?

由此可见,小到个人隐私,大到社会治安,在"大数据"面前都能爆发出巨大的"社会能量";只不过这股能量是正、还是负,就需要社会、大众,以及企业自身"监管"。

二、大数据乱象纷呈?

上世纪九十年代初,互联网尚未普及。

25年前,互联网大佬还在最原始的论坛"冲浪"。

2018年,已有企业冲破万亿美元市值大关,互联网经济蒸蒸日上。

那里曾经一片"荒芜",随着全球51%的网民迁徙,0和1构成的二维世界日新月异,甚至有了干涉现实的能力"数字化";而我们正在赋予数据更多的职能和智能,5G和AI也会加剧数据的产生和传播效率,大数据的隐患必然会滋生出更多社会问题。

而在此之前,我们不妨看看大数据到底导致了哪些现实问题?

1.明星企业

OYO以1000万美元收购丹麦数据科学公司Danamica,大数据风控平台冰鉴科技获3.35亿元Pre-C 轮融资这些曲高和寡。

谷歌在苹果发布会之前爆出其安全漏洞,以及上周二特斯拉APP宕机四小时可谓是给部分人上了一课:原来大数据果然很值钱,原来明星企业也没那么安全。

2.扫码支付

随着我们进入"扫码时代",二维码催生的新产业、新模式、新业态不断涌现,二维码正在渗透到国民经济与社会生活的各个领域。

然而安全可信、统一认证、检验检测等相关配套产业机制不完善,制码技术几乎零门槛;这就给不法分子将病毒、木马程序、扣费软件等植入二维码的空子,也给警方侦破二维码诈骗带来很大困难。

3.数字货币

比特币有多火,2017年12月29日曾飙到19666美元的最高点,2018年一路狂跌至3122.3美元;2019年又开始看涨,4月份突破5000、6月份重回1万美元大关。

比特币有没有价值,至少区块链的算法就很有意义,但要说比特币堪比房价就有点夸夸其谈了。

4.社会争议

如果联合国调查显示三分之一年轻人曾遭遇网络霸凌还不足以让人警醒,那么AI换脸引起的全球争议是否能让你反思个人隐私数据的重要性?

要知道就连Facebook和微软都被惊动了,他们联手发起"深度伪造检测挑战赛"。

近一点,你还记得曾经在风口浪尖的优衣库吗?

5.娱乐刷榜

如果影视剧动辄上百亿的观看数据、明星网红动辄上亿的粉丝还不曾让你质疑;那么,从吴亦凡粉丝打榜、蔡徐坤"碰瓷"到孟美岐职业粉"非法集资",你是否就能走出"刷榜"的镜像。

我们不怀疑中国人多、也不怀疑他们的消费能力,但你要坚信随着"新偶像"的诞生、"老一辈"的数据依旧欣欣向荣,就未免有些"自欺欺人"。

6.校园监视

2018年,"网络直播"进入校园就曾引起过争议,丁磊更是豪掷一亿。

2019年,"课堂摄像头"披着"校园安全"的皮进入校园,顿时舆论哗然。

不是说校园就一定是"现代科技"的禁区,只是有个别企业只看见利益而不注意吃相的姿势太难看。

7.社交授权

对于方生方死的ZAO来说,没有人比它更懂站在风口浪尖的"侥幸"。

它拿用户的隐私当儿戏,也就怪不得其他人群起而攻之。

从某种程度上来说,zao和绿洲并没有什么不同。

三、大数据的黑暗面?

以上问题,几乎渗透到人类生活的每一个角落。

而在那些角落之外存在的,大概就是大数据的"黑暗面"。

无论大数据给我们的生活、给这个社会带来了多少的便利,我们始终要确信一点:大数据不是万能的,而它带来的也不一定都是助益,也有可能是腐朽。

是让政府恐惧、让市场疯狂、让企业冒险、让用户背锅的存在。

第一,大数据垄断

自2013年奥巴马政府对谷歌公司搜索业务的垄断调查结束以来,又有48个州宣布对谷歌发起反垄断调查;2019年7月23日,美国司法部宣布开始调查科技公司的市场垄断行为。

民主党候选人更是直接声称应该重点拆分像亚马逊和Facebook这样的大公司。

而沃兹也在发布会之前表示,苹果早该分拆为多家独立公司。

第二,大数据造假

星援App不是大数据造假的罪魁祸首,但却是大数据造假中的那只"出头鸟";1亿转发的畸形粉丝文化,不过是寄生在大数据之上的一颗"毒瘤"。

从最初的"温州炒房团"到后来的炒股、炒币、炒鞋;凡是那种价值无法和产品本身匹配,却被市场"捧在手心里"的现象,这数据看上去多多少少有些不真实。

不过由于市场机制的自我调节,有些"泡沫"的存在反倒是健康的。

第三,大数据杀熟

2018年,大数据杀熟一词开始进入大众视野,从飞猪、滴滴到携程,这些互联网企业似乎没有一家是"绝对干净的",尤其是它们采用兴趣引擎和千人一面的搜索机制之后。

然而,大数据杀熟也不是国内互联网企业特色。

早在2000年,亚马逊就因为大数据杀熟站在风口浪尖,最后贝索斯亲自站出来向公众道歉并停止这项"差别定价实验"才消停。

而苹果也在今年5月陷入大数据差别的漩涡:不少网友反应,通过 iPhone、iPad 等苹果公司的设备在国内购买视频、QQ 会员,以及通过滴滴等打车软件打车时,所需付的费用均比 Android 设备上的要高。

第四,大数据滥用

对于我们的私人电话,是怎么打进来那么多"广告推销"这件事暂时不说。

旷视在使用伦理还存疑的时候,就擅自捕捉学生的课堂行为,而且还是360°无死角的全过程AI监控;什么时候,我们有了如此昂贵、高科技的教学设施,却不是用来帮助提升教学质量的?

而ZAO的授权"迷之逻辑",一条协议就想避开所有法律问题的取巧做法,也不过是在掩耳盗铃;默许"ZAO"及其关联公司全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利更是"强盗行径"。

四、如何拨乱反正?

大数据固然有着各种隐患,但在"数字化社会"的大背景下,我们也不至于"因噎废食";只不过在"生产"和"燃烧"大数据的过程中需要"拨乱反正"。

从某种程度上来说,大数据更像是洪水,也因此我们要做的不是堵、也不是防;而是像大禹一样"疏导",又或者是像鲧一样再造一座"城邦"。

第一,完善新法规

从今日头条、网易新闻、天天快报、凤凰新闻等资讯APP被紧急停止下载,到火山、花椒、逗趣、麻椒、陌秀等23家直播平台被约谈;从15家大数据公司被查到抖音、快手、微视、哔哩哔哩等15家短视频企业被约谈;可见市场留给这些新兴平台太多钻空子的机会。

而这就迫切需要市场有一套相对"完善"的法度,去敦促这些平台"按部就班"。

  • 2018年6月,美国加利福尼亚州颁布《2018年加州消费者隐私法案》,旨在加强消费者隐私权和数据安全保护,将于2020年1月1日生效。
  • 2019年8月,美国和法国在G7峰会期间就"数字服务税"问题达成一致意见:探讨具有争议性的"数字税"。
  • 2019年9月,美国两党议员组成团体要求谷歌扩大相应技术的使用范围,以防止"处于显著劣势"的小型创作者遭到侵权。

美国先行一步,国内也在加速跟上。

  • 2019年8月,国务院新闻办出台加强个人信息保护的法律法规。
  • 2019年9月,工信部就《工业大数据发展指导意见(征求意见稿)》公开征求意见;并于近日批复设立根镜像服务器加强互联网治理。

第二,净化旧生态

如果说完善新法规需要通过外力来给"数据生态"划分边界,那么净化旧生态就是企业自身为了今后的发展主动又或者被动进行的"刮骨疗伤"。

这是从源头扼杀数据"黑洞","主动"给用户创造一个更干净的互联网环境。

  • 2019年8月30日,中国科协、国家卫健委等多部门正式启动"科学辟谣平台"。
  • 2019年9月5日,教育部等八部委要求教育App不得不得植入广告和游戏。
  • 2019年9月5日,Facebook推出科普弹窗,以阻止有关疫苗的错误信息传播。
  • 2019年9月6日,谷歌宣布禁止未经证实的医疗、药品广告。

当然,喜欢铤而走险的互联网环境急需"整治"这是事实,但是误伤到一些"花花草草"就会带来糟糕的体验:比如句子迷至今无法上线、改版之后的好奇心一点都不让人好奇了、而简书目前只能单机写作。

第三,打造新生态

虽然这段时间以来,搜狐系的"狐友"、陌陌系的"ZAO"、微博系的"绿洲"又一次经历了多闪、马桶、聊天宝同样的失败;但正如BAT虎口之下诞生了头条,微博、微信之外更是孕育了快手和抖音两匹黑马,而在淘宝和京东大战正酣的时候,又出来了小红书和拼多多。

我们不确定在以上"超级APP"的裹挟之下,是否还有其他APP生存的余地;但从微博、微信到抖音,在用户得陇望蜀的性情之下必然不会对某一个APP产生极度的归属感。

而这,就是下一个"超级APP"的机会;它必须有着更胜于"前任"的优质体验和生态逻辑才有可能后来居上。

2019年9月10日,谷歌发布AR App"观妙中国",收录了超过 30 家中国博物馆藏品。

谁说AR社交APP人畜无害呢?

五、算法偏见?

在拨乱反正的过程中,我们又必须注意一个比较容易忽视的现象:数据可以中立,可算法是有价值观的。

这也是张一鸣"算法没有价值观"失败,马化腾"科技向善"胜利的本质。

由于算法工程师很难保持绝对的理智,多少会掺杂一丝个人感情,这就让算法凭空多出了"倾向性";再加上数据分析师又或者是用户"带着有色眼镜"去看这一组组数据,就会在不知不觉之中放大他们眼前看到的"事实"。

而这就是因为人为因素而产生的"数据偏见"。

在"马太效应"之下,强者恒强、弱者越弱,这是微博、微信和抖音发展到一定规模之后都必须经历的瓶颈。

那么,如何消除这种人为因素而产生的"数据偏见"呢?

2019年9月3日,为了减轻社交媒体的竞争压力,Facebook正在考虑停止显示点赞量的同时,也打算开放人脸识别功能面向所有用户开放,并决定取消一种名为"标签建议"的相关功能。

Facebook的尝试,不一定是最好的选择,但它至少为其他互联网公司开了一个好头。

而我们又应该如何避免这种"算法偏见"呢?

1.  大企业带头

就像Facebook一样,作为大数据的垄断者大企业的一举一动都能够影响整个市场的动向;一旦大公司对用户的私人数据有了更多的"责任心",整个市场风气自然就会转向。

2.小公司破局

对于小公司来说,生存是第一要务,但若因此而走上了歪路,也只会徒劳无功;因此,他们不管怎么选,最好的选择还是在大企业的生态大陆之外重新建立一个"绿洲",用更极致的体验超越大企业的"全面和臃肿"。

3.用户知情权

至于个人,不能因为贪玩、好奇,和从众性轻易尝试各种"不能言说"的网站和APP;在这里没有人多就是正义,我们需要对自己的隐私数据负责对那些来历不明的东西留一点心,就算是爆款APP也需要了解其收集的用户数据到底会用在那些领域。

六、大数据设计?

搞定了"算法偏见",你以为就完了么?

不,我们作为设计师,其实也能参与其中的。

考虑到大数据的必然趋势,和它的黑暗面、倾向性,我们要做的就很明确:

  • 要么,扬长避短,在大数据的高效和安全之间做选择;
  • 要么,返璞归真,干脆摈弃一切数字化。

当然,在这两者之间平衡也是一种选择。

Tesla T1 racer

比如无人驾驶就是第一种高密度数据设计,在不同的场景下又会分为隐私账户、出行账户和安全账户等;它们各司其职,在需要的时候也可以进行协作。

Egguins蛋架

第二种就是几乎不包含"高科技"的原生态设计,它的着力点在趣味性、环保性和天然性;当然,也不是说它天生就和数据绝缘,在其它数据工具中制作原型也是常有的事。

Hplus医疗设备

最后一种就是同时兼容数据化和原生态,它的数字化在外观和配件的帮助下比较温和,而原生态有了数字化的衬托也不至于太普通。

当然,考虑到万物互联时代智能穿戴、智能家居的可能性,数字化才是现阶段设计的主题;而智能穿戴、智能家居与人息息相关,就更需要数据安全。

毕竟,它们离用户,离用户的隐私太近。

曾几何时,互联网还只是人类世界的必要不充分条件;但时至今日,互联网就像空气和水一样成为人们不可或缺的"必要介质"。

曾经,我们只有那个眼前看到的、耳朵听到的自我;可现在,每一个终端、甚至于每一个屏幕都能成为我们的大脑和眼睛。

我们理所当然的享受互联网赐予的一切,也在0和1中只剩下是非;我们贪婪的享受着数据赋予我们的感官,也在不知不觉之中成为别人农场中豢养的一只"羊":我们吞吐着数据的洪流、也在制造着浅薄的内容和情绪的垃圾,我们驯服了数据,也正在被数据驯化,我们若有所悟,我们浑然不觉。

那些超级APP形成了一块块新的"数字大陆",而5G就是这个世界的空气,AI就是这个世界的太阳;虽然现在星火幽微,但谁知明天需不需要我们后羿射日?

就在这个过程中,我们设计师能够做的有限、我们能够做的也很多;就是帮每个用户点燃未来的那团火。

PS:部分素材来自于@虎嗅 @Behance

#专栏作家#

幻梦邪魂,微信公众号:wanyidongxi;金宝搏专栏作家。每一次输出至少都有一次有价值的思考。

本文原创发布于金宝搏。未经许可,禁止转载

题图来自 Unsplash,基于CC0协议

给作者打赏,鼓励TA抓紧创作!
评论
欢迎留言讨论~!
  1. NB!

    回复
  2. 神作;-)

    回复