KAB
财眼 票务 博览 少儿
喷吧
资料 聊城 二手 福建
开盘
厦门 赣商 眼科 育儿
侨界
讲述 看房 影视 MPV
达人秀
NGO 中外 好人网 车库
旅行
疾病 娱乐 动漫 论史
当前位置:主页 > 回应 > 全本 > > “数据尾气”的好奇心日记

“数据尾气”的好奇心日记

2018-06-12 09:36   来源:未知

  

(图片来源:全景网)

当一名女子在社交媒体上大秀和老公恩爱的时候,她会在谷歌上搜什么?如果她在谷歌上打出的问题是“我老公是不是……”,她最有可能搜的问题又是什么?

以一般人对社交媒体的了解,大多数人都希望秀给外人看自己雕琢的一面。同样大多数人在搜索时,常常会暴露自己真实的想法。有评论者说地好,“千万别把自己的搜索和别人秀在朋友圈里的去比”。以此类推,大多数人很容易猜测,她搜索很可能是:“我老公是不是出轨了?”

现实世界因为搜索和社交媒体的出现而变得更为纷杂,却也制造了更多的“数据尾气”,给了有好奇心,又敏感富有创造力的研究者更多机会去探究这个世界到底是怎么运作的。《纽约时报》的专栏作家赛斯·斯蒂 芬 斯 -大 卫 德 维 茨(Seth Stephens-Davidowitz)在新书《Every-body Lies》(《人人都会说谎》)中告诉我们,实际上,当一名女子在谷歌上打出这样一个问题:“我老公是不是……”,她最有可能问的问题是:“我老公是不是同性恋?”,比“我老公是不是出轨了?”的搜索量高出10%。

我们凭着自己直觉去思考分析数据,结果却常常发现一些反常识的现象,这样搜索的结果只是《人人都会说谎》中举出的一个例子。斯蒂芬斯-大卫德维茨认为谷歌的搜索是最具解释性的新鲜数据集。的确,在书中作者引用了不少谷歌数据和相关性研究的数据,都发人深省。但有鉴于作者曾经担任谷歌数据科学家的身份,我们必须对书中频繁出现的谷歌搜索案例打个折扣。

现实世界中,每个人都有撒谎的动因。当参加民意测验的时候,我们不愿意暴露自己真实的想法。比如美国人在民调中不真实的回答可能导致特朗普在大选前的民调比希拉里低了两个百分点。研究者称之为社会期望偏差(social desirability bias)。有时候我们对自己撒谎,是因为“自欺欺人”的动因,很可能自己有好高骛远的想法,或者宏大的计划,却无法抵挡住诱惑。比如我们宣称要读高深的读物,其实对小道消息津津乐道;声称自己喜欢文艺片,其实还是还是对火爆大片很感冒。

互联网则给出了越来越多让人们说出真实想法的平台,比如说搜索。而移动互联网和物联网的发展,更让谎言无法遁形,因为行动的数据不可能掺假,作者称之为数字的真实血清(digital truth serum)。

大数据的实用菜谱

数据尾气的无处不在,让我们有可能发掘出更多新鲜的大数据。新鲜大数据的价值,并不在其大,而在其新——给予研究者以新的信息可以研究,特别是之前从没有搜集到的数据。

数据之新,还在其非常规和非结构化。每个人留下的数据尾气就是这样一种——混杂的,无处不在的,海量而呈现为信息流的——正日益成为最为重要的数据集。作者断言,结构化的、清晰的、简单的信息将一去不复返了。新鲜数据的例子很多,比如说文本的信息,大数据现在已经能够识别和处理大量的文本信息;又比如图像的信息,依据小卫星图像识别出的信息已经被用于很多经济分析领域。

数据的真实也很重要。谷歌搜索就是一个例子。而移动互联与物联网的发展,让每个人的行动都得以被捕捉,这样的数据比起一般人回答调研题目给出的答案要真实地多。

此外,大数据因为其庞杂,也给了研究者聚焦特定地域和特定人群进行研究的机会。不同国家搜索的数据就能反映出不同地方的文化差异。比如说老婆怀孕了,美国人和墨西哥人的搜索就大不同。在墨西哥,老婆怀孕了之后,搜索最多的句子是:“向我怀孕的老婆表达爱的词”;或者“给我怀孕的太太的诗”;在美国,最常见的搜索则包括:“我老婆怀孕了,现在该怎么办?”或者“我老婆怀孕了,我该怎么做?”

最后,IT平台的出现也让随机对比实验变地更容易。谷歌是这方面的能手,它最早把这种A/B实验运用在网上,不断随机比对不同的网页设计,不断微调找出最好的设计吸引用户点击广告。

“吃瓜群众”很重要

“吃瓜群众”变成了一个流行的词,用以凸显与精英的不同取向。《人人都会说谎》恰恰告诉我们,大数据和“吃瓜群众”关联紧密。首先,大数据让我们能够更好地去了解“吃瓜群众”的想法。其次,大数据也给了我们更好的基础去分析和研究怎么去改变“吃瓜群众”的一些错误的想法。

美国同样有“吃瓜群众”。《人人都会说谎》中有两个案例特别印象深刻。

第一个案例是美国“吃瓜群众”常见的看法——穷人更容易入选NBA。这种传统的想法认为,NBA给了穷人家的孩子(特别是黑人的孩子,因为黑人占NBA球员比例非常大)一条出人头地的出路,因此穷人家的孩子会特别努力,肯吃苦,而中产家庭的孩子缺乏这样的努力与吃苦精神。

现实是这样么?大数据分析显示,恰恰是中产家的孩子更有可能被NBA选秀。首先,NBA需要个子高,而家境比较好的孩子更容易长高——那些吃救济、单亲家庭的孩子很可能成长阶段营养不够。其次,NBA不仅需要高个子和体能,也需要团队配合能力,需要比较高的情商。而美国的穷人很可能生长在单亲家庭,单亲家庭的孩子可能缺乏情商教育,可能很离群。现实很残酷。“吃瓜群众”对苦孩子“能吃苦更努力”的一厢情愿在大数据面前不堪一击。

第二个例子是虎妈们的想法——高中进名校是未来进好大学找到好工作的敲门砖。纽约就有这么一所特别著名特别难进的公立高中Stuyvesant High School,能上这所高中,基本上就等于拿到了进入常春藤大学的录取通知书,也拥有了进入上层中产的入门券。研究者就问了,到底是学校优秀让学生可以有更多机会,塑造了孩子的未来,还是通过激烈竞争脱颖而出的学生本身就很优秀?大数据给了解答这一问题的机会,因为这所高中的录取完全看分数,分数线人为地创造了一组自然实验——有人恰巧跨线而得以录取,有人却因为一两分的差距而落榜。对比在分数线上下差别不大的两组人未来的发展情况,有助于回答研究者的问题。研究结果让虎妈们大跌眼镜。是否进入顶级高中对于这两组人的未来没有太大的影响,决定一个人未来最大的因素是他的才智和冲劲。

两个例子之所以发人深省,因为类似的执念在中国更多,我们是否也可以多提出些问题,让大数据的研究告诉我们真实的世界到底是什么样子?比如因为一分之差没有考入北大的同学,和那些幸运跨线的同学,十年之后到底会有多大的差距(还是没有)?或者用大数据来分析一下,农村的孩子在当下大城市里成功的机会到底有多少?

提示:支持键盘“←→”键翻页

最新推荐

精彩阅读

魅力彩妆