大家好,这是我加入

大家好,这是我加入星球的第26次分享,请大家多多指教

《多元思维模型NO.23 --统计思维模型》

我们经常会看到各种新闻描述各种数据,例如某城市某某行 业的平均工资是xxxx元

可能大多数人都一眼而过并没有思考这个数据层出不穷的时 代为什么要关注平均水平

是否平均数真的就可以反映平均水平,是否仍有其他维度可 以更好的描述我们关心的数据呢?

要找到这些答案,就需要了解一下统计思维模型。

一.统计思维模型的定义 根据科学定义,统计是指通过数据的收集与分析,对事物的

客观性质和变化规律得到合理判断或者预测的科学方法。

通俗而简洁的说,统计就是一种收集,整理和分析数据的有 效方法。

依据应用的不同需求,基本的统计方法可主要分为四个大类: 描述,比较,预测以及数据的可视化。

二.统计思维模型的详细解释 大家都学过多年数学,对于为什么要学数学,原因之一当然

是生活上,及专业上,会用到一些数学,也就是数学可视为

一种工具。

而一个数学精通的人,则往往具有逻辑性强,计算精准等特 征。那么统计学呢?

统计学现在一方面越来越重要,人们在做决策时,非有统计 不可,把统计当护身符。

同时也有像Mark Twain这样的对统计嗤之以鼻。即使在学术 界,不少人也都认为统计不过就是数学的一部分而已;但更 多的统计学家则认为并一再强调,统计与数学是完全不一样 的。

我们可能比较容易感受到什么是具有经济头脑,什么是具有 文学细胞,以及什么是具有音乐素养。

那什么是具有统计头脑?统计细胞?以及统计素养呢? 让我们先来看一个例子。1985年11月,一位美国学者Gary

Taylor在英国牛津大学的一图书馆找到了一首诗(姑且称

为“Taylor诗”),引发了一场英美研究莎士比亚文学作品的学 者们的口水大战,争论的焦点就是此诗是否为莎士比亚所 作。

不少专家认为这首“Taylor诗”,不论是用字遣词,还是韵味风 格,都迥异于莎士比亚其他作品。论战两个月后,1986年1月 24日出版的Science 杂志刊登了一篇“莎士比亚的新诗:向统计 学致敬”(Shakespeare's new poem: an ode to statistics)的文 章,介绍两位统计学者Efron与Thisted如何以统计方法鉴定这 首“Taylor诗”是否为莎士比亚所作的过程。

Efron与Thisted的方法是这样的:每个人都有其各自的用字习 惯,特别是对于生僻字,每个作者使用的习惯差异可能更 大。

在莎士比亚已知的总作品中,共有884,647个字,其中有 31,534个相异字。这些相异字中,有14,376个字从头到尾只出 现过1次,有4,343个字只出现2次。出现几次的字都被计算出 来。那些在总作品中, 出现频率较低的,就是莎士比亚的生僻 字。

依据这些数据,假设这首共429个字的“Taylor诗”为莎士比亚 所写,他们估计会有几个字,在总作品中从未出现(也就是 新字),只出现1次,2次, ……,一直到曾出现99次,都给出 估计值。实际情况与估计非常吻合。

这样做还不够,会不会当时代的诗人用字习惯都差不多? 于是,两人又找了三位大致与莎士比亚同时代的诗人,各取

其一首诗,及另取四首莎士比亚的诗,与这首泰勒诗做比

较。

经过3种统计检定发现对前三首,若假设为莎士比亚的作品, 罕用字出现次数之实际值与估计值皆不吻合。而所挑选的四 首莎士比亚的诗,虽偶有不合,但总的来说是可接受的。

Efron及Thisted说,他们的分析并无法完全证明“Taylor诗”为莎 士比亚所写,但在罕用字之使用情况,如此与莎士比亚的总 作品吻合,确实令人惊讶。

一场文学上的争论,经统计学家发声后迅速平息,难怪要向 统计学致敬了。运用统计方法来做决策,反映的是一种客观 及合理的思维。

与其主观的争论风格相同否,还不如以客观的统计方法来判 定。但如何才算已经够客观?除了只检验“Taylor诗”外,Efron 和Thisted还拿了几位与莎士比亚同时代的诗人来比较,这样 做就更保险了。免得万一莎士比亚那个时期的诗人,有如时 尚般,生僻字之使用习惯类似,则此检定就没有什么参考价 值了。

统计正如我们的思维,客观至上,否则便是自欺欺人。反之 我们的思维若是统计式的,便是极客观的。

英国剑桥大学教授苏斯伦德等2013年在《自然》杂志上发表 了一篇名为“解读科学观点时应该知道的20个事实”的文章, 阅后发现其中提到的科学事实都与统计思维有关。

现代科学研究中统计学是最重要的工具之一,英国著名生物 学家高尔顿曾说过:“统计学具有处理复杂问题的非凡能力, 当科学的探索者在前进的过程中荆棘载途时,唯有统计学可 以帮助他们打开一条通道。”

运用科学研究结论辅助现实决策时,须具备良好的统计思

维,才能对科学结论保持清晰认识,更准确地解读结论背后 的科学真相。

大数据时代从信息不足转变为信息泛滥,信息匮乏的危机让 位给信息甄别的困难,如此背景下科学方法成为每个人的必 修课。在日益依赖数据的今天,树立正确的统计思维,才能 有效地开展数据处理与分析。

当今世界正步入信息爆炸的大数据时代,统计越显重要,验 证了英国科幻小说作家H·G·威尔斯的预言:“统计思维总有一 天会像读和写一样,成为一个有效率公民的必备能力。”

统计学被广泛应用于各门学科之中,从自然科学到人文社会 科学,甚至是工商业及政府的情报决策。作为认识自然、社 会的工具和手段,统计研究客观现象的数量关系,帮助政策 制定者理解科研证据对决策的作用。

正如现代统计学的奠基人费歇尔所讲:“给20世纪带来了人类 进步的独特方面是统计学,统计学的普遍存在以及在开拓新 知识领域方面的应用已远远超过20世纪内的任何技术或科学 发明。”

马寅初曾说:“学者不能离开统计而究学,实业家不能离开统 计而执业,政治家不能离开统计而施政。”

统计思维是在获取数据、从数据中提取信息、论证结论可靠 性等过程中表现出来的一种思维模式,对于人类提高认知起 到巨大的作用。

无论是解开自然奥秘的科学调查,或是考查早期匿名文学作 品的作者、给出考古文物的时间年表,或是解决法庭争端以 及做出最佳决策等,统计思维都起到不可替代的重要作用。

统计学是一种由经验到理性的认识,是一种运用偶然发现规 律的科学。它不只是一种方法或技术,还含有世界观的成分

——看待世界上万千事物的一种方法,人们常讲某事从统计 角度看如何,指的就是这个意思。

统计思维的养成不但需要学习一些具体的指示,还要能够从 发展的眼光,把这些指示连缀成一个有机的、清晰的图景, 获得一种历史的厚重感。正如德国的斯勒兹曾讲道“统计是动 态的历史,历史是静态的统计。”

从统计学的角度看,人们从经验或实验中所获取的知识是含 有不确定性的,统计关注的是这种知识当中所含不确定性的 度量问题,一旦能得到不确定性的量度,人们的知识就得到 扩充,对世界的认知就朝前跨越,这个过程在人类知识积累 的进程中不断重复。难怪有人总结道:

在终极的分析中,一切知识都是历史:我们现在拥有的知识 都是对过去发现的事物的归纳总结以及衍生;

在抽象的意义下,一切科学都是数学:所有的知识都可以归 纳为对数学的推理和运算;

在理性的基础上,所有的判断都源于统计学:所有的判断都 是对过去的规律总结,也就是说,根据过往的数据简历概率 模型,判断未来的趋势。

下面我们来看看,统计学究竟在做些什么? 从随机性中寻找规律性,是统计的基本思想,也是统计的魅

力所在。

简单来说,统计学里所表达的两个核心理念就是:

允许误差下的概率保证 允许误差下的统计推断。

我们在中学里面所学到的知识探讨的多半是必然性的问题。 当它说1就是1,不会有任何误差。而一个命题一旦被证明是 对的,问题就会一直对下去,不会有例外,除非你能找出证 明的漏洞。

而在统计学里面,则是处处存在随机性问题。它允许有误 差,没有误差反令人怀疑其中有假。统计也会对一个问题拍 胸脯保证,但它的保证都是基于概率形式的。而且所能保证 的概率,不但不是百分之百,而且还附有误差。统计里则处 处是“说不准”。

例如,宣称某饮料的容量有百分之九十五的概率介于425毫升 至431毫升之间,就是一典型的统计上的保证。统计代表了一 种我们看待这个世界的方式。

在随机的世界中,真相往往难以大白,一切都是假设,就看 你愿意接受哪一个。

而接受的含义,就如同在婚礼上,当新娘点头说“我愿意”, 并不表示这位新郎就真正是最适合她的。只不过是“目前她愿 意接受”。

同样地,在统计里接受不表示为真,拒绝也不表示为伪。统 计学家的判定,都会给出误差,是一种允许误差下的统计推 断。

概率和误差,构成了统计思维的两大支柱。并发展出统计学 里几乎所着的关键要点。

三.统计思维模型的场景应用

1.要有善于利用数据的思维

“ Data! Data!Data! ” he cried impatiently. “ I can’t make bricks without clay. ” 这是著名小说中福尔摩斯(Sherlock Holmes)说 过的一句话。

没有规矩不成方圆,没有黏土不成砖墙,没有数据则无法决 策。

福尔摩斯可以依命案现场的一些蛛丝马迹,推测凶嫌可能惯 用左手,或可能经过一片果园。

算命看相者,所仰赖的也是资料。收集很多不同的面相及八 字等的命运,当“阅人多矣”后,自然容易依据人的面相等, 分析其前程。那些善于看透人性者,不也是阅人多矣吗?

做决策要有数据,每一项数据,都可能是有用的信息。统计 思维模型的本事要能发挥,就得善用信息。因此对于统计思 维模型,数据有如老鼠所爱之大米。

2.要有善于捕捉不确定性的思维 宇宙的运转,有必然性与随机性交错着进行。

例如,我们知道哈雷慧星每76年接近地球一次(这是必然 性)。虽然我们能知道76年后的事,但明天会不会下雨?就 不是那么确定了(随机性)。

又如,将手上的硬币松开,在中学物理课程里学过,如果忽 略空气阻力,则在高度固定下,硬币落地所需时间,是个定 值。但落地后那一面朝上?就无法预知了。这就是不确定 性。

人们对未来,知道大致会发生哪些事,以及何发生,但又不 能完全掌握。

在随机世界里,必然性使人们愿意事先好好准备,而不确定 性则使人们对未来,充满着盼望或者恐惧。光有必然性的世 界,亳无变化,则对未来缺乏盼望,会让人们丧失努力的动 力。

而光有随机性的世界,只靠运气,将让人失去积极认真向上 的决心。三分天注定,五分靠打拼,两分靠运气。这是造物 者伟大的设计。

由于不确定性的存在,我们所能做的,就是要了解它,很多 时候还要设法减少这些不确定性。因此,我们的先辈针对随 机的世界,总结了一些所谓的法则来应对这样的不确定性。 例如,大数法则定律模型,另一个重要的随机法则就是中心 极限定理。

在统计里做预测和估计,本质上是在做以偏概全的事。虽偏 却能概全,这是统计思维模型的本领。

3.要有相信概率的思维

数学家拉普拉斯(Pierre-Simon Laplace)曾说过“大部分生活 中最重要的疑问, 都只是概率的问题”。在随机世界里, 概率一 词大家琅琅上口, 但真正理解概率含义的人却不多。

概率的意义究竟是什么呢?在诸如投掷骰子, 或抽签时, 我们 通常以“相同的可能性”来解释概率。即骰子的6个面, 每个面 出现机率皆认为是6分之1。该解释在日常生活中还是比较适 用的。当没有其他信息时,常假设每一可能的结果发生之机 率都一样。

第二种方式,是以相对频率来解释概率。例如,如果一位职 业篮球选手,过去的投篮命中率是0.527,表示该选手在接下 来投篮的时候,命中率大抵就是0.527。这种常见的对概率的 解释也算比较客观的。其背后之理论基础就是大数定律模 型。针对的现象, 则是可以重复观测的。

最后一种方式是主观概率。例如,世界杯足球赛巴西队最后 夺冠的概率,追上某一女孩的概率等等就是主观概率,这些 事件无法重复观测,是一次性的。

上述三种对概率的解释有时会交错使用,或彼此相验证。 还有小概率事件。原先你以为不可能的事情,只要观测次数

够多, 就一定会发生。有人称此为law of truly large numbers。 当小机率遇上大样本,其发生就不会太令人惊讶了。在随机

的世界里,要相信概率,而不是要挑战概率。

4.要有合理估计的思维

从前有一个卖油条的小孩,他一向把卖得的钱都放在盛油条 的篮子里。某日由于尿急,于是把篮子放在一块大石头上, 然后去厕所了。过一会儿回来,晴天霹雳,篮子里的钱全都 不见了。他哭着跑去告诉县官。县官听了后, 叫人把石头抬来 审问。

虽一再恫吓, 石头一句话也不说。县官气了,叫人拿棍子来打 石头。只是即使打到棍子断了,石头仍不说话。一旁看热闹 的人都笑了起来。县官更生气,罚围观者每人拿两个铜钱, 扔进一个盛满水的盆子里。突然,县官指着一个人说“偷钱的 人就是你。”那人大呼冤枉,众人也不解。

县官解释说:“那小孩是卖油条的,他的钱上都沾着油。别人 的钱扔进水里都没有油浮上来,只有这个人扔钱进水后,有 油浮上来, 可见钱是这人偷的。”那人俯首认罪,众人皆心 服。

这种县官判案式的智慧,与教室玻璃破了,老师先从平常最 调皮的学生问起的原理类似:当从几个可能性里做挑选时, 优先挑最可能的情况。

会不会出现错误?当然也是会的。凭口袋里的钱有油,就认 定他偷了卖油条小孩的钱?如果有人收到卖油条者找的钱, 不也就沾着油吗?

但是,这种人们在做选择时常采用的方法却又是有效的。从 统计思维的角度看,就是著名的最大概似法估计方法。

6. 要有疑罪从无的假设检验思维

人们常求公平或公正。以简单的两人分蛋糕为例,,若双方皆 不愿拿得比较小,那有什么好方法来分?

你切我选应该是一个令两人都不觉得吃亏的办法。最好是连 由谁切,都以抽签的方式。以免选方感觉他所得大于一半, 而切方感觉他所得只有一半。

而疑罪从无推定原则便类似你切我选,属于能令检察官与被 告,皆感到较公正的一种判决法。

1933年,波兰人Neyman及英国人Pearson给出著名的Neyman- Pearson引理,奠定了统计学里的无罪推定原则,这就是假设 检验。

英文中的假设hypothesis,是由古希腊文hypotithenai 演变而来, 科学上的假说(或称假设学说)也是这个字。

在数学里, 我们常在证明一命题是真或伪。但在随机世界中, 很多现象都只能视为假设,就看更愿意接受哪一个。接受不 表示就完全相信该假设为真,拒绝也不表该假设为伪。统计 里的假设,经检定后,不论接受那一个假设,都无法让该假 设成为定律,假设永远是假设。

陈希孺先生在其《数理统计学简史》的序中说道:“统计学不 止是一种方法或技术,还含有世界观的成分——它是看待世 界上万事万物的一种方法。我们常讲某事从统计观点看如何 如何,指的就是这个意思。但统计思想也有一个发展过程。

因此统计思维模型的养成,不单需要学习一些具体的知识, 还有能够从发展的眼光,把这些知识连缀成一个有机的、清 晰的途径,获得一种历史的厚重感。”

2019-01-30(16赞)

姜戈 :

关注公众号"懒人找资源",星球资源一站式服务

results matching ""

    No results matching ""