這個數(shù)字幾乎所有實驗室都在用，卻讓科學(xué)界陷入危機

www.kjdzwh.cn 2019-11-08 10:08

　　近100年來，哈布斯堡下巴幾乎所有科學(xué)家在分析實驗數(shù)據(jù)時，都會用到p值這個工具：只有p小于0.05，才意味著實驗結(jié)果具有統(tǒng)計顯著性，才能在學(xué)術(shù)期刊上正式發(fā)表。但是，統(tǒng)計顯著性的概念以及支撐它的p值具有相當(dāng)大的局限性。而正是這樣的缺陷，讓整個科學(xué)界都處于危?中。

　　這篇選自《環(huán)球科學(xué)》11月新刊的文章，為我們講述了P值危?。

　　1925 年，英國遺傳學(xué)家兼統(tǒng)計學(xué)家羅納德·菲舍爾（Ronald Fisher）出版了《研究者的統(tǒng)計方法》（Statistical Methods for Research Workers）一書。這本書的書名在當(dāng)時看起來并不會“暢銷”，但實際上這本書卻取得了巨大的成功，而且還使菲舍爾成為現(xiàn)代統(tǒng)計學(xué)之父。在這本書中，他著眼于研究人員如何將統(tǒng)計檢驗理論應(yīng)用于實際數(shù)據(jù)，以便基于數(shù)據(jù)得出他們所發(fā)現(xiàn)的結(jié)論。當(dāng)使用某個統(tǒng)計假設(shè)來做檢驗時，該檢驗?zāi)軌蚋攀鰯?shù)據(jù)與其假設(shè)的模型之間的兼容性，并生成一個p值。

　　菲舍爾建議，作為一個方便的指南，研究人員可以考慮將p值設(shè)為0.05。對于這一點，他專門論述道：“在判斷某個偏差是否應(yīng)該被認(rèn)為是顯著的時候，將這一閾值作為判斷標(biāo)準(zhǔn)是很方便的�！彼€建議，p值低于該閾值的結(jié)論是可靠的，因此不要把時間花在大于該閾值的統(tǒng)計結(jié)論上。因此，菲舍爾的這一建議誕生了p小于0.05等價于所謂的統(tǒng)計顯著性，這成了“顯著”的數(shù)學(xué)定義。

　　菲舍爾的遺憾

　　近一個世紀(jì)之后，在科學(xué)研究的許多領(lǐng)域，p值小于0.05被認(rèn)為是確定實驗數(shù)據(jù)可靠性的金標(biāo)準(zhǔn)。這個標(biāo)準(zhǔn)支持了大多數(shù)已發(fā)表的科學(xué)結(jié)論，違反這一標(biāo)準(zhǔn)的論文很難發(fā)表，而且也很難得到學(xué)術(shù)機構(gòu)的資助。然而，即使是菲舍爾也明白，統(tǒng)計顯著性的概念以及支撐它的p值具有相當(dāng)大的局限性。

　　P值經(jīng)常被曲解，統(tǒng)計的顯著性不等于實際的顯著性。此外，為了讓數(shù)據(jù)更漂亮，很多研究人員有意無意地將p值向上或向下調(diào)整。美國加利福尼亞大學(xué)洛杉磯分校的名譽教授，統(tǒng)計學(xué)家和流行病學(xué)家桑德·格林蘭德（Sander Greenland）說：“你可以用統(tǒng)計學(xué)方法來證明任何事情。”他是呼吁統(tǒng)計學(xué)改革的科學(xué)家之一。只依靠達(dá)到統(tǒng)計顯著性的研究經(jīng)常?得出不準(zhǔn)確的科學(xué)結(jié)論，這種判斷標(biāo)準(zhǔn)可以把真的事情判斷為假的，也可以把假的事情判斷成真的。在菲舍爾退休，移居澳大利亞后，有人問他，在漫長的職業(yè)生涯中他是否有任何遺憾，他明確回答道：“當(dāng)初不該提出0.05。”

　　在過去十年里，關(guān)于統(tǒng)計重要性的爭論以不尋常的強度爆發(fā)。援引兩篇論文的觀點：一篇文章稱統(tǒng)計分析的薄弱基礎(chǔ)導(dǎo)致了“科學(xué)最骯臟的秘密”，另一篇則提到，在檢驗?zāi)承┘僭O(shè)時，存在“許多深層次的缺陷”。在爭議聲中，實驗經(jīng)濟學(xué)，生物醫(yī)學(xué)研究，特別是心理學(xué)被卷入了一場科學(xué)實驗可重復(fù)性的危?之中。在這場危?中，布恩巴的靈魂科學(xué)家發(fā)現(xiàn)相當(dāng)一部分研究是不可重復(fù)的。

　　一個臭名昭著的例子是“姿態(tài)能量”的概念，某篇論文聲稱，自信的肢體語言不僅會改變你的態(tài)度，還會改變你的激素分泌，后來這篇文章還被作者自我否定了。美國哥倫比亞大學(xué)的統(tǒng)計學(xué)家安德魯·格爾曼（Andrew Gelman）在他博客寫道：“一篇可疑的關(guān)于氣候經(jīng)濟學(xué)影響力的論文，多年之后發(fā)表了勘誤聲明，馬里奧上冰塔最終被修正的錯誤結(jié)論幾乎與原論文的數(shù)據(jù)點一樣多，戴夢得董事長這可不是開玩笑！但勘誤聲明中這些更正都不足以讓作者改變結(jié)論。” 格爾曼還說道：“嘿，只做理論上的工作就可以了，但不需要用數(shù)據(jù)分散我們的注意力�！�

　　統(tǒng)計顯著性的概念雖然不是引起問題的唯一因素，但很明顯，它是引起問題的一個關(guān)鍵要素。在過去的三年里，數(shù)以百計的研究人員呼吁統(tǒng)計學(xué)改革，他們在著名期刊上發(fā)表文章，重新定義統(tǒng)計顯著性，或干脆放棄統(tǒng)計顯著這個概念。美國統(tǒng)計協(xié)會（ASA）在2016年就這一問題發(fā)表了一份強有力且不同尋常的聲明，主張“進(jìn)入一個沒有p<0.05的世界”。美國統(tǒng)計協(xié)會執(zhí)行董事羅納德·瓦瑟斯坦（Ronald Wasserstein）這樣說：“科學(xué)家總是說，我有小于0.05的p值，這很好。但這種粗糙的判斷方法，使得科學(xué)因此停止了�！�

　　問題是，事態(tài)會不會有什么變化。美國南加利福尼亞大學(xué)的行為經(jīng)濟學(xué)家丹尼爾·本杰明（Daniel Benjamin）表示：“這已經(jīng)不是新鮮事了。我們需要清醒地認(rèn)識到，這一次將與以往一樣，大家說要變革統(tǒng)計學(xué)，最終卻不了了之�！焙芏嗳嗽谧兏锝y(tǒng)計學(xué)的具體措施上有分歧，正如美國經(jīng)濟學(xué)家斯蒂芬·齊利亞克（Stephen Ziliak）所寫的那樣：“令人吃驚的是，還有不少研究者堅持使用統(tǒng)計顯著性檢驗，統(tǒng)計結(jié)論解釋和統(tǒng)計分析報告這三個例行公事的傳統(tǒng)套路。”

　　可重復(fù)性危?

　　科學(xué)的目的是描述自然界中的真實情況。科學(xué)家使用統(tǒng)計模型來推斷真相，比如確定一種治療方法是否比另一種更有效。每個統(tǒng)計模型的分析結(jié)果，取決于科學(xué)家如何收集數(shù)據(jù)，極速輪滑官網(wǎng)如何分析數(shù)據(jù)，以及研究人員如何有選擇性地展示他們的結(jié)果。

　　以統(tǒng)計方法為中心，實驗結(jié)果的檢驗被稱為零假設(shè)顯著性檢驗，這個過程會產(chǎn)生一個p值。P值只是對事情有一個模糊的描述�！爱�(dāng)我們進(jìn)行實驗時，我們想知道的是——我們的假設(shè)是真的嗎？”本杰明說，“但是，顯著性檢驗回答了一個令人費解的替代問題，那就是，如果我的假設(shè)是錯誤的，我的數(shù)據(jù)有多大的概率導(dǎo)致錯誤的結(jié)論？”

　　當(dāng)然了，p值也有奏效的時候。一個極端但有用的例子是尋找希格斯玻色子（Higgs boson）。希格斯玻色子是物理學(xué)家于20世紀(jì)60年代首次在理論上提出的粒子。零假設(shè)是希格斯玻色子不存在，對立假設(shè)是它必須存在。歐洲核子研究中心的物理學(xué)家用大型強子對撞機進(jìn)行了多次實驗，得到了極其小的p值，以至于如果假設(shè)不存在希格斯玻色子的話，其結(jié)果發(fā)生的可能性就只有350萬分之一。這么小的p值意味著，沒有希格斯玻色子的粒子物理標(biāo)準(zhǔn)模型幾乎不可能是正確的。

　　但是，物理學(xué)的這種精確度在其他學(xué)科是無法達(dá)到的。當(dāng)做人的心理學(xué)實驗的時候，p值永遠(yuǎn)不會達(dá)到300萬分之一。P值為0.05時，在許多重復(fù)實驗中，每20次實驗中就有1次實驗錯誤地否認(rèn)了正確的假設(shè)。這就是為什么統(tǒng)計學(xué)家很早以前就增加了“置信區(qū)間”這個概念，作為一種讓科學(xué)家估計誤差或不確定性的方法。置信區(qū)間在數(shù)學(xué)上與p值息息相關(guān)。P值在0到1之間變動。如果把1減去0.05，得到的0.95就是95%的首選置信區(qū)間。但是，但是，置信區(qū)間只是一個比較好地概括實驗結(jié)果的方法，可以體現(xiàn)多種效應(yīng)量（effect size，做了實驗處理的平均結(jié)果與不做實驗處理的平均結(jié)果之間的差異）。格林蘭德說：“置信區(qū)間也沒有任何東西能激發(fā)人們的信心�！彪S著時間的推移，置信區(qū)間和p值一樣，給人們提供了一種確定性的錯覺。

　　P值本身不一定是問題的本質(zhì)所在。期刊編輯，科研資助機構(gòu)和監(jiān)管機構(gòu)宣稱，p值的分析在論文中是一個非常有用的工具。因此，令人擔(dān)憂的情況正在發(fā)生，統(tǒng)計顯著性的重要性被夸大或過分強調(diào)了。2015年，可重復(fù)性危?項目（現(xiàn)為開放科學(xué)中心）開展了一項實驗，對100篇重要的社會心理學(xué)論文進(jìn)行了重復(fù)性檢驗，結(jié)果發(fā)現(xiàn)只有36.1%的論文的結(jié)論可以被重復(fù)出來。2018年，社會科學(xué)可重復(fù)性項目評估了《自然》與《科學(xué)》在2010年至2015年間發(fā)表的21項社會科學(xué)實驗研究的可重復(fù)性。他們發(fā)現(xiàn)，與原研究相比，其中只有13項研究中（約占總研究的62%）的重復(fù)實驗產(chǎn)生了顯著結(jié)果。

　　從0.05到0.005

　　很多學(xué)科的科學(xué)家已經(jīng)達(dá)成了共識：對p值的誤解，以及過分強調(diào)統(tǒng)計顯著性，才是真正的問題，盡管有些人對濫用p值的嚴(yán)重性持較溫和的態(tài)度。美國康涅狄格大學(xué)的社會心理學(xué)家布萊爾·約翰遜（Blair T。 Johnson）說：“從長遠(yuǎn)來看，科學(xué)界經(jīng)常是這樣子的，鐘擺會在兩個極端之間搖擺，你必須接受這一點�！彼f，這一輪p值危?的好處是，可以提醒科學(xué)家謹(jǐn)慎對待實驗結(jié)果。

　　但是，要想真正取得進(jìn)展，科學(xué)家必須就解決方案達(dá)成共識，這是很困難的。盡管如此，有用的建議還是很多的。這些建議包括改變統(tǒng)計方法，或者改變統(tǒng)計分析的使用方式等。最突出的觀點已經(jīng)在一系列論文中提出，這些論文始于2016年的美國統(tǒng)計協(xié)會聲明，其中20多位統(tǒng)計學(xué)家就改革的若干原則達(dá)成了一致意見。隨后，該協(xié)會所屬的一本期刊還專門制作了特刊，就這一事件發(fā)表了一系列文章。

　　2018年，布恩巴的靈魂由72位科學(xué)家組成的小組在《自然·人類行為》上發(fā)表了一篇名為《重新定義統(tǒng)計意義》的評論文章，贊同將統(tǒng)計顯著性的閾值從0.05調(diào)整到0.005。這篇文章的主要作者本杰明認(rèn)為：“這是一個不完美的短期解決方案，但可以立即實施。我擔(dān)心的是，如果我們不立即做這事，我們將失去變革的動力，而我們最終將花費所有的時間爭論理想化的解決方案�！�

　　另一些人則認(rèn)為，重新定義統(tǒng)計顯著性沒有好處，因為真正的問題是閾值始終存在。今年3月份，瑞士巴塞爾大學(xué)的流行病學(xué)家，動物學(xué)家瓦倫丁·阿姆萊因（Valentin Amrhein）與美國西北大學(xué)的統(tǒng)計學(xué)家，市場營銷專家布萊克利·麥克沙恩（Blakeley McShane）在《自然》雜志上發(fā)表了一篇評論文章，主張放棄統(tǒng)計學(xué)顯著性的概念。他們建議將p值作為一個連續(xù)變量，并將置信區(qū)間（confidence intervals）重命名為“相容性區(qū)間”（compatibility intervals），以反映它們彰顯的實際意義：評估數(shù)據(jù)的相容性，而不是置信度。

　　顯然，有更好的（至少是更直接的）統(tǒng)計方法可以用。格爾曼經(jīng)常批評其他人的統(tǒng)計方法，他在工作中根本沒有使用零假設(shè)顯著性檢驗。他更喜歡貝葉斯方法，這是一種基于初始信念的，更為直接的統(tǒng)計方法，在這種方法中，研究人員接受最初的信念，添加新的證據(jù)并更新信念。格林蘭德正在推廣使用一種叫做稀奇程度（surprisal）的新數(shù)學(xué)量，可以調(diào)整p值以產(chǎn)生信息位（如計算機比特位）。為了檢驗原假設(shè)，0.05的p值僅有4.3比特的信息熵（假設(shè)有一枚均勻的硬幣，拋硬幣出現(xiàn)正面設(shè)為0，出現(xiàn)反面設(shè)為1，則拋一個硬幣事件的信息熵就是1個比特。獨立地拋256次硬幣的信息熵就是256個比特。那么求解方程0.5x=0.05，解得0.05的概率約為拋擲x=-log20.05=4.3次，于是0.05的p值約為空值的4.3比特的信息熵。

　　所謂信息熵就是某個概率分布所包含的信息量的多少，這是信息論的基礎(chǔ)知識。在信息論中，如果你對一件事情的發(fā)生百分之百確定，那么這件事情對你來說的信息熵等于0比特。反過來說，如果你對一件事情是不確定的，那么這件事情對你來說是包含信息熵的。格林蘭德認(rèn)為，如果研究人員不得不在每一個p值旁邊加上一個稀奇程度，那么他們將被置于更高的標(biāo)準(zhǔn)之下。強調(diào)效應(yīng)量（effect size），即發(fā)現(xiàn)差異的大小，也將有所幫助。

　　擁抱不確定性

　　統(tǒng)計顯著性滿足了研究人員對確定性的需求。格爾曼說：“這里的原罪是研究人員在得不到確定性的時候卻想要確定性�！� 或許，現(xiàn)在是時候讓我們接受不確定性了。

　　科學(xué)界正在發(fā)生微小的變化�！缎掠⒏裉m醫(yī)學(xué)雜志》的發(fā)言人詹妮弗·蔡斯（Jennifer Zeis）說：“我們同意，p值有時被過度使用或被曲解了。對于治療來說，如果我們認(rèn)定p<0.05，治療的結(jié)果是有效的，如果p>0.05，治療是無效的。那么這就是醫(yī)學(xué)的簡化主義，它并不總能反映客觀事實�！辈趟雇瑫r強調(diào)，《新英格蘭醫(yī)學(xué)雜志》的研究報告現(xiàn)在已經(jīng)很少使用p值了，更多是采用置信區(qū)間而不是使用p值這個概念。

　　根據(jù)美國食品及藥品管理局（FDA）的生物統(tǒng)計學(xué)部門的負(fù)責(zé)人約翰·斯科特（John Scott）的說法，關(guān)于p值的應(yīng)用，臨床試驗的要求還沒有發(fā)生任何變化。

　　麥克沙恩說：“最關(guān)鍵的是，p值不應(yīng)成為看門人。我們應(yīng)該采取更全面，更細(xì)化和更容易評價的指標(biāo)�！逼鋵崳@個觀點在歷史上就有人贊同，甚至在與菲舍爾同時代的人中，也有人支持這一觀點。比如在1928年，另外兩位統(tǒng)計學(xué)大師杰爾茲·內(nèi)曼（Jerzy Neyman）和艾根·佩爾松（Egon Pearson）在撰寫統(tǒng)計分析報告時寫到：“統(tǒng)計檢驗本身并沒有給出最終的結(jié)論，而只是作為一個參考工具幫助人們做出最終的決策�！�

　　撰文：莉迪婭 · 登沃斯（Lydia Denworth）

　　翻譯：張慧銘

　　參考鏈接：

　　Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015。 Colin F。 Camerer et al。 in Nature Human Behaviour， Vol。 2， pages 637–644， September 2018。

　　Moving to a World beyond “p< 0.05�！� Ronald L。 Wasserstein， Allen L。 Schirm and Nicole A。 Lazar in American Statistician， Vol。 73， Supplement 1， pages 1–19， 2019。

本文地址：http://www.kjdzwh.cn/info/2019/11/0810081271.html

【打印該頁】【關(guān)閉窗口】

相關(guān)資訊

上一篇：

阿里回應(yīng)“ 以4%折扣向機構(gòu)詢價”：不予置評

下一篇：

周小川：央行的數(shù)字貨幣主要仍會聚焦于本國

熱點推薦