1936年10月16日,這對愛爾蘭吉尼斯酒業集團(Guinness)來說是一個悲傷和令人震驚的日子,就在這一天,她的全球研發總工程師(Chief Brewer)威廉戈賽特(Willia Seal Gosset)因為心臟病突發而去世了,當時離戈賽特坐上這個首席的位置,才剛剛一個月。
后面還有讓吉尼斯集團吃驚的,戈賽特去世后,他的一個朋友找到吉尼斯啤酒廠的控股家族,請求他們贊助出版戈賽特科學論文集的單行本,作為對這位學術巨擘的紀念。吉尼斯家族有點糊涂,他們只知道戈賽特是個非常善于管理的企業經理人,在他的操盤下,作為愛爾蘭國粹的吉尼斯啤酒無論在產量,口感和品質上都到達國際一流的水準,卻不知道他還發表過什么論文;經過深入的查詢,圈內和圈外的人們才意識到,原來發表在國際權威雜志《生物統計》(Biometrika)的一系列署名為“一個學生”(Student)的經典統計學文獻,都是秘密地出自戈賽特之手。
下文是戈賽特最出名的文章:《論均值的可能誤差》。一個非常平庸的題目,從標題黨的角度看是不及格,卻是科學史上被使用最廣泛的工具, Student’s t 檢驗,任何從事科學和工程的專業人員對此都不會陌生。
![]()
1867年出生的戈塞特,在牛津畢業的時候拿到了化學和數學的雙學位,然后進入總部在都柏林的吉尼斯啤酒廠,一干就是38年,直到在61歲的時候去世。
當時的企業招收名校高科技人才還是一個比較罕見的現象,在吉尼斯之前,丹麥電話公司在這個方面是一個先行者,她在幾年前招了一些數學專業學生。不過,電話公司的業務和電子與計算相關,數學在那里正有用武之地。但是你一個釀造廠招搞數學的人干什么呢?當時沒人能想得通。
既然我們寫啤酒廠的總工,那免不了要聯系現實一下,提一句當下熱評的“茅臺總工評院士”的新聞,中國人想不通茅臺釀造和科技工程有神馬聯系,正如當年的英國社會搞不懂一個牛津理科高材生在啤酒發酵車間有何用武之地。
也許是和戈塞特的化學專業有關吧,人們這樣想。但有意思的是,看一看戈塞特在吉尼斯38年的職場生涯,他的成就基本和化學無關。
戈塞特第一個轉化為論文的酒廠課題是大麥發酵的酵母用量問題。要保持啤酒穩定的口感,必須精準控制投放酵母的量,量太少發酵不夠,太多了口味就變苦了。但是難度在于酵母培養在一個巨大的母罐之中,培養基是流動變換的,而且酵母菌無時不刻處在分裂和死亡之中,極難量化。
戈塞特的數學直覺讓他認識到酵母的濃度不是一個固定值,而應該使用一個數學上的概率分布來描述和預測,經過大量的觀測和嘗試,他發現單位體積內的酵母量服從泊松分布。
也許有的工程控制論史家覺得這個成就的原創性不夠,因為泊松分布早在100多年前就由法國數學家泊松定義和描述過了,后來曾經有人使用這個概率研究過普魯士軍隊中被馬踢死的士兵數目,但這都是純粹毫無實際社會意義的學術探索,而戈塞特第一個把概率分布的概念進入工業化生產過程,有了它,發酵用酵母投放量就有了更好的控制,吉尼斯的消費者就絕少抱怨咦你這個啤酒怎么今天比昨天的味道苦了,提高了產品的品牌口碑和銷售額,這是真金白銀的社會價值。
作為現代統計學開山鼻祖之一的戈塞特,他的另一個特殊作用是他在統計史上承前啟后的作用。
十幾年前我還在學校的時候,有一次去我的導師的辦公去找她。導師的辦公室在走廊盡頭的倒數第二間,她隔壁的房間有一個回廊凹入的結構,仿佛是刻意地從嘈雜的樓中開辟出一塊僻靜之所,但是這間占據風水寶地的辦公室卻是常年鎖著門,我從未見過它的主人。
那一次我看到一位老先生步履緩慢地從我導師的門口走過,也許是年紀大了,他的目光有點遲滯,膚色黝黑,光禿的腦門發亮,稀疏的白發平整地分向兩邊。我看到他打開走廊盡頭的那間辦公室走了進去。我的導師帶有幾分莊嚴肅穆的表情對我說:這位老先生是R.A. Fisher最后的一個學生。
現代概率統計學公認的創始人是費舍爾(R.A.Fisher),他創立了以方差分析(ANOVA)為基礎的科學實驗設計技術;史上第一個真正的數理統計學家是卡爾皮爾森(Karl Pearson)。皮爾森的名字被用來命名線行回歸(Pearson Correlation),這大概是知名度僅次于t檢驗的統計學概念了。皮爾森比戈塞特年長20歲,是他的老師;戈塞特又比費舍爾大15歲,在學術上是他的長輩。戈塞特在兩位統計巨擘之間起到了一個牽線搭橋的作用。
![]()
三位大師,不知是不是錯覺,皮爾森和費舍爾的目光犀利如鷹,而戈塞特的面容是柔和謙遜的。
皮爾森長期棲身學術界,他的興趣在于理論的完備性。比如,為了達到概率統計分布完善性,他可以派幾個人不厭其煩地測量成千上萬隨機人群的身高骨骼等各項參數,用大樣本逼近正態分布的終極形式;費舍爾壯年時期建功立業的地方是英國鄉下一個農業觀測站,作為那個地方唯一的統計師,他從事的也基本是自己隨心所欲的研究項目。
而戈塞特的治學方法和這兩位天馬行空的風格大有不同,他在大公司拿薪水,從事的研究就有諸多的實際限制,不能想怎么來就怎么來。
啤酒的四大原料是水、大麥、酵母、啤酒花。過去評定啤酒花(hops)品質的主要方法是釀酒師對其色澤和氣味的主觀判斷,后來吉尼斯引入定量化學手段。戈塞特的任務是,通過監控啤酒花里軟脂酸(soft resin)的含量來對其品質進行標準化。
皮爾森可以動輒測量成千上萬人的身高體重和頭圍的周長,來研究正態分布曲線的規律,戈塞特卻不可能打開所有吉尼斯裝啤酒花的罐子取樣,他每次最多只能取十幾個樣本。那么問題就來了,假如兩組啤酒花的軟脂酸含量的差值為0.1,這是說明啤酒花的質量不穩定呢,還是偶然的誤差所致?
作為概率分布理論的奠基人,皮爾森指出需要四個統計量來準確描述一個統計分布,均值(Mean),方差(variance),偏度(skewness)和峰度(Kurtosis)。而戈塞特通過大量吉尼斯酒廠的小樣本試驗發現,均值和標準差的比例本身就是一個嶄新的統計量,他把它叫做t分布,其形狀由樣本量所決定。
如果說在測定酵母量的時候,戈塞特還僅僅是延用了已知的泊松分布;那么在監控啤酒花質量的工作中,他揭示了一個全新的統計分布。而在所有具有實際意義的科學實驗中,樣本數之有限是一個永恒的現實問題,戈塞特的工作沒有點石成金的奇效,他不能讓10個樣本的統計效驗力比肩N = 100,但是卻建立了用概率來量化小樣本實驗不確定性的框架。直到今天,幾乎所有定量學科都依然在使用t檢驗,報道p值和置信區間,這都要歸功于一位酒廠工程師在發酵車間的勞動。
![]()
這是輝瑞RNA疫苗報道的1- p值和95%的可信區間,雖然采用的是貝葉斯的表述,但是核心思想的傳承最早依然可以追溯到戈塞特的啤酒實驗。
也許是由于全職在工廠工作的原因,戈塞特沒有給出t分布的數學表達,這個工作是費舍爾后來完成的。作為實踐大師的戈塞特采用了大量實驗的方法算出了不同自由度下的t分布關鍵值的圖表,并用這些經驗值指導吉尼斯酒廠的生產。
![]()
吉尼斯給戈塞特的紀念徽章
幾乎所有的天才有其極端和桀驁不馴的一面,這在戈塞特的老師皮爾森和晚輩費舍爾身上體現得尤其明顯。費舍爾是極右,他認為人類文明的最大危害是窮人和“笨人”生孩子太多導致惡性基因流行,所以高分貝地反對當時英國的福利制度,他后來成為倫敦大學“優生”系的系主任,他的理念和納粹德國的種族優越論不謀而和,所以在二戰期間被認為是納粹嫌疑分子,被禁止參與任何戰爭相關的政府項目。
而皮爾森是社會主義者,他蔑視貴族,同情下層人民,在讀了馬克思的著作之后,佩服得五體投地,為了表達崇拜,特別把他的原名(Carl Pearson)改成了卡爾馬克思的卡爾(Karl)。
可想而知,這兩個人是很難搞好關系的,雖然有戈塞特的從中牽線搭橋,皮爾森和費舍爾是終身的宿敵。在戈塞特的介紹下,皮爾森本有意聘用費舍爾當他的副手,但是費舍爾拒絕了,反而花了一輩子時間找出皮爾森文章中的各種理論瑕疵然后滿世界去說;而作為學霸的皮爾森把持了當年統計學權威期刊Biometrika, 禁止發表費舍爾的任何東西,他唯二的兩篇文章都是戈塞特介紹發表的。后來費舍爾不得不找一些不知名的學術期刊發表自己的成果,還得是自費。
但戈塞特是天才中的異數,也許是他在大企業中從基層一直干到總工的緣故,他善長和各類人士培養良好的個人關系,整合集體的力量實現企業的目標,沒有人知道他的意識形態,但他和勢不兩立的皮爾森和費舍爾保持了終生的友誼。同時他也是一個謙虛低調的人,當費舍爾把大量的數學證明寄給他,他會老老實實給皮爾森寫信說這些高維幾何問題我看不懂,請你定奪。當有人恭維他在t檢驗上的杰出貢獻,他謙虛地回答“即使沒有我,費舍爾早晚也會做出來”。
戈塞特一生在吉尼斯酒廠任職,收入豐厚衣食無憂,同時在學術上做出杰出貢獻,應該是人生無憾了。但如果一定要找出美中不足的話,還真有一個,那就是他不是院士。
他的兩位忘年交皮爾森和費舍爾,都是英國皇家學會會員,但他不是。
在目前的“茅臺院士”的爭議中,有人質疑茅臺總工的學術貢獻不夠,于是有人檢索了一下發現王工發表了40-60篇釀酒類文章。而當年吉尼斯的制度是,任何研發人員的工作都是為了雇主的盈利而服務的,發表文章可能會造成商業機密的外泄,因而不許發表。
但是戈塞特的老朋友皮爾森在Biometrika有一言九鼎的地位,所以他利用職務之便,允許戈塞特使用Student的化名發表,而且不提及吉尼斯酒廠的大名。所以,在很長一個歷史階段,盡管t檢驗被世界公認,戈塞特卻是一個陌生的名號。
如果不是吉尼斯這個規定,戈塞特肯定能評上院士,我們今天使用的將會是戈塞特檢驗,而非Student’s t test。
(圖片來自網絡)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.