【本文由《時報出版》授權刊登,摘自《數商:向阿里巴巴前副總裁學習數據時代的生存商數》】
難以戰勝的人類感覺
1831年,倫敦爆發了第一次霍亂大流行。小災進城,大災離城,在巨大死亡陰影的籠罩下,城市的居民都成群結隊向鄉村逃亡。這個時候,斯諾(John Snow,1813-1858)還是一名學徒,他目睹了出城的人流造成交通大壅塞,人走城空,正常的生活被傳染病快速摧毀,這些場景令他心如刀割。
他是一名麻醉醫生,這種傳染病跟他關係不大,但醫者仁心,他開始關注研究這種病。
當時的人們都傳言,霍亂是經由空氣傳播的,城市裡無處不在的臭味和瘴氣是這種傳染病的根源。
1848年,倫敦爆發了第三次霍亂大流行。斯諾發現,霍亂患者的最初症狀都是腹瀉嘔吐,「如果真的是瘴氣傳播,為什麼最先被感染的不是鼻子和肺,而是腸胃?又為什麼一家人當中會有倖存者,接觸病人的醫生也不會被傳染?」
斯諾斷定,霍亂一定是經口腔進入腸胃的。他推測這極有可能是因為喝了不乾淨的水。但當時的科學設備看不到水裡的微生物,被霍亂弧菌汙染的水,看起來完全和正常的水一樣,仍然純淨透明。斯諾無法說服身邊的人相信他的判斷。
斯諾需要的顯然是更多的證據。他深入疫區,挨家挨戶敲門詢問患者和喝水有關的資訊。他發現了一個驚人的事實,1848年至1849年霍亂爆發期間,倫敦市共有7,466人死亡,其中4,001人都居住在泰晤士河南岸,這意味著南岸的死亡率接近0.8%,是市中心區的3倍,而倫敦西邊和北邊的死亡率僅僅只有0.1%。
對此,瘴氣論的流行解釋是,泰晤士河南岸聚居了大量的勞工階層,汙濁的空氣導致死亡率更高。
斯諾認為這個解釋是錯誤的,他舉出反證說,倫敦東區比泰晤士河南岸聚居了更多的民工,是全倫敦最貧窮、最擁擠的地方,但死亡率只有泰晤士河南岸的一半。斯諾認為真正的原因是,南岸的倫敦人都飲用泰晤士河的水,而北岸倫敦人的飲用水來源並不僅限於泰晤士河,而是有多個來源。他分析了各個來源,發現死亡的數據和供水的路線有高度相關性。
斯諾的調查數據表明,飲用A公司水的家庭有1,263人死於霍亂,而飲用B公司水的家庭只有98人死於霍亂。當然,單純比較死亡的絕對人數是不公平的,因為有些地區的人多,有些地區的人少,斯諾又拿每一萬戶的死亡人數做對比,結論是飲用A公司水的家庭,每一萬戶死亡人數約是B公司的8.5倍(315除以37)。
飲用不同供水公司的水,每一萬戶死亡人數就會有高達8.5倍的差距,這究竟是什麼原因?斯諾又進一步追蹤了兩家公司的水源,他發現A公司在流經倫敦市中心的泰晤士河下游取水,B公司則在上游取水,而當時泰晤士河已經被霍亂患者的排泄物汙染了。
倫敦市政府的戶籍登記處有名統計學家,叫法爾(William Farr,1807-1883),他的職責就是記錄人口的最新變化,例如出生、結婚和死亡。這個法爾非常了不起,他在戶政部門工作30幾年,建立了完善的倫敦出生和死亡人口記錄體系。法爾對斯諾的觀點半信半疑,他提出:要測定水源對霍亂的影響,必須要有兩組居民,這兩組人生活在同一海拔高度、活動於同一空間、吃的東西一樣、日常活動也要相同,僅僅一方面不同,那就是喝的水,但在現實中的倫敦,顯然找不到這樣的實驗條件。
然而,斯諾認為,實驗已經擺在眼前。兩家公司的管道都通向所有的街道,進入幾乎所有的院落和小巷,無論貧富,無論房子大小,兩家公司都等而視之地提供自來水服務,而接受不同公司服務的客戶,他們在生活條件或職業方面也無明顯的區別,特別是他們都被同樣的「瘴氣」圍繞,為什麼有的生病,有的沒事呢?
1849年,斯諾把這些調查和發現編寫成一本小冊子《霍亂的傳播方式》,正式提出水汙染是霍亂流行的真正原因:「再也設計不出比這更好的實驗方式,讓我們澈底地檢測水對霍亂的影響,整套實驗設計已現成地擺在研究者面前,而且這一實驗的規模相當大,多達 30 萬名不同性別、年齡、職業階層和地位的人,從上流人士到底層窮人,被分成了兩組,他們不僅不能主動選擇,而且在大多數情況下對這種選擇毫不知情。」一組得到乾淨的水,而另一組得到被汙染的水,所以斯諾得出結論:水源不乾淨,才是霍亂傳播的真正原因。
斯諾的論斷是天才式的。他在「隨機對照實驗」的概念遠遠尚未產生的時代,就在現實中發現了一次科學實驗。科學的實驗機制要到20世紀初才被統計學家確立。但斯諾的這些論述只獲得極少數的人相信,這本小冊子總共才賣出去幾十本。大眾對瘴氣論深信不疑,畢竟,嗅覺是人類一種最原始的感覺,我們相信自己的感覺,就像哥白尼時代的人相信地球是靜止的一樣。人類對感官的迷信可謂根深蒂固,只有一流腦袋才能將數據當作「感覺的替代品」,透過數據來感知我們自己的身體和外部環境。
斯諾告訴法爾,為什麼光看死亡人數,瘴氣論好像很正確?那是因為在海拔高的地方,人口密度往往較低,因此死亡人口總數更少;但真正的原因不是這些地方遠離瘴氣,而是居民遠離了泰晤士河下游,水源較為乾淨。他甚至得出結論說,如果A公司將其取水口移到泰晤士河上游,就可以挽救1,000多人的生命!斯諾最終說服了法爾,在他的統計當中增加一個新的變數:死亡者的飲用水源。
同樣是數據分析,為什麼只有斯諾才能洞察真正的因果關係?我想這源自於他對事實和規律持之以恆的細密追蹤。很多時候,流於表面的觀察都無濟於事,最高水準的成就來自一步一腳印的追蹤和不罷休。「實事求是」,事,就是事實;是,則是規律。實事求是即透過事實分析並發現事物的規律。斯諾的方法,可以總結為實「數」求是:把事實記錄下來,再透過全面細密的數據來尋找規律。
數據英雄的逆行
1854年秋天,霍亂第4次席捲英國,8月31日爆發,3天內就有127人喪生,10天之後,死亡人數攀升到500多人,其中一個名為寬街(Broad Street)的區域,居民死亡案例最多、最集中。
這時候的斯諾,於每週第一時間閱讀法爾的死亡報表,關注死者的飲用水源,希望在表格和數據中找到線索。
雖然法爾收集了供水的來源,但斯諾根據這部分數據做不出任何判斷。為什麼呢?這是因為整個倫敦有10幾家大公司供水給城市的不同地區,各家公司的地盤互相交錯,供水管雜亂無章地交織在一起,僅憑地址無法準確判斷供水公司。
斯諾左思右想,無計可施之下,為了得到這些數據,他最後決定一家一家上門走訪。斯諾走了多少路,我們今天已不得而知。但他很快又碰到新的困難──即使挨家挨戶去敲開每一位患者的門,得到的數據也還是不完整、不準確,因為很多住戶根本不知道自家的用水是哪個公司提供的,房子可能是租的,水費可能是由房東繳交的,即便是自己付的,也找不到公司的收據,名稱還是不清楚。
皇天不負苦心人,斯諾又想出新辦法解決這個問題。他在走訪中發現,某一家公司的水中,鹽分含量是另外一家公司的4倍,根據這個差別就能判斷水的來源,如此一來,他碰到不知道自家供水公司的住戶時,就取一小瓶水樣,在瓶上注明地址,然後帶回去檢測。
斯諾搜集數據的執著讓人感佩。在大多數情況下,數據都沒有現成的。搜集數據太難了,就像在風中奔跑,搜集隨風飛散的柳絮一樣,你需要逐風而行,東奔西走。但對高數商的人而言,這一點是共性:他們都願意展開搜集數據的行動,都願意付出極大的努力,包括精力和時間。搜集數據所用的精力、體力和時間,可能是分析數據的數倍之多。第谷和克卜勒就是最好的例子。
在死亡案例高度集中的寬街,斯諾發現,「幾乎所有的死亡案例都發生在某街頭的一口水井附近。只有10名死者的住所靠近另一個街頭的水井,而其中有 5 名死者的家屬確認,他們一直使用那個水泵,有3戶距離這口水井遠一點,但死亡的孩子所在的學校就在這口水井附近」。
在這條街上,他還發現有一家啤酒廠和一家感化院沒有任何人死亡。他實地走訪了這兩個地方,發現啤酒廠和感化院都有自己獨立的水井,而且啤酒廠的工人平常只喝啤酒不喝水,斯諾因此更加確定,水就是人們感染霍亂的最終原因。
現在,讓我們試想一下,一個社區爆發了有史以來最為兇險的傳染病,驚恐的居民在一片混亂中成群出逃,用馬車拉著家當往一個方向走,但一名皇家醫生選擇逆人流而上,挨家挨戶去敲門瞭解死者的生活細節,他走進的每一間屋子,都還籠罩在葬禮的陰影和哀號當中。
斯諾不僅追蹤每一起霍亂死亡的病例,還創新了記錄的方法。他將死者的地址在地圖上標注成一個一個的點,當所有代表死亡的點都標注上去之後,地圖呈現的資訊立刻清晰起來:霍亂絕不是像空氣一樣平均分布在這個地區的,死神的陰影有濃雲密布之處,它是從一個點發散出去的,這個點就是水井!相較於數據,人類的大腦更願意接受圖表,當面對人群,高數商的人一定得想辦法將數據轉化為圖表。
9月8日這一天晚上,是新一輪霍亂爆發的第 10 天,在政府組織的緊急會議上,斯諾展示了自己的數據和發現,並建議立即封閉寬街上的水井,以此切斷霍亂的傳播。
這在當時是一個異常艱難的決定。因為如果斯諾搞錯了,那些備受死神折磨的家庭還將無水可喝、無水可用,這無異於雪上加霜;但如果他是對的,這個舉措就能挽救無數的家庭和生命。斯諾在會議上發言並展示他的圖表,這張圖表發揮了巨大的作用,市政理事會最後經過投票採納了斯諾的建議,當局立即拆除了寬街水井的水泵手柄,以控制水井的使用。
寬街霍亂引發的死亡,由此慢慢地平息下來。
後續調查證明,1854 年這一場霍亂起源於寬街40號的一名女嬰,她被確認感染了霍亂,她的母親把她的尿直接倒進家門口的化糞池,化糞池的穢物滲透到土裡,而距離這個化糞池不到三英尺的地方,就有一口公用水井。
女嬰的父親隨後也感染了霍亂,並於9月19日去世。在丈夫病倒後,這位母親又開始朝化糞池中傾倒汙水,如果當局沒有拆除寬街上的水泵手柄,後果將不堪設想。
也就是說,斯諾的判斷有效地阻止了霍亂的再一次爆發。
在我看來,斯諾是敢於逆行的英雄,更是一名有頭腦的英雄。所謂數據英雄,就是一個人有足夠的勇氣和專業的判斷,為真正解決問題起到關鍵性、壓倒一切的作用。如果沒有斯諾的行動,倫敦霍亂的局面和後果將會完全不同。
●作者:涂子沛/ 大數據先鋒思想家,曾在美國學習、工作多年,2014年從矽谷回到中國,出任阿里巴巴集團副總裁。2018年創建數文明科技,同時擔任伊斯佳股份董事、人民網和國地科技獨立董事。
●本文為作者評論意見,不代表《NOWnews今日新聞》立場
●《今日廣場》歡迎來稿或參與討論,請附真實姓名及聯絡電話,文章歡迎寄opinion@nownews.com
我是廣告 請繼續往下閱讀
1831年,倫敦爆發了第一次霍亂大流行。小災進城,大災離城,在巨大死亡陰影的籠罩下,城市的居民都成群結隊向鄉村逃亡。這個時候,斯諾(John Snow,1813-1858)還是一名學徒,他目睹了出城的人流造成交通大壅塞,人走城空,正常的生活被傳染病快速摧毀,這些場景令他心如刀割。
他是一名麻醉醫生,這種傳染病跟他關係不大,但醫者仁心,他開始關注研究這種病。
當時的人們都傳言,霍亂是經由空氣傳播的,城市裡無處不在的臭味和瘴氣是這種傳染病的根源。
1848年,倫敦爆發了第三次霍亂大流行。斯諾發現,霍亂患者的最初症狀都是腹瀉嘔吐,「如果真的是瘴氣傳播,為什麼最先被感染的不是鼻子和肺,而是腸胃?又為什麼一家人當中會有倖存者,接觸病人的醫生也不會被傳染?」
斯諾斷定,霍亂一定是經口腔進入腸胃的。他推測這極有可能是因為喝了不乾淨的水。但當時的科學設備看不到水裡的微生物,被霍亂弧菌汙染的水,看起來完全和正常的水一樣,仍然純淨透明。斯諾無法說服身邊的人相信他的判斷。
斯諾需要的顯然是更多的證據。他深入疫區,挨家挨戶敲門詢問患者和喝水有關的資訊。他發現了一個驚人的事實,1848年至1849年霍亂爆發期間,倫敦市共有7,466人死亡,其中4,001人都居住在泰晤士河南岸,這意味著南岸的死亡率接近0.8%,是市中心區的3倍,而倫敦西邊和北邊的死亡率僅僅只有0.1%。
對此,瘴氣論的流行解釋是,泰晤士河南岸聚居了大量的勞工階層,汙濁的空氣導致死亡率更高。
斯諾認為這個解釋是錯誤的,他舉出反證說,倫敦東區比泰晤士河南岸聚居了更多的民工,是全倫敦最貧窮、最擁擠的地方,但死亡率只有泰晤士河南岸的一半。斯諾認為真正的原因是,南岸的倫敦人都飲用泰晤士河的水,而北岸倫敦人的飲用水來源並不僅限於泰晤士河,而是有多個來源。他分析了各個來源,發現死亡的數據和供水的路線有高度相關性。
斯諾的調查數據表明,飲用A公司水的家庭有1,263人死於霍亂,而飲用B公司水的家庭只有98人死於霍亂。當然,單純比較死亡的絕對人數是不公平的,因為有些地區的人多,有些地區的人少,斯諾又拿每一萬戶的死亡人數做對比,結論是飲用A公司水的家庭,每一萬戶死亡人數約是B公司的8.5倍(315除以37)。
飲用不同供水公司的水,每一萬戶死亡人數就會有高達8.5倍的差距,這究竟是什麼原因?斯諾又進一步追蹤了兩家公司的水源,他發現A公司在流經倫敦市中心的泰晤士河下游取水,B公司則在上游取水,而當時泰晤士河已經被霍亂患者的排泄物汙染了。
倫敦市政府的戶籍登記處有名統計學家,叫法爾(William Farr,1807-1883),他的職責就是記錄人口的最新變化,例如出生、結婚和死亡。這個法爾非常了不起,他在戶政部門工作30幾年,建立了完善的倫敦出生和死亡人口記錄體系。法爾對斯諾的觀點半信半疑,他提出:要測定水源對霍亂的影響,必須要有兩組居民,這兩組人生活在同一海拔高度、活動於同一空間、吃的東西一樣、日常活動也要相同,僅僅一方面不同,那就是喝的水,但在現實中的倫敦,顯然找不到這樣的實驗條件。
然而,斯諾認為,實驗已經擺在眼前。兩家公司的管道都通向所有的街道,進入幾乎所有的院落和小巷,無論貧富,無論房子大小,兩家公司都等而視之地提供自來水服務,而接受不同公司服務的客戶,他們在生活條件或職業方面也無明顯的區別,特別是他們都被同樣的「瘴氣」圍繞,為什麼有的生病,有的沒事呢?
1849年,斯諾把這些調查和發現編寫成一本小冊子《霍亂的傳播方式》,正式提出水汙染是霍亂流行的真正原因:「再也設計不出比這更好的實驗方式,讓我們澈底地檢測水對霍亂的影響,整套實驗設計已現成地擺在研究者面前,而且這一實驗的規模相當大,多達 30 萬名不同性別、年齡、職業階層和地位的人,從上流人士到底層窮人,被分成了兩組,他們不僅不能主動選擇,而且在大多數情況下對這種選擇毫不知情。」一組得到乾淨的水,而另一組得到被汙染的水,所以斯諾得出結論:水源不乾淨,才是霍亂傳播的真正原因。
斯諾的論斷是天才式的。他在「隨機對照實驗」的概念遠遠尚未產生的時代,就在現實中發現了一次科學實驗。科學的實驗機制要到20世紀初才被統計學家確立。但斯諾的這些論述只獲得極少數的人相信,這本小冊子總共才賣出去幾十本。大眾對瘴氣論深信不疑,畢竟,嗅覺是人類一種最原始的感覺,我們相信自己的感覺,就像哥白尼時代的人相信地球是靜止的一樣。人類對感官的迷信可謂根深蒂固,只有一流腦袋才能將數據當作「感覺的替代品」,透過數據來感知我們自己的身體和外部環境。
斯諾告訴法爾,為什麼光看死亡人數,瘴氣論好像很正確?那是因為在海拔高的地方,人口密度往往較低,因此死亡人口總數更少;但真正的原因不是這些地方遠離瘴氣,而是居民遠離了泰晤士河下游,水源較為乾淨。他甚至得出結論說,如果A公司將其取水口移到泰晤士河上游,就可以挽救1,000多人的生命!斯諾最終說服了法爾,在他的統計當中增加一個新的變數:死亡者的飲用水源。
同樣是數據分析,為什麼只有斯諾才能洞察真正的因果關係?我想這源自於他對事實和規律持之以恆的細密追蹤。很多時候,流於表面的觀察都無濟於事,最高水準的成就來自一步一腳印的追蹤和不罷休。「實事求是」,事,就是事實;是,則是規律。實事求是即透過事實分析並發現事物的規律。斯諾的方法,可以總結為實「數」求是:把事實記錄下來,再透過全面細密的數據來尋找規律。
數據英雄的逆行
1854年秋天,霍亂第4次席捲英國,8月31日爆發,3天內就有127人喪生,10天之後,死亡人數攀升到500多人,其中一個名為寬街(Broad Street)的區域,居民死亡案例最多、最集中。
這時候的斯諾,於每週第一時間閱讀法爾的死亡報表,關注死者的飲用水源,希望在表格和數據中找到線索。
雖然法爾收集了供水的來源,但斯諾根據這部分數據做不出任何判斷。為什麼呢?這是因為整個倫敦有10幾家大公司供水給城市的不同地區,各家公司的地盤互相交錯,供水管雜亂無章地交織在一起,僅憑地址無法準確判斷供水公司。
斯諾左思右想,無計可施之下,為了得到這些數據,他最後決定一家一家上門走訪。斯諾走了多少路,我們今天已不得而知。但他很快又碰到新的困難──即使挨家挨戶去敲開每一位患者的門,得到的數據也還是不完整、不準確,因為很多住戶根本不知道自家的用水是哪個公司提供的,房子可能是租的,水費可能是由房東繳交的,即便是自己付的,也找不到公司的收據,名稱還是不清楚。
皇天不負苦心人,斯諾又想出新辦法解決這個問題。他在走訪中發現,某一家公司的水中,鹽分含量是另外一家公司的4倍,根據這個差別就能判斷水的來源,如此一來,他碰到不知道自家供水公司的住戶時,就取一小瓶水樣,在瓶上注明地址,然後帶回去檢測。
斯諾搜集數據的執著讓人感佩。在大多數情況下,數據都沒有現成的。搜集數據太難了,就像在風中奔跑,搜集隨風飛散的柳絮一樣,你需要逐風而行,東奔西走。但對高數商的人而言,這一點是共性:他們都願意展開搜集數據的行動,都願意付出極大的努力,包括精力和時間。搜集數據所用的精力、體力和時間,可能是分析數據的數倍之多。第谷和克卜勒就是最好的例子。
在死亡案例高度集中的寬街,斯諾發現,「幾乎所有的死亡案例都發生在某街頭的一口水井附近。只有10名死者的住所靠近另一個街頭的水井,而其中有 5 名死者的家屬確認,他們一直使用那個水泵,有3戶距離這口水井遠一點,但死亡的孩子所在的學校就在這口水井附近」。
在這條街上,他還發現有一家啤酒廠和一家感化院沒有任何人死亡。他實地走訪了這兩個地方,發現啤酒廠和感化院都有自己獨立的水井,而且啤酒廠的工人平常只喝啤酒不喝水,斯諾因此更加確定,水就是人們感染霍亂的最終原因。
現在,讓我們試想一下,一個社區爆發了有史以來最為兇險的傳染病,驚恐的居民在一片混亂中成群出逃,用馬車拉著家當往一個方向走,但一名皇家醫生選擇逆人流而上,挨家挨戶去敲門瞭解死者的生活細節,他走進的每一間屋子,都還籠罩在葬禮的陰影和哀號當中。
斯諾不僅追蹤每一起霍亂死亡的病例,還創新了記錄的方法。他將死者的地址在地圖上標注成一個一個的點,當所有代表死亡的點都標注上去之後,地圖呈現的資訊立刻清晰起來:霍亂絕不是像空氣一樣平均分布在這個地區的,死神的陰影有濃雲密布之處,它是從一個點發散出去的,這個點就是水井!相較於數據,人類的大腦更願意接受圖表,當面對人群,高數商的人一定得想辦法將數據轉化為圖表。
9月8日這一天晚上,是新一輪霍亂爆發的第 10 天,在政府組織的緊急會議上,斯諾展示了自己的數據和發現,並建議立即封閉寬街上的水井,以此切斷霍亂的傳播。
這在當時是一個異常艱難的決定。因為如果斯諾搞錯了,那些備受死神折磨的家庭還將無水可喝、無水可用,這無異於雪上加霜;但如果他是對的,這個舉措就能挽救無數的家庭和生命。斯諾在會議上發言並展示他的圖表,這張圖表發揮了巨大的作用,市政理事會最後經過投票採納了斯諾的建議,當局立即拆除了寬街水井的水泵手柄,以控制水井的使用。
寬街霍亂引發的死亡,由此慢慢地平息下來。
後續調查證明,1854 年這一場霍亂起源於寬街40號的一名女嬰,她被確認感染了霍亂,她的母親把她的尿直接倒進家門口的化糞池,化糞池的穢物滲透到土裡,而距離這個化糞池不到三英尺的地方,就有一口公用水井。
女嬰的父親隨後也感染了霍亂,並於9月19日去世。在丈夫病倒後,這位母親又開始朝化糞池中傾倒汙水,如果當局沒有拆除寬街上的水泵手柄,後果將不堪設想。
也就是說,斯諾的判斷有效地阻止了霍亂的再一次爆發。
在我看來,斯諾是敢於逆行的英雄,更是一名有頭腦的英雄。所謂數據英雄,就是一個人有足夠的勇氣和專業的判斷,為真正解決問題起到關鍵性、壓倒一切的作用。如果沒有斯諾的行動,倫敦霍亂的局面和後果將會完全不同。
●作者:涂子沛/ 大數據先鋒思想家,曾在美國學習、工作多年,2014年從矽谷回到中國,出任阿里巴巴集團副總裁。2018年創建數文明科技,同時擔任伊斯佳股份董事、人民網和國地科技獨立董事。
●本文為作者評論意見,不代表《NOWnews今日新聞》立場
●《今日廣場》歡迎來稿或參與討論,請附真實姓名及聯絡電話,文章歡迎寄opinion@nownews.com