11 May
這篇于 2020-04-10 在臉書發表
前言:這篇一個星期前寫了一大半,一直拖著沒有去完成。
#來談談疫情之後 。
首先,沒有所謂『疫情過後』這回事。直到疫苗被開發出來之前,全世界的人都被逼要跟新冠病毒一起生活,模式也會改變。本來你很開心辦了燒烤會,突然之間你被通知你的住宅區要被強制隔離,因為隔兩條街那吃素的一家出現了個新冠病毒感染者。
新冠病毒是個轉捩點,其中一個最重要的因素就是社交隔離。
菜農漁夫餐館在這段社交隔離期間經歷了天翻地覆的改變。。當然是變壞,欲哭無淚。曾經一貫的供應鏈模式一夜之間崩潰,所有的收成回歸大地。窮則變、變則通,有些開始加入外賣、電話、網售、套裝、模式層出不窮。
很多比較傳統的公司這之前還在猶豫要不要數碼化,譬如居家工作、網路會議、網上交易、等等。疫情之後會看到有不少的公司開始著手研究數碼化,數碼科技需求量大增。電訊公司要著手解決流量問題,間接推動 5G 服務。
數碼的基礎建設項目會大量增長,相關領域會具有競爭性。
數碼化之後的公司會檢討員工打卡上班的必要性,居家工作讓交通工具的需求量大跌。社交隔離讓公共交通受打擊。飛機首當其衝,需求量下跌,價格上漲,不再『人人皆可飛』了。
交通工具需求量的減少令石油價格下跌,依賴石油的國家的財務會面臨巨大問題。
跨國遊客大量減少,依賴旅遊業的國家的收入大減,大量旅館、民宿、與其他跟旅遊業相關的行業會因此面臨倒閉的窘境。
大量傳統行業即將消失,導致大量的員工失業。餐館、酒吧、電影院、演唱會這些高密度的場所是受影響層度最高的行業。這導致啤酒的供應量大減,價格相應提高。客源的流失,餐廳及酒吧開始接受外賣服務,甚至著重外賣。
電召配送服務肯定會是一個火紅的海域。失業的員工開始投入電召行業。電單車銷量會劇增。火車服務則會集中在運送物資,而非乘客。
大量失業的人需要政府的大量援助,否則會導致罪案的增長。羊毛出在羊身上,稅率會相應增加。
往好的方向看。
溫室氣體因此排放量減少。氣候開始回到七、八十年代,或更早以前。天空的雨酸性減少,河流也開始不再那麼渾濁,臭氧層恢復的速度加快。食物內的毒素減少,人類的平均壽命會增加。
#地球會延後毀滅 。
11 May
這篇于 2020-04-08 在臉書發表
大數據,Big Data,之所以稱為大數據是有原因的。它所需的數據真的要很大很大,不是幾千幾萬,而是幾百萬幾千萬甚至幾億,而且包含所有能採取的數據,並不限定範圍。由於太大,根本無法像傳統數據那樣分門別類,所以這些數據就被歸類為『非結構化數據』,Unstructured Data。這種沒有分門別類儲存數據的方式在幾十年前會被資深工程師罵個狗血淋頭,但現今電腦能力遠遠超越那個時候,在一堆山一樣高的雜亂文件裡尋找所需要的關鍵詞根本是小事一件。
大數據還有一個強項,就是相關性分析,Correlation Analysis。當然相關性分析不是大數據才有的,但是大數據的相關性分析可以很快的把兩個看起來沒有關係的數據層層疊疊的牽連起來,去蕪存菁,然後再利用因果分析,Casual Analysis,來進行更精確的分析。
當前利用大數據的的例子就是 IBM 利用超級電腦分析了新冠病毒的大數據,把有效疫苗成份範圍的可能性縮小到 77 個。這讓其他研究員省下不少時間,提升研發疫苗的速度。
完美嗎?不。
相關性分析領域常強調『 相關不蘊涵因果』,Correlation does not imply causation。簡單來說,即使數據上顯示兩個不同參數,parameters,的曲線相吻合,並不代表這兩個參數之間有關聯。
圖表一,對比美國由1999年到2009年之間的自殺率跟投入科學,太空以及科技領域的資金。Y軸左邊是自殺率尺度,右邊是投入科學、太空以及科技領域的資金的尺度
比如看圖表一,對比美國由1999年到2009年之間的自殺率跟投入科學,太空以及科技領域的資金。兩者的曲線相似的層度相當高,但它們之間能有關係嗎?當然聰明如你會說,就是這個高科技讓人發瘋自殺,所以肯定有關聯性。
圖表二,對比美國1999到2009 年間死於游泳池的人數跟影星尼古拉斯基出現在影片中的次數。Y軸左邊是死於泳池的人數尺度,右邊是尼古拉斯基出現在影片中的次數尺度。
那好吧,我們再看看圖表二,美國同年間死於游泳池的人數跟影星尼古拉斯基出現在影片中的次數。。。應該是看了他的影片然後去溺水?
目前火紅的學科是數據科學家,Data Scientist。數據科學家是新穎的專業,跟一般的數據分析師,Data Analyst,不一樣。前者想辦法在一大堆毫無意義的數據裡找出相關性,後者利用這些相關性進行相關分析。
11 May
這篇于 2020-04-06 在臉書發表
不談病毒疫情。
昨天在電視前按來按去,看了一段『哥斯拉』,Godzilla,和一段『金剛骷:髏島』,Kong: Skull Island。
哥斯拉身高每一集都不一樣,眼前這集是 108.2 米高。金剛站在它身邊變成侏儒,只有 30 米高。
地球有可能出現這樣大的生物嗎?來算看看。
不要弄到太複雜,把生物體型假設成圓形(好像小時候所看到的洋服店黑白招牌,永遠戴著高帽叼著雪茄,挺著一個像球一樣圓的肚子),便於計算。
霍金教授,Professor Stephen Hawking,在他『時間簡史』,The Brief History of Time,這本書內提到,書中的每一條公式會導致一半的讀者流失,所以我也依樣畫葫蘆不在本來就令人昏昏欲睡的文章裡加入這些公式。。背後原因當然是懶惰。
假設哥斯拉跟金剛都是跟地球生物一樣的有機生物,也就是碳跟氫的化合物(關於這個又是另一篇文章),肌肉骨骼成份也一樣,所以體積跟體重成正比。
假設人的平均高度為 1.5 米,體重 50 公斤。那麼金剛的體高是人的 20 倍,哥斯拉的體高是人類的 72 倍(忽略小數點)。計算機上按按,金剛的體重是400 公噸,哥斯拉的體重為18,662.4 公噸。
要支撐這個體積的是腿部受力的面積,也就是大腿骨骼的面積。長話短說,大腿骨骼受力度跟比例成正比。也就是說金剛的大腿受到的壓力增加 20 倍,哥斯拉 72 倍。想像在你身上疊 20 或 72 個跟你同樣體積的人,別說走動了,站都有問題。
地球目前所知最大的陸地動物是泰坦龍,Titanosaur,重量達60 噸,但跟金剛比起來像嬰兒,跟哥斯拉比起來像老鼠。即便是泰坦龍,也需要四條很粗的腿站著,行走緩慢,更何況體型大它 6 倍以上的金剛跟 300 倍的哥斯拉。
地球上最大的動物不是滅絕了的恐龍家族,而是現今還存在的藍鯨。它體長達到 30 米,體重 150 噸。像這樣的動物只能活在水中,讓水的浮力支撐它的體重。一上岸,它自身的重量就會坍塌把自己壓死。所以你在海邊看到的巨型鯨魚不是缺水而死的,是臃腫而死的。
再來看看體溫,哥斯拉應該算是爬蟲類,屬於變溫動物,雖然最近有研究顯示恐龍或許也有恆溫的種類。金剛是恆溫動物,像人類一樣需要調節體溫,把多餘的熱量散發出來。如何散熱?通過皮膚表面散熱,包括流汗來降溫。跳過數學,越大的物體散熱面積相對的小,所以體積越大的人越容易流汗不是沒有原因的,他需要大量的汗來幫助快速降溫。金剛肯定天天發熱氣,因為體內熱氣囤積散發不出來。
而事實上,熱帶地方的物種體型都比溫帶寒帶地區來得小,基本上就是這個原因。體積小可以很快調節溫度。而溫帶寒帶因為需要儲存能源,體積大不但儲存多,也能保溫。所以,金剛出現在熱帶地區的剛果更是不可能中的不可能。
總括來說,地球上是不可能出現體型那樣大的物種。那它們是外星生物呢?物理在外星同樣成立。能出現這樣龐大體型物種,只有當該星球的地心引力小過地球很多倍。假設真的有那樣的星球存在,星球上的生物構造骨骼也不需要這樣堅固。這樣的生物來到地球會感受到比它們星球強上數十倍的地心引力,早都被壓扁了,怎麼可能還能飛天遁地。
誰家有小朋友的,讓他們計算看看文章內所提到的數學吧。
11 May
這篇于 2020-04-05 在臉書發表
其實上一篇關於數據的東拉西扯沒有談到重點,不過反正不是學校考試,沒有人會給我零分。
數據預測的準確度最主要來自數據源,data source,的準確度與相關性。
但是你所看到的數據源並不一定就是最初的數據,通常的情況下它也是另一組數據中的平均值。
打個比方,電子溫度計測量體溫不像傳統水銀溫度計那樣能直接標出讀數。首先它必須選用對溫度非常敏感的金屬物質,而且必須是穩定的,這些物質統稱為熱敏電阻,thermistor。微小溫度的變化會改變物質的內阻,這種內阻變化能用電子儀器轉換成我們熟知的攝氏,Celsius,或華氏,Fahrenheit,溫度。
可是熱敏電阻跟溫度的對比並不是線性,linear,的,而是呈一個未知的曲線,直到今天科學家還是解不出這個內阻-溫度之間的方程式。不過在1968 年,兩位很厲害的科學家 John S. Steinhart and Stanley R. Hart (不知道他們的中文名),倒是導出了一組非常接近熱敏電阻曲線的複雜方程式組,程式中還有三組看起來就像亂碼的常數,constants。
重點來了,『非常接近』,而不是『絕對』。所以方程式內的三組常數,必須重複數千數萬甚至數十萬次的實驗來採取平均值。這樣所有所製造的電子溫度計測量的結果才不會有太大的誤差,errors。所以當我們說人體平均溫度為36.8 度時,我們不僅採用溫度計讀數的平均數,也採用溫度計內部所有電子零件的平均數、實驗本身的準確度、實驗設備的精確度,等等。在這種環環相扣的情況下,如果有一組的數據是錯的,整個後續數據都會變成垃圾。
好像又離題了。
11 May
這篇于 2020-04-23 在臉書發表
因為新冠病毒,所以有了這篇。
數據,data,準確嗎?這裡面最主要的關鍵詞是『機率』,probability,(或『幾率』,中國大陸用詞)。我比較偏向用『機率』,一方面是先入為主,另一方面這『機』字包含了『隨機』,random,這個含義,而『機率』就是建立在隨機數上。
數據不是『只是一組數字』而已。
先來談談隨機數。
骰子有六面,每一次扔骰子的結果都不能預測,除非是灌了鉛的。但是扔上數千次的時候,你會發現所有的數字出現的機率都近乎相等,就是六分之一,或 1.666… 。但是你不能因為有一個數字出現的機率少於 1.666..,就認為下一個開的機率就會比較大 。那麼容易的話大家發財了。
骰子無聊,用你感興趣的萬能大馬彩多多萬字。有人收集了過去幾十年的的號碼來分析下一期的號碼,結果。。那麼容易的話大家發財了。
所以,數據的準確性基本上是建立在很大的採樣量,sample size,上,越大的採樣量,數據就越準確,所以才有『大數據』這個概念。
人們很早就用數據解決問題,可是不知覺。就像草藥,都是大家吃啊吃的,慢慢就知道某些草藥能治這個那個,老人家說這是經驗,而科學是把它們記錄下來,變成數據。
2018 年 509 大選的時候,我曾經做過一個很無聊的統計,利用谷歌輸入“support BN”跟“support PR”,不去管搜索內容,只看兩者出現的搜索結果出現的數量,有趣的是結果為 49:51,跟選舉結果一樣,而且距離選舉日期越近,出現的數量越精確,由 61:39 的比例到 49:51的比例。你可以嗤之以鼻說這是過於簡單、毫無根據,但大數據往往只看結果,裡面固然有原因,可是複雜程度遠遠超越目前的計算能力。
同理,我們能預測氣候,climate,可是不能預測天氣,weather。我們能說十二月多雨,卻不能預測明天會不會下雨。因為氣候是大數據,天氣還不夠數。
更深一點,那個聽起來就是外星科學的量子論,它的基礎是建立在『波粒二象』,wave-particle duality,性質上。簡單來說就是我們認為的『粒子』,particle,有時不能用我們熟知的物質粒子的特性來解釋,也就是說不能把它看成像一粒鋼珠式的物質,只能用波動性質來解釋,像水波、聲波、電磁波。科學家做了無數次的實驗,數據上證明了這個特性,可是解釋不來,只有接受。而建立在這個奇怪理論上的科技有電腦、行動電話、衛星定位,核磁共振掃描,MRI,等等。如果數據不准確,這篇文章只能在阿公打字機上打出來。
還有那個歐洲核子研究組織,CERN,所建的、橫跨法國跟瑞士邊界,圓周總長27公里的大型強子對撞機,Large Hardon Collider,所做的實驗。。。這裡就不提這種昏昏欲睡的話題了。
大數據很多時候在不能解釋的前提下解決了很多目前利用計算解決不了的問題,這就是我們常說的『科學解釋不了』。但很多人把這句『科學解釋不了』亂用在宗教或偽科學上,往往一句『科學解釋不了』就把問題強掃入地壇地下。鬼魂為甚麽有衣穿?難道衣服也有靈魂?科學解釋不了!
『科學解釋不了』還是需要數據的支撐。
Recent Comments