陳勁禾 報道
數據科學要能改善生活,不一定要靠大數據或複雜的算法達成。政府的數據科學專家說,在洞察力強的數據分析員手中,就連“小數據”也可以解決問題。
政府科技局數據科學署代副司長林猷茂昨日在一場數據科學研討會上,以地鐵環線故障爲例,說明政府科技局的數據分析員如何以少量的數據查出列車故障背後的蹊跷。
“環線的數據分析案例用的不是大數據,而是小數據。這組數據只不過是一份只有300排資料的Excel文件。”
他說,這組數據只記錄了列車故障的日期和時間、列車起點站、列車在哪裏故障,以及列車編號,卻足以讓數據分析員在三小時內發現列車故障的模式。
原來是因爲有一列列車會發出破壞性信號,導致反方向列車故障,因此每當那列“搗蛋列車”向一個方向行駛,它越靠近終點站,反方向列車故障的地點就會越靠近起點站。
林猷茂說,數據分析員是參考了美國波斯頓地鐵系統用來分析地鐵行駛資料的Marey圖表,然後把數據轉換成類似圖表再加以分析才得出結論的。
“這種分析工作用的不是什麽花哨的機器學習技術,而是懂得把數據形象化。”
林猷茂是在新加坡國立大學理學院旗下的數據分析咨詢中心主辦的首屆數據科學研討會上演講,並在主題演講中分享了幾個政府應用數據科學的案例。
他舉的另外一個例子是建屋發展局前線的客服人員如何利用數據說服高管改善預購組屋屋主領取鑰匙的流程。
林猷茂說,建屋局的産業行政與房地産部門每年平均會收到10萬個電郵,各種類型的詢問都有。
他說,雖然客服人員知道屋主要更換領取鑰匙的日期是非常普遍的問題,流程迫切需要簡化,但高管要操心的事太多,這個看似芝麻綠豆的小事一直都被忽略。
他說,政府科技局的數據分析員用計算機把電郵按內容分類,發現有關改期領鑰匙的電郵果然占多數,客服部門最終以這個數據說服了高管正視這個問題,成立網上系統讓屋主自己更改日期。
林猷茂說,這名數據分析員因爲幫忙解決了問題而獲得許多贊美,不久後就跳槽到電商公司Lazada去了。“這說明如果你是一個能夠解決現實問題的統計學畢業生,你的技能是非常搶手的。”