Lye Kong-wei是Grab數據部門的負責人。在新加坡,他的團隊負責機器學習、市場、優化、模擬、預測以及架構。不久前,在TechiInAsia舉辦的AMA(Ask me anything)活動中,他針對Grab這樣大公司數據部門的職責和需求,給出了自己獨特的描述。

數據工程師需要處理數據庫、構建通道並確保可用性。不僅要洞悉當前的前沿技術,他們還必須不斷考慮采用更新的大數據技術進一步拓展。
另一方面,數據科學家要善于發現現在公司業務中的隱患,針對性地提出問題,找出相關數據,建立模型/算法來解決問題,並驗證解決方案。而解決方案和結果往往因人而異,也許大相徑庭。
在Grab中,數據科學、數據分析和商業智能意味著什麽,它們是如何被使用的?
數據科學小組負責構建算法和模型,通常將研究(現有的和新的)轉化爲適用的産品特征。因此,從乘客打開Grab應用程序的那一刻到車輛到達的時候,數據科學爲最有效的路線、旅行時間和價格點的思考和決策提供了動力。
數據分析查看來自多個來源的數據,以發現趨勢和模式——這些洞察可以轉化爲業務決策。
商業智能會大量查看我們的內部運營數據,以找到改進我們的業務流程、運營和決策的方法。
作爲一名非科技人員,在數據科學業務部門工作需要具備哪些最低能力?我應該從哪裏開始學習?
建議把重點放在基本面上,比如統計學。這是數據科學的基本要求,要學會去理解數據,知道它試圖告訴你什麽。此外,還要找到可以作可視化數據的工具,尤其是當它們是高維數據時。建立數據模型,考察其與真實系統是否足夠接近。
你是否覺得東南亞的數據人才短缺,尤其是數據工程師?你如何爲Grab數據團隊找到合適的人?
我認爲數據專業人員普遍短缺,不僅僅是數據工程師。在Grab,我們在尋找優秀的數據工程師、數據分析師和數據科學家方面也面臨著類似的困難,所以我們與學術界合作,擴大人才庫。
新加坡很小,數據科學職業的未來前景如何?
新加坡很小但它是一個高度數字化的經濟體,也是一個國際商業中心,許多公司在這裏設立分公司,確實看到公司雇傭越來越多的數據科學家,這個行業的未來是光明的!
在您團隊的日常工作中,你們如何1 )數據清理和2 )更普遍的數據治理以確保數據安全,以及數據以正確的方式用于預測/推薦?
數據清理可以自動完成,也可以手動完成。這是最耗時的任務之一,但卻是絕對必要的工作。除非數據收集得到完美控制。
在Grab,我們對訪問和使用數據的權限有非常嚴格的規定。就以“正確的方式”使用數據而言,我認爲這可能需要圍繞隱私、道德等展開更大的討論。在開始構建這些特性之前,我們通常會在客戶內部和與客戶廣泛協商。
除了速度,你認爲在學術界工作和在Grab工作之間有什麽更顯著的區別?
這主要是理論和實踐。學術界的任務主要是教育和形成理論,所以他們的重點不是爲現實世界制造産品。在Grab,我們的任務是識別客戶面臨的困擾,並給予解決。按照數據科學理論,我們應用數據技能來創建模型和算法的,並通過模型和算法解決問題,並且相當完美。
你的團隊有沒有建立一個模型,最初看起來不錯,但在大規模部署時卻不可行?對于這種情況,選擇尋找替代方案還是投入更多資源?
不僅僅是一兩個,在早期的幾個案例中,我們很難在相互沖突的設計目標之間進行權衡,尤其是當我們必須大規模部署時。作爲概念的東西不一定能順利成爲真正的産品。通常,我們在最優性和計算時間之間進行權衡,“分而治之” 的策略在我們這邊已經已經很常見了。
Grab的數據團隊中主要使用哪種程式語言?
也許不足爲奇,但是我們主要使用R和Python。但是當需要進一步優化性能時,我們也使用低級語言編寫。