2018-2019 NBA賽季揭幕日比賽將于北京時間10月17日開始,NBA常規賽收官戰將于2019年4月11日結束,一共曆時176天。除去觀賞精彩的比賽過程,我們也同樣好奇比賽的結果會是如何,球隊的排名是多少。
隨著信息技術的發展,NBA賽場上的數據分析已經達到很高的水平,球員、球隊的各項數據都會被記錄下來,衡量球隊球員的水平有了更加客觀的指標,使得准確預測賽事結果更有可能。
新賽季盤點
今天我們就將使用曆史數據來對新賽季的NBA球隊排名作出預測,我們收集的數據包括:
新賽季的賽程安排、球隊球員和教練配置、2000年以來曆史各賽季球隊基本數據和排名。數據來源于basketball-reference、nba官方網站、stat-nba網站和hoopshype。basketball-reference、nba官方網站、stat-nba網站包含豐富的球隊基本數據和高階數據,hoopshype包含各賽季球隊球員的薪水情況。
一賽程
從2018-19賽季的賽程來看,球隊背靠背比賽的場次是連續第四年創下曆史新低。新賽季,每支球隊平均只打13.3個背靠背,自從2014,15賽季(每支球隊平均打19.3個背靠背)以來,已經減少了31%。
二薪資情況
各球隊薪資整體上呈逐年上升趨勢,2000-2001賽季,球隊薪資最高的是波特蘭開拓者隊,薪金爲87395140美元,薪金最低的是洛杉矶快船隊,薪金爲29606189美元。根據新賽季目前公布的數據,球隊薪資最高的是邁阿密熱火隊,薪金爲164443961美元,薪金最低的是紐約尼克斯隊,薪金爲94246963美元。
三年齡情況
各球隊的平均年齡均在24歲到27歲之間,說明新的賽季各球隊球員比較年輕。年齡方差最大的球隊是達拉斯獨行俠隊,最小的是多倫多猛龍隊。
四教練情況
經過休賽季的調整,有9支球隊進行了主教練的更換,爲新的賽季成績預測帶來了新的變數。這9支球隊分別爲:奧蘭多魔術、底特律活塞、多倫多猛龍、菲尼克斯太陽、孟菲斯灰熊、密爾沃基雄鹿、紐約尼克斯、夏洛特黃蜂、亞特蘭大老鷹。
東西部排名大預測一數據說明
接下來我們根據2000年以來的曆史數據來進行新賽季球隊的排名預測,獲取20年來每個賽季開始時球隊的各項數據指標。主要包含三類:
球員:球員的平均年齡,球員年齡的方差,全明星數量。
變量分析:衆所周知,球員的平均年齡是衡量一個球隊球員運動能力的重要指標,平均年齡太小的球隊往往經驗不足,平均年齡過大又缺乏活力。同時,可以采用球隊年齡的方差來衡量一個球隊的年齡結構是否合理,最合理的球員結構肯定是包含老中青三代球員,既有老將又有年輕球員,這樣的球隊往往戰鬥力很強。另外,NBA畢竟是巨星的舞台,因此每個球隊的全明星數量決定了球隊上限。
教練:教練常規賽勝率、教練季後賽勝率、教練總冠軍次數、最佳教練次數。
變量分析:一個好的球隊必定需要一個好的教練,馬刺之所以能長盛不衰,離不開波波維奇的偉大,因此我們將教練作爲一個重要的維度來參考。教練的經驗和履曆是一個球隊在漫長的賽季中能保持競爭力的重要條件。
球隊:球隊所在城市是否爲大城市,球隊總薪資和薪資占聯盟總薪資比例,球隊上個賽季的排名,球隊近三個賽季的平均排名,總冠軍數量,總決賽次數。
變量說明:球隊本身的文化和底蘊和所在的城市對球隊的成績也有重要影響,球隊的總薪資和最近幾個賽季的表現也對新賽季球隊的成績有著重要的預測作用。
二預測模型
我們采用的方法是隨機森林,這是一種利用多棵樹對樣本進行訓練並預測的一種分類器,准確率很高,且對于缺省值也能取得很好的效果。在機器學習中,隨機森林是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的衆數而定。決策樹相當于一個大師,通過自己在數據集中學到的知識對于新的數據進行預測。但是俗話說得好,一個諸葛亮,玩不過三個臭皮匠。隨機森林就是希望構建多個臭皮匠,希望最終的分類效果能夠超過單個大師的一種算法。
隨機森林的優點:
(1)可以得到産生高准確度的預測結果。
(2)它可以處理大量的輸入變量。
(3)自動判斷各個變量的重要性。
(4)在建造森林時,它可以在內部對于一般化後的誤差産生不偏差的估計。
(5)對于不平衡的分類數據集來說,它可以平衡誤差。
(6)可以被延伸應用在未標記的數據上,這類數據通常是使用非監督式聚類。
(7)學習過程快速。
預測結果
通過構建一個200棵決策樹的隨機森林,我們得到了如下的一個預測結果。
東部球隊排名預測
西部球隊排名預測
從預測結果來看,最終的預測排名和主流的大致預期還是比較一致的,根據曆史數據來看,勇士隊和凱爾特人隊極有可能會登頂東西部,這和我們大部分人的預期是一致的。值得注意的是,洛杉矶湖人隊在預測結果裏面很遺憾的墊底,克利夫蘭騎士隊高居第三,這顯然和大部分人的預期不相符合,這是因爲數據分析只能從數據得出結論,更多的是根據曆史數據的一種統計學上的推斷,我們的模型沒有考慮到“小皇帝”詹姆斯的巨大影響力,這也是數據分析中最大的難點。
但是,我們也得到一些眼前一亮的結果,太陽隊雖然17-18賽季的成績不是很理想,但是新賽季的預測中,太陽隊的進步還是很明顯的,這得益于太陽隊有很多年輕球員,存在巨大的潛力。另外,也有一些球隊的預測結果和實際預期相差比較大,說明我們的模型還需要進一步優化。
另外,我們也得出了一些有意思的結論,東西部球隊都是通過統一的模型進行預測,但是從結果來看,東部球隊的排名權重相比于西部球隊更加大。我們用東部球隊的排名權重減去西部球隊的排名權重(權重越低,排名越靠前),發現從第一到第十五名,大多數都是大于0的,說明西部球隊的總體成績更好,競爭也會更加激烈,這也符合NBA聯盟西強東弱的主流觀點。
模型改進:我們在新模型中加大了球隊在近幾個賽季的成績的權重,另外考慮到詹姆斯這類巨星的影響,以及各個球隊換教練,交易等因素,統計了這些因素對排名權重的影響,對模型進行了修正。
修正後的預測結果
東部球隊排名預測
西部球隊排名預測
預測結果畢竟是基于曆史數據,體育競技的魅力在于不確定性,傷病因素,球隊的磨合情況,球隊的更衣室文化,年輕球員的成長也是重要的影響條件,但是這些很難使用數據去量化,因此我們的預測也僅僅只是一個參考。
沒想到吧,數據分析居然這麽有意思?
掃描二維碼,關注指南者學院
打開數據分析新世界!