美国职业篮球联赛的评选规则介绍及评选

domian@zhuying.com|
102

01

背景介绍

美国职业篮球联盟(NBA),简称NBA,是由北美30支职业球队组成的男子职业篮球联赛。 它是美国四大职业体育联盟之一。 赛事从10月持续到次年6月,历经常规赛、全明星赛、季后赛,最终通过季后赛争夺当季冠军球队。 NBA不仅是一项竞技体育赛事,本质上还是一个商业联盟。 大多数团队都是企业家私人拥有的。 各团队管理层积极经营团队,提升团队竞争力,角逐荣誉奖项。 最终目的是为自己的球队和整个联盟创造商业价值。 据统计,2023-2023赛季(2023年NBA因疫情停摆,商业数据不做参考)NBA总收入为76.78亿美元,可见其相当的吸引能力钱。

NBA的商业价值主要来自门票收入、转播权和场外赞助商。 其中,门票收入和收视率主要受球队自身号召力影响,但球星的明星效应也不容忽视。 当球队拥有一位深受广大球迷喜爱的球星时,无论是现场观看比赛还是在线转播,都会吸引额外的关注度,增加商业收入。 不仅如此,球队拥有这些球星,也会提升球队的战斗力和竞争力,让球队更容易在常规赛打出出色的战绩,往往能够在淘汰赛中走得更远。 这意味着,这些球队能够在更高的竞技舞台上吸引更多球迷群体和舆论媒体的关注,从而产生比那些没有明星球员、战绩不佳的球队更多的商业收入。

这些能够通过个人在场上的影响力,为球队战绩做出贡献,甚至创造远超普通球员商业价值的球星,就是球队管理层和球迷群体定义的“全明星”(All Stars)。 全明星评选规则根据球迷、球员和篮球媒体的投票(分别占50%、25%和25%的权重)选出20多位赛季表现出色的球员出战本届全明星赛。全明星赛。 全明星赛旨在将优秀的球员聚集在一场比赛中,通过明星效应树立联盟的品牌形象。 入选全明星可以综合体现球员出色的个人能力和对球队战绩的突出贡献,而这种综合能力往往伴随着球迷群体中的高人气。

以勇士为例。 2023年,乔-拉科布等人以4.5亿美元买下了勇士队。 当时,勇士队的市值为1.88亿美元。 在乔-拉科布的操作下,勇士队先后培养和招揽了斯蒂芬-库里、克莱-汤普森、德雷蒙德-格林、凯文-杜兰特等全明星球员,让他们成为联盟的“明星”。 王朝队”。十年期间,通过这些全明星球员的出色表现,勇士队5次进入总决赛,3次夺得总冠军,产生了巨大的宣传影响力和票房号召力,让勇士队市值飙升41亿美元。此外,联盟第一人勒布朗-詹姆斯连续17次入选全明星,他的球队一直处于总冠军第一梯队。全年带领球队10次打进总决赛,为热火、骑士、湖人创造了大量的商业利益。

因此2020nba季后赛数据统计,在年度全明星投票结果揭晓之前,对全明星阵容的预测对于球队管理层和球迷群体来说都具有非常重要的参考意义。 首先,在全明星赛之前的一段时间,联盟允许球队招募和交易球员。 战绩更好,从而提升球队的商业价值。 因此,他们需要在全明星赛前预测哪些球员会入选全明星赛,也就是哪些球员被招入或者交易到球队后,会提升球队的实力。 现阶段,虽然NBA记录了每位球员的全方位技术统计数据,但没有一个单一的指标能够反映球员的整体能力,因此很难有效预测全明星阵容。 此外,“全明星预测”作为球迷群体和舆论媒体的热门话题,每年都吸引了大量流量,间接提升了NBA的影响力和商业价值。 球迷群体在做出全明星预测时往往主观情绪比较强,所提供的数据基础也没有统一的标准,因此每年的全明星评选结果很难达成共识。

本文将通过球员的个人数据、比赛表现对球队的影响以及球队的战绩来预测球员能否进入本赛季的全明星阵容,综合各项数据指标对球员进行综合评价。 首先建立球员各项指标与球员当赛季影响力(即是否入选全明星)之间的逻辑关系,训练模型。 球队管理层可以在全明星结果公布前将模型应用到球员数据中,预测球员能否入选当季全明星阵容,从而为球队运营和阵容补强做出决策. 根据得到的逻辑关系,为各个指标分配权重。 得分的权重越大,该指标对预测球员能否入选全明星的作用就越大。 最后根据各项指标的得分权重相加,得出球员的得分模型,为球迷评价“球员是否值得入选全明星”提供全面、统一、有说服力的数据依据。 -星星”。

02

资料介绍及说明

样本数据爬取自网站(),一共534个观察值,每个观察值代表球员曾为30支NBA球队效力的数据(所有数据均取自2023赛季)。 数据一共包含14个变量,其中因变量为“本赛季是否入选全明星”,其余13个自变量包含球员个人信息和比赛数据。 其中,比赛数据的技术统计部分是NBA历年使用的基本指标,球迷群体能够理解和接受。 进阶数据部分是基于近年来流行的复杂算法的统计指标,深度衡量球员在场上的价值。 它通常用于团队管理。 图层作为参考。 详情见表 1。

03

描述性分析

(一)球员总体情况

抢先了解每年的全明星选择是如何做出的。 2023年534名NBA球员中,共有25人入选当赛季全明星阵容,占比4.2%。 2023年、2023年、2023年入选全明星的人数分别为28人、27人、27人,全赛季球员占比全年稳定在4%左右。 可见NBA的全明星评选在近几年一直保持着。 比较统一稳定的高标准。 这使得在全明星评选标准没有明确改变的前提下,使用2023年样本建立的模型对于未来各赛季全明星阵容的预测仍然具有参考意义。

提供样本数据自变量的整体描述,从而了解NBA球员个人信息和场上数据的概况。 图 1 显示了所有球员的年龄和位置分布的饼图。

图1 所有球员年龄和场上位置饼图

从场上位置饼图可以看出,各个位置的出场比例是均衡的,体现了各个位置相对均衡的战术状态。 从年龄饼图可以看出,23岁以下的年轻新秀和巅峰时期28-31岁的球员占据了NBA球员的主体,各占总数的三分之一以上,体现了重要性每支球队都在培养年轻球员。 对潜在球员的大力支持和对招募处于巅峰期球员以加强球队的热情。 24-27岁的占比最少,仅为1.1%。 这可能是因为在进入巅峰时期,大量年轻球员因为竞技实力不符合NBA的需要而被淘汰,导致功亏一篑。 这样的年龄分布符合NBA联盟选拔球员的客观规律,即虽然NBA每年都会通过选秀招募大量新秀,但经过场上的大量筛选,他们都有实力留下来在NBA,提高球队的竞技实力,为球队创造商业利益。 球员往往处于巅峰时期或经验丰富的老将。

(2) 技术统计的描述性分析

技术数据是球员在场上对球队贡献最直接的表现。 入选全明星的球员往往在某项或某项技术数据上更胜一筹。 不论场上位置如何,全明星球员和非全明星球员的技术统计如图2所示。

在图2(a)中,全明星球员的总得分明显高于非全明星球员,全明星球员场均得分在20分以上。 可见,高分在一定程度上影响了全明星球员的入选。 事实也证实了这一点。 篮球比赛本质上是得分比赛。 球队的胜利取决于球员的得分能力,而高分则来自于球员强大的进攻能力和华丽的进攻手段。 拥有这种能力的球员在赛场上更具观赏性,在全明星投票阶段也往往更受球迷、球员和媒体的青睐。 图2(b)(c)(d)中,全明星球员场均助攻、场均篮板、场均盖帽的整体水平也高于非全明星球员,但有一个非全明星中有很多异常值,这些极端情况表明这些数据中也有大量的非全明星球员。 这不难理解。 一方面,这些数据对比赛的影响没有得分贡献那么直观,所以对入选全明星的影响比较小。 另一方面,这些数据并没有像场均得分那样在各个位置都有出色的球员。 它们通常具有某些功能。 例如,中锋和大前锋是专职篮板手和防守者。 这方面的数据普遍高于担任后卫的球员。

为此,根据不同技术统计的功能,将数据按场上位置进行细分。 篮板球和盖帽数是衡量中锋和大前锋的主要指标。 助攻和失误是衡量后卫(控球后卫和得分后卫)的主要指标。 分组箱线图分别如图 3 和图 4 所示。

从图3的结果来看,还是有一些异常值,因为篮板和盖帽并不是衡量中锋和大前锋的唯一指标。 比如传统的内线大闸安德烈-德拉蒙德,他的场均篮板、场均盖帽分别高达15.2次和1.6次,即使在全明星球员中也属于中上水平,但他的赢球贡献和正负值并不突出,而他所在的球队战绩垫底,说明他已经拿出了华丽的防守数据,并不能有效带领球队取得胜利,这也是他没有入选全明星的原因。 剔除这些异常值后,全明星在两项指标的整体水平要高于非全明星。 可见,出色的篮板能力和盖帽能力,依然能够影响中锋和大前锋入选全明星。

在图4(a)中不难发现,全明星后卫整体水平高于非全明星后卫,非全明星后卫的最大值勉强达到中等水平全明星后卫。 然而,图4(b)显示,全明星后卫的平均失误率也高于非全明星后卫,这与常识相悖。 不难理解,全明星后卫作为球队的核心球员,往往会大量支配球权,控球时间越长,往往失误越多。 结合他们的上场时间或助攻/失误比。 2023年转型后卫的联盟巨星勒布朗-詹姆斯,当赛季场均失误3.9次,远超联盟平均水平2020nba季后赛数据统计,但他以10.2次助攻成为当季助攻王。 一般认为助攻/失误比大于2的就是优质后卫,但他的助攻/失误比却高达2.62,是名副其实的“控场大师”。 由此可见,场均失误不能单独作为衡量后卫的一个因素。 因此,在后续的建模分析中,还考虑了场均助攻数和场均失误数的交叉影响。

(3) 高级数据描述分析

高级数据不像技术统计那样可以直接影响球队的比赛数据,而是更全面地衡量一个球员对比赛胜负的影响,所以高级数据比技术统计更受球队管理层的重视。 图 5 显示了四个高级数据的分组箱线图。

从图5可以看出,四项指标的综合水平优于全明星球员。 之所以在非全明星球员中存在大量异常值,是因为数据中也包含了大量被边缘化的替补球员。 但实际上他们的出场时间非常有限,数据已经没有意义了。

04

模型构建和解释

(1) 逻辑回归模型

将所有变量纳入逻辑回归模型会导致系数的标准误差较大,影响预测结果的可靠性。 根据AIC信息准则采用逐步回归方法选择变量。 最后,当AIC=52.368时,年龄、球队胜率、场均得分、场均助攻、场均篮板、场上正负值被选入logit模型。 训练集和测试集按照7:3划分,各个因变量的分布与整体一致。 对训练集进行拟合,结果如表2所示。

模型似然比统计量的p值小于0.001,模型整体拟合效果显着。 伪决定系数R^2=0.7079,反映了各变量对预测结果的良好解释能力。 表2中回归系数估计为正的变量,其值越大,越倾向于预测该球员将入选全明星。 具体来说,当其他变量保持不变时,该变量每增加1个单位,预测概率的优势比就会增加。 赔率的对数增加相应的系数单位。 从表2可以看出,除了年龄的增加不利于提高入选全明星的概率外,其他变量的增加都可以提高预测概率,但p值每场比赛的平均得分为 0.244,与其他变量相比不是很显着。 将拟合逻辑回归模型应用于测试集,AUC值为0.8792,整体预测效果良好。

逻辑回归模型的优点是可以将球员数据代入线性函数,根据得到的回归系数估计logit(odds),形成评分系统。 得分越高,球员入选全明星的可能性就越大。 这对粉丝非常友好,因为可以通过简单的数值比较快速得出结论。

(2) 决策树

决策树算法可以对包含离散变量的数据进行树状结构的归纳分类。 现将样本数据集按照7:3的比例分为训练集和测试集,然后用训练集上交叉验证得到的平均AUC值来确定决策树的深度,得到相应的决策树图,如图7所示。它为一些重要的变量提供了阈值,并以树状图的形式提供了一个全明星的决策思路。

图6显示字段上的正值和负值是决策树首先考虑的变量。 对于场均正负值不超过3.35的球员,继续考察场均失误、场均得分、球队胜率; 对于场均正负值超过3.35的球员,继续考察他们的场均失误和球队胜率、场均抢断数。 由此可见,一个合格的全明星球员,他上场首先要保证球队有分差,才能帮助球队扭转落后局面或者扩大领先优势。 这不仅是球队获胜的方式,也是提高比赛水平的方式。 观看和吸引粉丝的必要条件。 值得注意的是,无论场上正负值高低,场均失误数高于相应阈值的球员更有可能成为全明星球员,因为全明星球员经常在球队中控制大量球权。 这时候通过考察助攻/失误比更容易得出一个常识性的判断,但这在决策树模型下是不能考虑的。 优秀的个人能力并不是决定一名球员能否入选全明星赛的唯一因素。 球队的胜率也起到决定作用。 奇才队的布拉德利-比尔场均可以得到30.5分,但是奇才队的胜率只有34.7%。 很难相信他的进球是在帮助球队赢球,而不是单纯的想丰富个人数据,追求个人荣誉。

将该决策树模型应用到测试集上,AUC值为0.8092,预测效果不如逻辑回归模型,但该模型仍具有一定的参考意义:(1)年度全明星阵容预测为体育新闻中的热点话题,球迷和媒体广泛参与,潜在的全明星球员吸引的流量可以创造大量的商业价值。 在这种背景下,被预测的球员不会因为没有入选全明星阵容而付出太多,所以模型可以在全明星前根据球员当赛季的历史数据来预测全明星阵容阵容公布。 (2)球队管理层倾向于招募全明星球员补强球队,这涉及到球员所在球队的变化,而球员所在球队的变化会影响他的“球队胜率”变量,因此预测准确率会有波动。 在进行预测之前,提前将目标球员的“球队胜率”变量更新为球队,可以为球队管理层提供足够小的全明星潜力球员名单。 球队管理层可以参考这份名单,结合其他条件和需求,从有潜力的全明星球员中招募适合球队的球员,从而提高球队的竞争力和商业价值。

(3) 随机森林

随机森林算法根据不同分类器的平均误差选择最有效的预测模型,并提供个体变量的重要性。 将随机森林模型应用于测试集,得到的AUC值为0.9869,比逻辑回归模型和决策树模型具有更好的预测效果。 各个变量的重要性如图7所示,从中我们可以直观的看出不同变量对全明星阵容预测的影响程度。

从图7可以看出,在随机森林模型拟合下,场上正负值对于入选全明星的决定明显比其他变量更重要。 考量一名球员是否有资格入选全明星的标准之一就是该球员能否凭借出色的个人能力带领球队取得胜利,但这一标准在过去一直难以执行。 个人能力往往是综合性的。 如果一个球员的防守能力极差,在他上场的时候,球队因为他的防守漏洞屡屡失分,那么他的进攻能力即使高于平均水平也是一文不值。 当人们意识到一个进球、一次精彩的传球、一次完美的防守甚至一个关键的篮板或盖帽都可能成为比分的转折点时,场上正负值的概念就出现了。 该指标通过一系列算法衡量一名球员上场后对球队得分趋势的影响,综合反映球员个人带领球队的能力。 因此,最符合入选全明星的考核标准,成为预测全明星阵容最重要的因素。 注意事项。

重要性排名第二和第三的变量是场均得分和场均助攻。 在一场比赛中,一名球员的得分和助攻数直接或间接从球员身上反映出球队的总得分,因此最能体现一名球员的进攻威慑力。 以勒布朗-詹姆斯为例,他在湖人队2023赛季场均总得分116.3分,而他在那个赛季的场均得分为25.3分,场均助攻10.3分,说明场均至少有46分是勒布朗贡献的詹姆士。 他直接或间接参与了收购,占球队总得分近40%,可见他在球队进攻中的核心地位。 场均得分和场均助攻的重要性排在所有变量的前两位。 由此可见,出色的进攻能力是入选全明星的首要考虑因素,而擅长防守的蓝领球员,比如防守冠军安德烈-德拉蒙德(场均篮板和盖帽高达分别为15.2和1.6),但他此刻未能获得足够的认可,体现了联盟“主攻二防”的比赛理念。

除了个人表现,从图7可以看出,球队的胜率也是全明星评选中不可忽视的一个因素。 在球迷的直观印象中,战绩出色的球队,往往拥有进攻能力更能体现价值的球员,更能得到球迷和媒体的认可。 球迷和媒体更倾向于选择最强球队的最强组合出现在全明星赛上。 这允许高获胜球队的球员在全明星投票期间获得球队奖金。 比如雄鹿队的米德尔顿场均20.9分4.3助攻,而马刺队的德罗赞场均22.1分5.6分。 星,主要原因是雄鹿队那个赛季的胜率领跑全联盟,高达76.7%,而马刺队只有45.1%的胜率。

05

结论与应用

通过拟合2023年NBA球员数据,分别得到逻辑回归、决策树、随机森林三种分类模型。 其中,随机森林模型的AUC值为0.9869,优于其他两个模型。 将随机森林模型应用于2023年全部465名NBA球员的数据,可以做出如表3所示的全明星阵容预测:

随机森林模型给出了表3中列出的总共27名预测的全明星球员及其对应的预测概率排名。 经考察,2023年全明星实际阵容为27人。 在预测名单中,其实有22名全明星球员入选,5名球员未入选全明星阵容(下划线),其余5名未被预测的全明星球员单独预测。 概率排名第28、29、30、32、33。预测结果的混淆矩阵为

,预测准确率为97.85%,预测效果良好。

在全明星阵容公布之前,根据这份名单,就可以提前知道哪些球员具备全明星的资格和综合能力。 球队可以在交易可行的前提下,将队内多名非全明星球员作为筹码。 薪水、交易得到心仪的全明星球员。 这个赛季已经结束了。 从结果来看,在斯蒂芬-库里的带领下,勇士队日后发力,但只取得了西部第九的战绩,未能闯入季后赛。 不过根据预测名单,综合球员位置和薪资水平,勇士队在全明星公布前的交易阶段就有补强的机会。 图 8 显示了其中一个交易计划。

勇士队的德雷蒙德-格林投射能力不足,霸占高薪合同却拖累了勇士队的进攻。 他的属性更适用于缺乏防守的掘金队。 大前锋与中锋位置不冲突。 以他和其他角色球员为筹码,交易掘金队中锋尼古拉-约基奇,球队大有希望闯入季后赛。 事实证明,尼古拉-约基奇不仅成功入选了全明星,甚至还在赛季后期一举拿下了常规赛MVP。 他的加盟将为勇士队的战绩和商业收入带来不小的提升。

逻辑回归模型和决策树模型的预测效果不如随机森林模型,但仍具有各自的参考意义。 不同的群体有着不同的目标,对NBA全明星阵容的预测和解读有着不同的要求。 球队管理层需要在全明星阵容公布前锁定全明星潜力球员的交易标的,决策树模型可以为他们提供准确的区间参考。 预测全明星阵容,作为每年的热门话题,一直被球迷和媒体炒作。 在不同的评价体系下很难得出一致的结论。 大家更关心的是如何衡量一名球员是否应该入选全明星。 当预测出现错误时,逻辑回归模型提供的评分系统可以对全明星预测问题给出统一的评分评价,量化的结果更容易被大众理解和接受。