年齢別のあるデータセットからNBA選手の年齢データを割り出してみます。
データセットの範囲 1950年〜2017年
Year Player Age Tm G GS MP PER FG 3P FT FTA ORB DRB TRB AST STL BLK TOV PF PTS PPG
0 1950.0 Curly Armstrong 31.0 FTW 63.0 NaN NaN NaN 144.0 NaN 170.0 241.0 NaN NaN NaN 176.0 NaN NaN NaN 217.0 458.0 7.27
1 1950.0 Cliff Barker 29.0 INO 49.0 NaN NaN NaN 102.0 NaN 75.0 106.0 NaN NaN NaN 109.0 NaN NaN NaN 99.0 279.0 5.69
2 1950.0 Leo Barnhorst 25.0 CHS 67.0 NaN NaN NaN 174.0 NaN 90.0 129.0 NaN NaN NaN 140.0 NaN NaN NaN 192.0 438.0 6.54
3 1950.0 Ed Bartels 24.0 TOT 15.0 NaN NaN NaN 22.0 NaN 19.0 34.0 NaN NaN NaN 20.0 NaN NaN NaN 29.0 63.0 4.20
4 1950.0 Ed Bartels 24.0 DNN 13.0 NaN NaN NaN 21.0 NaN 17.0 31.0 NaN NaN NaN 20.0 NaN NaN NaN 27.0 59.0 4.54
- import matplotlib.pyplot as plt
- import seaborn as sns
- fn = "data/Seasons_Stats.csv"
- df = pd.read_csv(fn, index_col=0)
- print("最低年齢: ", df['Age'].min())
- print("最高年齢: ", df['Age'].max())
- print(df['Age'].value_counts())
- bins = len(df['Age'].value_counts())
- print(bins)
- # 年齢分だけbinsを分けます
- plt.hist(df["Age"], bins=bins)
- plt.title("NBAの年齢分布(1950〜2017)")
- plt.xlabel("年齢")
- plt.ylabel("人数")
- plt.show()
長く続けるのは、体調管理や怪我などある中、相当厳しい世界だと見て取れます。