Loading [MathJax]/extensions/tex2jax.js

2024年7月20日土曜日

scikit-learnのデータセット

scikit-learnのサンプルToy Datasetsデータセット 

scikit-learnのデータセットにはすぐに使えるようにいくつかのサンプルデータがありますが、バージョンによって入れ替わっていたりします。

サンプルデータにはToy DatasetsとReal World Datasetsがありますが、今回はよく使われるトイ・データセットを読み込んでみます。

sklearn.__version__: 0.24.2


  1. import numpy as np  
  2.   
  3.   
  4. #両方呼ばないとdatasetsは使えません  
  5. import sklearn  
  6. from sklearn import datasets  
  7.   
  8. # sklearn.datasetsのトイ・データ一覧を取得する関数  
  9. def datasets_list():  
  10.     module = sklearn.datasets  
  11.     setlist = dir(module)  
  12.   
  13.     #print(setlist)  
  14.   
  15.     for funcname in setlist:  
  16.         if "load_" in funcname:  
  17.             # サンプルデータ以外の関数を弾きます  
  18.             if "load_file" in funcname:  
  19.                 pass  
  20.             if "load_s" in funcname:  
  21.                 pass  
  22.             else:  
  23.                 print(funcname, end=": ")  
  24.                 print(list(getattr(module, funcname)().keys()))  
  25.                   
  26.                   
  27. datasets_list()  


load_boston
['data', 'target', 'feature_names', 'DESCR', 'filename']

load_breast_cancer
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']

load_diabetes
['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename']

load_digits
['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR']

load_iris
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']

load_linnerud
['data', 'feature_names', 'target', 'target_names', 'frame', 'DESCR', 'data_filename', 'target_filename']

load_wine
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names']


古いバージョンなのでbostonデータセットがあります。
それぞれBunchオブジェクトを返しますが、これを見ると、各メソッドのキーは同じ名前はあるもののそれぞれ数が違っています。
データが回帰や分類に使うなど用途が異なる理由もあるのでしょう。

0 件のコメント:

コメントを投稿

Pythonで地図空間データを扱う⑤

ベースの地図が出来た所で、他のデータを被せてみます。 国土地理院の  500mメッシュ別将来推計人口データ  を使用します。 同じく神奈川県のデータ  500m_mesh_suikei_2018_shape_14.zip をダウンロードします。 ベースの地図データと同じ場所に展開...