scikit-learnのサンプルToy Datasetsデータセット
scikit-learnのデータセットにはすぐに使えるようにいくつかのサンプルデータがありますが、バージョンによって入れ替わっていたりします。
サンプルデータにはToy DatasetsとReal World Datasetsがありますが、今回はよく使われるトイ・データセットを読み込んでみます。
sklearn.__version__: 0.24.2
- import numpy as np
- #両方呼ばないとdatasetsは使えません
- import sklearn
- from sklearn import datasets
- # sklearn.datasetsのトイ・データ一覧を取得する関数
- def datasets_list():
- module = sklearn.datasets
- setlist = dir(module)
- #print(setlist)
- for funcname in setlist:
- if "load_" in funcname:
- # サンプルデータ以外の関数を弾きます
- if "load_file" in funcname:
- pass
- if "load_s" in funcname:
- pass
- else:
- print(funcname, end=": ")
- print(list(getattr(module, funcname)().keys()))
- datasets_list()
load_boston
['data', 'target', 'feature_names', 'DESCR', 'filename']
load_breast_cancer
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']
load_diabetes
['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename']
load_digits
['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR']
load_iris
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']
load_linnerud
['data', 'feature_names', 'target', 'target_names', 'frame', 'DESCR', 'data_filename', 'target_filename']
load_wine
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names']
古いバージョンなのでbostonデータセットがあります。
それぞれBunchオブジェクトを返しますが、これを見ると、各メソッドのキーは同じ名前はあるもののそれぞれ数が違っています。
データが回帰や分類に使うなど用途が異なる理由もあるのでしょう。
0 件のコメント:
コメントを投稿