2024年7月20日土曜日

scikit-learnのデータセット

scikit-learnのサンプルToy Datasetsデータセット 

scikit-learnのデータセットにはすぐに使えるようにいくつかのサンプルデータがありますが、バージョンによって入れ替わっていたりします。

サンプルデータにはToy DatasetsとReal World Datasetsがありますが、今回はよく使われるトイ・データセットを読み込んでみます。

sklearn.__version__: 0.24.2


import numpy as np


#両方呼ばないとdatasetsは使えません
import sklearn
from sklearn import datasets

# sklearn.datasetsのトイ・データ一覧を取得する関数
def datasets_list():
    module = sklearn.datasets
    setlist = dir(module)

    #print(setlist)

    for funcname in setlist:
        if "load_" in funcname:
            # サンプルデータ以外の関数を弾きます
            if "load_file" in funcname:
                pass
            if "load_s" in funcname:
                pass
            else:
                print(funcname, end=": ")
                print(list(getattr(module, funcname)().keys()))
                
                
datasets_list()



load_boston
['data', 'target', 'feature_names', 'DESCR', 'filename']

load_breast_cancer
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']

load_diabetes
['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename']

load_digits
['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR']

load_iris
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']

load_linnerud
['data', 'feature_names', 'target', 'target_names', 'frame', 'DESCR', 'data_filename', 'target_filename']

load_wine
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names']


古いバージョンなのでbostonデータセットがあります。
それぞれBunchオブジェクトを返しますが、これを見ると、各メソッドのキーは同じ名前はあるもののそれぞれ数が違っています。
データが回帰や分類に使うなど用途が異なる理由もあるのでしょう。

0 件のコメント:

コメントを投稿

nba_apiを使いNBAデータを取得する

NBAデータ取得 NBAデータを分析する場合には、まず最初にデータ取得が必要です。 Kaggleなどのデータサイトから検索してもいいし、データサイトからスクレイピングしてる方もいると思います。 そしてPythonのライブラリからもNBAデータを提供してるものがあるので、それを使っ...