natto top

Nattoによるデータ分析について
実例でご紹介します。

チュートリアル

サンプルデータを使って、Nattoを使った実際のデータ分析の例をご紹介いたします。

サンプルデータ

下記のデータは米国ボストンの506地点について、一戸建て家屋の住宅価格と関連する様々な指標を調査したデータ(抜粋)です。行が観測地点、列が変数(指標)に対応したCSV形式のテキストファイルで、変数間の相互関係と、それぞれが住宅価格に及ぼす影響を知ることが目的です。

市名住宅価格犯罪率可住地域率工業地域率...
Nahant240.00632182.31...
Swampscott21.60.0273107.07...
Swampscott34.70.0272907.07...
Marblehead33.40.0323702.18...
Marblehead36.20.0690502.18...
Marblehead28.70.0298502.18...
Salem22.90.0882912.57.87...
Salem22.10.1445512.57.87...
Salem16.50.2112412.57.87...

(出展:Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management)


データファイルの選択

「ファイル」⇒「新規プロジェクト」をクリック、データファイルを選択します。



データの読み込み

ファイルの先頭に変数名が入っているか、区切り文字はカンマかスペースか…などを指定し、「次へ」をクリックします。



次にデータ内容をプレビューで確認します。「市名」は分析に用いないのでチェックを外し、「次へ」をクリックします。>



変数の分割

Nattoでは変数を区間に分けたカテゴリーを作成して分析を行います。「レコード数で均等に分割」を 「4分割」に設定し、他はデフォルトのまま「次へ」をクリックします。




分割の結果を確認し、必要に応じて再分割を行います。ここではそのまま「OK」をクリックします。



グローバルモード

いよいよ分析を始めます。ウィンドウ右上のメインビューでは、関連の強い変数同士が矢印で結ばれて表示します。変数の予測力を表す「説明力スコア」が一定の値より高い組み合わせのみが表示され、左のスライダーでスコアのしきい値を設定することができます。「再レイアウト」ボタンをクリックすると、グラフの再レイアウトが行われます。



ノードの選択

ノード(変数を表すグラフ上の円)を選択すると、周辺の変数が強調表示されます。方向指定ボタンを押すことで、強調表示する矢印の方向性を指定することもできます。




クロス集計表


クロス集計表ボタンを押すと、強調表示されたノード同士の関係をクロス集計表で確認することができます。



相関ルール探索

ルール探索ボタンを押すと、強調表示された変数同士の相関ルールを探索するローカルモードが呼び出されます。相関ルールとは「AならばBである」であるといった形で表され、「良い」ルールの探索を行います。ルールの「良さ」を測る指標には様々なものがあり、ローカルモードではグローバルモードと同様の操作で、各種の指標を用いた相関ルールの探索を行うことができます。



分析例

「住宅価格」に向かう矢印について、説明力スコアが12%以上のものを抽出しました。この図から、住宅価格にはさまざまな変数が影響を与えますが、これらは住宅そのもののスペックである「住宅内平均室数」とそれ以外の環境要因に大きく分けられることがわかりました。詳細な関係はクロス集計表や相関ルール探索で確認することができます。