aboutTiny Q for Web ver 1.0

「Tiny Ｑ」とは？
「対話型変数選択法」とは？
Tiny Ｑ for Web の操作方法
注意事項
参考文献
用語の説明
謝辞

Tiny Q とは？

　Tiny Ｑは「対話型変数選択法」による重回帰分析プログラムです。本プログラムは、多変量解析プログラム「まるば」を参考にして開発されています。「まるば」は、小林龍一立教大学名誉教授によって開発されたもので、重回帰分析・主成分分析・数量化１類・数量化２類・数量化３類・数量化４類などの多変量解析ができるという本格的なプログラムです。これに対して Tiny Ｑは「まるば」の「対話型変数選択法」に基づく重回帰分析のみを実現するプログラムです。Tiny Q はMacOSX版(Cocoa-Java)、Windows版（配布再開）、Pure Java版がありましたが、このページでは Web版について説明しています。

トップへ

「対話型変数選択法」とは？

　Tiny Q を使えば、重回帰分析における説明変数の選択を対話的に行うことができます。以下、変数を選択するときの手順を簡単に説明します。
　まず、それぞれの説明変数について「変数選択のためのＦ-値」を計算します。このＦ-値が最も大きな変数が、計算上最も説明力のある変数です。あなたは、分析の理論的含意を考慮しながら、Ｆ-値の高い変数を順番に説明変数として取り込んでいきます。大まかな目安としてF-値が２より大きいものを説明変数に取り込みます。最終的にＦ-値が２以上のものがなくなれば計算は終了します。

トップへ

Tiny Q の操作方法

　ここでは Web版を使った分析を紹介します（他のバージョンでも基本的な使い方は変わりません）。
　はじめに、分析内容を簡単に説明しておきましょう。ここで取り上げる例は、企業規模や勤続年数を説明変数とした大卒男女の賃金構造の分析です。データは『賃金センサス』（2001年版）を使います。なお、この事例に関しては、蓑谷千凰彦『計量経済学　第３版』1997年（スタンダード経済学シリーズ、東洋経済新報社）を参考にしました。

　データ・ファイルの構造は以下のとおりです。データの１行目にはデータ・ラベルとする必要があります。

sex	year	scale1	scale2	wage
1	0	1	0	2744.88
1	1.5	1	0	3456
1	3.5	1	0	3995.64
...	...	...	...	...

　この他に性別×勤続年数（sex*year）、規模１×勤続年数（scale1*year）、規模２×勤続年数（scale2*year）を加えています。

＜注＞
ここで、賃金は第１巻第２表「年齢階級、勤続年数階級別所定内給与および年間賞与その他特別給与額」から、｢所定内給与額｣×12＋｢年間賞与等｣としました。
また、勤続年数（year）、性別（sex）、企業規模（scale）は、以下のようにコーディングします。

year :1-2年=1.5, 3-4年=3.5, 5-9年=7,...
sex :male=1, female=0
scale1: 1000人以上=1
scale2: 100-999人=1

（１）TinyQ の起動
　まずソフトウェアを起動します。Web版なので Tiny Q のWebサイトを開きます。ページを保存すればネットに繋がっていなくても動作するアプリケーションとして実行できます（Mac の Safari の場合、「別名で保存」をクリックし、Webアーカイブ形式で保存すると、関連ファイルも一緒に保存されます）。
　画面右の「show instructions」をチェックすると操作方法に関する簡単な説明を表示します。

（２）データをインポートする
　次にデータをインポートします。クリップボードからデータをインポートするか、CSV形式のデータをファイルからインポートすることができます。
　クリップボードからインポートする場合は、［start calculation］ボタンをクリックするとテキストエリアが表示されるので、ここに Excel などからコピーしたデータをペーストし、［import data］ボタンをクリックします。CSV ファイルからインポートする場合は［ファイルを選択］ボタンをクリックし、ファイルを選択するとテキストエリアにデータが入力されるので、同様に［import data］ボタンをクリックします。　すると、被説明変数を選択するためのセレクトボックスが表示されるので、wage を選び [select dependent variable]をクリックします。

（３）説明変数の選択
　被説明変数を選択すると被説明変数（dependent variable）が wage と表示され、その下には各変数のF-値が表示されます。F-値が最も大きい変数が最も説明力のある変数です。このF値を参考にして、回帰式に説明変数を取り込んでいきます。変数を取り込むと、F-値がマイナスになります。最初は回帰式に定数項だけがが取り込まれた状態になっています。
　F-値が最も大きいのが勤続年数（year）の 351.395... なので、この変数をモデルに取り込みます。year の行をクリックすると変数が回帰式に取り込まれ、F-値が再計算されます。同様に、説明力の高い変数を選択していきます。変数を選択するかどうかの基準は、F 値の絶対値が 2 より大きいかどうかを目安とします。

（４）結果の表示
　性別（sex）、勤続年数（year）、規模１×勤続（scale1-year）、規模２×勤続（scale2-year）の４つの変数を選択した段階で、F-値が2 を上回る変数がなくなりました。これで分析は終わりです。［end calculation］ボタンをクリックして、分析結果を表示してみましょう。決定係数（R^2）、自由度修正済み決定係数（ajusted R^2）、説明変数の行列式の値（det.）、各変数の偏回帰係数（coefficient）と標準偏回帰係数（std. coefficient）t 値が表示されます。

重決定係数（R^2）	0.973697
自由度調整済みR^2	0.971550
説明変数の行列式（det.）	0.523012	>0.0001

　wage = 3029.82832 + 765.17778 * sex + 152.36260 * year + 90.54067 * scale1-year + 51.86443 * scale2-year

　［copy to clipboard］をクリックすると、計算結果がクリップボードにコピーされるので、Excel 等に貼り付けることができます。

サンプル・データ

　このサイトで使用しているデータは以下からダウンロードすることができます。

ダウンロード
wageData01.csv(1.4KB)
トップへ

注意事項

　Tiny Ｑは「まるば」がもつ多様な機能のうち、ほんの１部を実現するに過ぎません。より高度な分析をしたい方は「まるば」をご参照下さい。また、統計学の基本やプログラムについての詳細な解説は省略しています。詳しくは参考文献をご覧下さい。

トップへ

参考文献

小林龍一『相関・回帰分析入門』日科技連出版社、1972年
小林龍一『パソコンによる統計解析』培風社、1983年
小林龍一『パソコンによる多変量解析』培風社、1984年
小林龍一『多変量解析プログラム　まるば』1996年（自費出版）

トップへ

用語の説明

【CSV形式のデータ】
　TinyＱで利用可能なデータファイルは、データ要素がカンマで区切られた形式、いわゆるCSV（Comma Separated Value）形式に限られる。CSV形式のファイルは一般的な表計算ソフトで利用可能である。第1行目はデータラベルを入力しておく必要がある。

【変数選択用のＦ値】
　回帰分析において、各変数の説明力は、一般に編回帰係数をその標準偏差で割ったｔ値で判断される。「まるば」や Tiny Ｑにおける変数選択用のＦ値は、このｔ値の２乗である。厳密には、Ｆ値の絶対値を、自由度１、n−k−1のＦ分布の上側５％点と比較して検定する（nはデータ数、kは変数の数）。しかし、通常はＦ値が２以上であれば変数に説明力があると考えて変数を取込む。このプログラムでは取込んだ変数のF値はマイナスの値になっていることに注意。<

【多重共線性】
　多重共線性とは、変数間の相関関係が非常に高い状態を指す。説明変数間に多重共線性が存在すると、偏相関係数の値が不安定になったり、その統計的有意性が低下したりする。Tiny Ｑでは相関行列の行列式を計算しているが、この値が0.1^(k-1) より小さい場合は多重共線性の疑いがある。

【標準偏回帰係数】
　編回帰係数を標準偏差で修正したもので、この値が大きい変数ほど被説明変数Ｙに対して影響力が大きい。

トップへ

謝辞

　本プログラムの開発にあたり、「まるば」の開発者である小林龍一先生にアドバイスをいただきました。心から感謝いたします。
　また、東京情報大学助教授（当時）の内田治先生には、本プログラムの誤りを指摘していただいたうえ、有益なコメントをいただきました。この場をかりてお礼申し上げます。

トップへ