対応分析と数量化分析

対応分析はクロス集計表の変数間の関係をグラフィカルに探索する手法である。Rでは様々なやり方で実行できるが、 (Quick-Rでは) Nenadic and Greenacreによるca パッケージの使用を薦める。

caパッケージは多重対応分析 (3つ以上のカテゴリカル変数を分析) にも使用できる。

単純な対応分析

# 足立浩平 (2006). 多変量データ解析法――心理・教育・社会系のための入門―― ナカニシヤ出版 の第13章から
# p130, 表13.4 (C) の分割表データ
x <- c(4, 4, 1, 2, 8, 6, 1, 6, 2, 0, 0, 4, 0, 0, 5, 0, 2, 5, 4, 0) tab <- as.table(matrix(x, nr=5, dimnames= list(c("g", "w", "l", "e", "a"), c("shi", "rek", "und", "kang"))))
tab

cprp(tab) # 行パーセントと列パーセント

# caパッケージ、ca関数で分析
library(ca)
fit <- ca(tab)
fit # 列カテゴリーは教科書と一致。他はSPSSとは一致しない 表13.5参照
summary(fit)

plot(fit) # 図13.3とおおむね同じ
plot(fit, mass = TRUE, contrib = "absolute", map = "rowgreen", arrows = c(FALSE, TRUE)) # 非対称プロット

最初のグラフは行と列の数量化得点 (?) をプロットした、対応分析では標準的なもの。プロット点が近いほど類似していることを示す。

correspondence analysis 1 click to view

2番めのグラフは非対称グラフで、行は固有値 (pricepal coordinates) 、列は標準化残差をプロットしたもの。プロット点のまとまりは矢印であらわされる。プロット点の濃さは行の値の絶対値に対応している。

correspondence analysis 2 click to view

 

そのうちリンクから調べよう

数量化III類=カテゴリカル変数の主成分分析=対応分析 (コレスポンデンス分析) 。分割表の比率データを標準化 (数量化) し、主成分分析をほどこしたものに等しい。
数量化I類=ダミー変数を用いた重回帰分析
数量化II類=ダミー変数を用いた判別分析

相対尺度法 (dual scaling) 、最適尺度法 (optimal scaling) 、等質性分析 (homogenuity analysis) 、対応分析 (corespondence analysis) 、多重対応分析・多重応答分析・同コレスポンデンス分析 (multiple correspondence analysis) 、数量化3類 (quantification method III, third method of quantification) 、主成分尺度分析 (principal components of scale analysis) 、質的データの要因分析 (factorial analysis of qualitative data) は似たようなもの。