Quick-Rであげられていた参考資料。CRANも参照。** はQuick-Rで超お勧めだそうだ。

そのほかのメモ

pdfの解説・入門

  1. P. Kuhnert & B. Venables, An Introduction to R: Software for Statistical Modeling & Computing [zipped]
  2. J.H. Maindonald, Using R for Data Analysis and Graphics
  3. B. Muenchen, R for SAS and SPSS Users. Web.**
  4. W.J. Owen, The R Guide
  5. D. Rossiter, Introduction to the R Project for Statistical Computing for Use at the ITC
  6. W.N. Venebles & D. M. Smith, An Introduction to R***みんなが勧める (version 1.7の日本語)

書籍

  1. M. Crawley, Basic Statistics: An Introduction using R (クローリー, M. J. 野間口謙太郎・:菊池泰樹 (2008). 統計学: Rを用いた入門書 共立出版)
  2. P. Dalgaard, Introductory Statistics with R (Rによる医療統計学 丸善)
  3. B.S. Everitt & T. Hothorn, A Handbook of Statistical Analyses Using R (Rによる統計解析ハンドブック メディカル・パブリケーションズ) **
  4. J.J. Faraway, Linear Models with R
  5. J.J. Faraway, Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models
  6. J. Maindonald & J. Braun, Data Analysis and Graphics Using R: An Example-based Approach
  7. P. Murrell, R Graphics (R グラフィックス: R で思いどおりのグラフを作図するために 共立出版)


私的参考資料。感謝。常に感謝。

ウェブサイト

書籍

  • 足立浩平 (2006). 多変量データ解析法――心理・教育・社会系のための入門―― ナカニシヤ出版
  • Aguinis, H. (2004). Regression analysis for categorical moderators. New York: Guilford Press.
  • Aguinis, H., Beaty, J. C., Boik, R. J., & Pierce, C. A. (2005). Effect size and power in assessing moderating effects of categorical variables using multiple regression: A 30-year review. Journal of Applied Psychology, 90, 94-107.
  • Aiken, L. S., & West, S. G. (1991). Multiple Regression: Testing and interpreting interactions . Newbury Park, CA: Sage.
  • Albert, J., & Bennett, J. (2003). Curve ball: Baseball, statistics, and the role of chance in the game. Springer. (アルバート, J., & ベネット, J. 後藤寿彦 (監修), 加藤貴昭 (訳) (2004). メジャーリーグの数理科学 上下巻 シュプリンガー・ジャパン)
  • 青木繁伸 (2009). Rによる統計解析 オーム社
  • 青柳 領 (2010). Rによるスポーツ統計学 櫂歌書房
  • 馬場浩也 (2005). SPSSで学ぶ統計分析入門 第2版 東洋経済新報社
  • Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Mahwah, NJ: Erlbaum.
  • Crawley, M. J. (2005). Statistics: An introduction using R. London, England: John Wiley & Sons. (クローリー, M. J. 野間口謙太郎・:菊池泰樹 (2008). 統計学: Rを用いた入門書 共立出版)
  • Everitt, B. (2005). An R and S-PLUS Companion to Multivariate Analysis. London, England: Springer. (エヴェリット, B. 石田基広・石田和枝・掛井秀一 (訳) (2007). RとS-PLUSによる多変量解析 シュプリンガー・ジャパン)
  • Everitt, B., & Hothorn, T. (2009). A handbook of statistical analyses using R 2nd edition. Chapman and Hall/CRC. (エヴェリット, B. 大門貴志・吉川俊博・手良向 聡 (訳) (2010). Rによる統計解析ハンドブック 第2版 メディカル・パブリケーションズ)
  • Fox, J. (2008). Applied regression analysis and generalized linear models (2nd ed.). Los Angeles: Sage.
  • 舟尾暢男 (2009). R流! イメージで理解する統計処理入門――データ解析の初歩から,シミュレーション,統計アプリの作成方法まで―― カットシステム
  • 古谷知之 (2008). ベイズ統計データ分析――R & WinBUGS―― 朝倉書店
  • Gigerenzer, G. (2002). Calculated risks: How to know when numbers deceive you. New York: Simon & Schuster. (ギーゲレンツァー, G. 吉田利子 (訳) (2010). リスク・リテラシーが身につく統計的思考法――初歩からベイズ統計まで―― 早川書房)
  • 南風原朝和 (2002). 心理統計学の基礎――統合的理解のために―― 有斐閣
  • 南風原朝和・杉澤武敏・平井洋子 (2009). 心理統計学ワークブック――理解の確認と深化のために―― 有斐閣
  • 廣瀬毅士・寺島拓幸 (2010). 社会調査のための統計データ分析 オーム社
  • Howell, D. C. (2002). Statistical methods for psychology (5th ed.). Boston: Duxbury.
  • Howell, D. C. (2010). Statistical methods for psychology (7th ed.). Belmont, CA: Cengage Wadsworth. amazon 2012版
  • 石村貞夫・石村友二郎 (2010). SPSSでやさしく学ぶ統計解析 第4版 東京図書
  • 狩野裕・三浦麻子 (2002). AMOS, EQS, CALISによるグラフィカル多変量解析――目で見る共分散構造分析 第2版 現代数学者
  • Kline, R. B. (2004). Beyond significance testing: Reforming data analysis methods in behavioral research. Washington, DC: American Psychological Association.
  • 宮本友弘・山際勇一郎・田中 敏 (1991) 要因計画の分散分析 において単純主効果検定に使用する誤差項の選択について 心理学研究,62,207-211.
  • Murrell, P. (2005). R graphics. Taylor & Francis. (マレル, P. 久保拓弥 (訳) (2009). Rグラフィックス――Rで思いどおりのグラフを作図するために―― 共立出版)
  • 中村永友 (2009). 多次元データ解析法 金 明哲 (編) Rで学ぶデータサイエンス 2 共立出版
  • 新村秀一 (1995). パソコンによるデータ解析――統計ソフトを使いこなす―― 講談社
  • 芝 祐順・南風原朝和 (1990). 行動科学における統計解析法 東京大学出版会
  • 繁桝算男・柳井晴夫・森 敏明 (2008). Q&Aで知る統計データ解析――DOs and DON'Ts―― 第2版 サイエンス社
  • Spector, P. (2008). Data manipulation with R. London, England: Springer. (スペクター, P. 石田基広・石田和枝 (訳) (2008). Rデータ自由自在 シュプリンガー・ジャパン)
  • Tabachnick, B. G., & Fidell, L. S. (2007). Using multivariate statistics (5th ed.). Boston: Allyn & Bacon. amazon
  • 田中 敏・山際雄一郎 (1997). ユーザーのための心理データの多変量解析法――方法の理解から論文の書き方まで―― 教育出版
  • 太郎丸 博 (2005). 人文・社会科学のためのカテゴリカル・データ解析入門 ナカニシヤ出版
  • 豊田秀樹 (1998). 共分散構造分析事例編――構造方程式モデリング 朝倉書店
  • 豊田秀樹 (1998). 共分散構造分析入門編――構造方程式モデリング―― 朝倉書店
  • 豊田秀樹 (2000). 共分散構造分析応用編――構造方程式モデリング 朝倉書店
  • 豊田秀樹 (2003). 共分散構造分析技術編――構造方程式モデリング 朝倉書店
  • 豊田秀樹 (2003). 共分散構造分析疑問編――構造方程式モデリング 朝倉書店
  • 豊田秀樹 (2007). 共分散構造分析理論編――構造方程式モデリング 朝倉書店
  • 豊田秀樹 (2009). 共分散構造分析実践編――構造方程式モデリング 朝倉書店
  • 豊田秀樹 (編著) (2009). データマイニング入門――Rで学ぶ最新データ解析―― 東京図書
  • Winer, Brown, Michels, 1991. Statistical Principles in Experimental Design (3rd edition). McGraw-Hill, New York.
  • 山田剛史・杉澤武俊・村井潤一郎 (2008). Rによるやさしい統計学 オーム社
  • 山田剛史・村井潤一郎 (2004). よくわかる心理統計 ミネルヴァ書房
  • 山際雄一郎・田中敏 (1992). ユーザーのための教育・心理統計と実験計画法――方法の理解から論文の書き方まで―― 教育出版
  • 吉田寿夫 (1998). 本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本 北大路書房
  • 吉田寿夫・森 敏昭 (1990). 心理学のためのデータ解析テクニカルブック 北大路書房

上記以外・随時更新・備忘録

データセット覚書

データライブラリ

組み込みデータセット

よく使うデータセット。説明文は間瀬先生の邦訳から。感謝。

  • ChickWeight

    鶏の体重を誕生から20 日目まで二日置きに観測. 21 日目にも観測. 蛋白質成分が異なる4 つのグループからなる. 変数weight は鶏体重の数値データ(単位g), 変数Time は誕生からの日数, 変数Chick は個体を識別する順序付き因子, 変数Diet は給餌種類を表す因子1, 2, 3, 4. 4 変数578 ケース.

  • CO2

    草(Echinochloa crus-galli) の耐寒性実験で得られたデータ.Quebec とMississippi 産のそれぞれ6 個体.半数を一晩低温下においた.変数Plant は各個体を識別する順序付き因子,Type は原産地を表す因子,Treatement は処理を表す因子,conc は環境二酸化炭素濃度(ml/L) の数値ベクトル,uptake は二酸化炭素摂取量 (umol/m 2 ) の数値ベクトル.5 変数84 ケース.

  • Orange

    オレンジの木の成長データ. 変数Tree は測定された5 本の木を識別する5水準の順序付き因子, 変数age は樹齢(1968.12.31 以来の日数), 変数circumferenceは(おそらく胸高) 周囲長(単位mm). 3 変数35 ケース.

  • InsectSprays

    異なる殺虫剤スプレーの効果を比較するため実施された複数農業実験区でのおそらく死んだ昆虫の計数データ. 変数count は昆虫の数, spray はスプレーの種類で6 水準の因子. 2 変数72 ケース.

  • airquality

    ニューヨークにおける1973 年5 月から9 月までの毎日の大気状態観測データ. 変数Ozone はRoosevelt 島における13:00 時から15:00 時までの平均オゾン量(単位ppb), Solar.R はセントラルパークにおける08:00 時から12:00 時の周波数4000-7700 オングストロームの日射量(単位Langleys, cal/cm 2 ). Wind はLaGuardia 空港における毎日の07:00 時から10:00 時の平均風速(単位マイル/ 時), Temp は華氏温度, Month は月, Day は日にち. 6 変数154 ケース.

  • iris

    この有名な(Fiher もしくはAnderson の) あやめのデータセットは, 3 種類のあやめの品種のそれぞれからの50 の花の, センチメートル単位の蕚(がく) 片の長さと幅, 花弁の長さと幅の計測結果を与える. 品種はIris setosa, versicolor そしてvirginica である. 変数Sepal.Length は蕚(がく) 片の長さ, Sepal.Width は蕚(がく) 片の長さ, Petal.Length は花弁の長さ, Petal.Width 花弁の幅, Speciesは品種(3 水準因子). データセットiris3 は同じデータを50 x 4 x 3 の3 次元配列で表現したもの. 5 変数150 ケース.
    参考。写真あり。他のデータセットなどもある。

  • mtcars

    1973-74 年タイプの32 台の車の燃料消費量とデザインや性能に関する10の変数からなる. 変数mpg は燃料消費量(単位Miles/(US)gallon), cyl はシリンダー数, disp はエンジン排気量(単位cubic inch), hp は総馬力, drat は後部車軸比, wt は重量(単位lb/1000), qsec は1/4mile 走行時間, vs は燃料圧縮比V/S, am はトランスミッションタイプ(オートマティック0, マニュアル1), gear は前進ギヤ数, carb はキャブレター数. 11 変数32 ケース.

  • HairEyeColor

    Delaware 大学の592 人の学生を髭色("Black" "Brown" "Red" "Blond"), 瞳色("Brown" "Blue" "Hazel" "Green"), 性別("Male", "Female") で分類した3 元分類表. 次元4 x 4 x 2 の配列.

  • Titanic

    2,201 観測値を4 変数でクロス集計した4 次元配列. タイタニック号の乗船客の運命を, 乗船クラス, 性別, 年齢, そして生死で分類した情報. 変数Classは4 水準(一等, 二等, 三等船室, 船員), Sex は2 水準(男女), Age は2 水準(子供と大人), Survive は2 水準(生存, 死亡).

  • OBrienKaiser (carパッケージ)

    反復測定データ。元は O'Brien, R. G., and Kaiser, M. K. (1985) MANOVA method for analyzing repeated measures designs: An extensive primer. Psychological Bulletin 97, 316-333, Table 7.

  • bfi (psychパッケージ)

    5因子25項目のパーソナリティ測定尺度のデータ。性別、年齢、教育の3変数と25項目、計28変数2800ケースのデータ。


UCLA Academic Technology Services
Statistical Computing のデータセット

そのうち説明を日本語にしたい

# hsb2: 200ケース11変数。高校生対象の調査。
  # id: student id
  # female: カテゴリカル変数。 (male, female)
  # race: カテゴリカル変数。 (1=hispanic 2=asian 3=african-amer 4=white)
  # ses: 順序変数。 (1=low 2=middle 3=high)
  # schtyp: カテゴリカル変数。 type of school (1=public 2=private)
  # prog: カテゴリカル変数。 type of program (1=general 2=academic3=vocational)
  # read: 連続変数。 standardized reading score
  # write: 連続変数。 standardized writing score
  # math: 連続変数。 standardized math score
  # science: 連続変数。 standardized science score
  # socst: 連続変数。 standardized social studies score
  # hon: カテゴリカル変数。 nominal honors english (0/1)

hsb2<-read.csv("http://www.ats.ucla.edu/stat/R/notes/hsb2.csv", header=T)
head(hsb2)

library(foreign)
dat <- read.spss("http://www.ats.ucla.edu/stat/spss/examples/mlm_imm/imm10.sav", to.data.frame=T)
names(dat) <- tolower(names(dat))
head(dat)

library(foreign)
dat <- read.spss("http://www.ats.ucla.edu/stat/spss/examples/mlm_imm/imm23.sav", to.data.frame=T)
names(dat) <- tolower(names(dat))
head(dat)


各パッケージのデータセット

# psychパッケージのデータセット
library(psych)

# データセットオブジェクトの名前
objnames.psych <- c("Bechtoldt", "Bechtoldt.1", "Bechtoldt.2", "Chen", "Dwyer", "Gorsuch", "Harman.Burt", "Harman.Holzinger", "Holzinger", "Holzinger.9", "Reise", "Schmid", "Thurstone", "Thurstone.33", "Tucker", "West", "all.income", "bfi", "blot", "bock.table", "burt", "cities", "city.location", "cubits", "epi.bfi", "flat", "galton", "heights", "income", "iqitems", "lsat6", "lsat7", "maps", "msq", "neo", "peas", "sat.act", "schmid.leiman", "veg")

# 各オブジェクトのクラスと次元
clsnames <- sapply(objnames.psych, function(x) class(get(x)))
dims <- sapply(objnames.psych, function(x) dim(get(x)))
data.frame(clsnames, t(dims))

# 各オブジェクトの変数のクラス
(cls.var <- sapply(objnames.psych, function(x) sapply(get(x), function(x2) class(x2))))
# 各オブジェクトの各クラスの変数の一覧
sx <- stack(cls.var)
aggregate(sx[,1], list(sx[,2]), table)

# データセットの一覧

# carパッケージのデータセット
library(car)

# データセットオブジェクトの名前
objnames.car <- c("AMSsurvey", "Adler", "Angell", "Anscombe", "Baumann", "Bfox", "Blackmoor", "Burt", "CanPop", "Chile", "Chirot", "Cowles", "Davis", "DavisThin", "Depredations", "Duncan", "Ericksen", "Florida", "Freedman", "Friendly", "Ginzberg", "Greene", "Guyer", "Hartnagel", "Highway1", "Leinhardt", "Mandel", "Migration", "Moore", "Mroz", "OBrienKaiser", "Ornstein", "Pottery", "Prestige", "Quartet", "Robey", "SLID", "Sahlins", "Salaries", "Soils", "States", "Transact", "UN", "USPop", "Vocab", "WeightLoss", "Womenlf", "Wool")

# 各オブジェクトのクラスと次元
clsnames <- sapply(objnames.car, function(x) class(get(x)))
dims <- sapply(objnames.car, function(x) dim(get(x)))
data.frame(clsnames, t(dims))

# 各オブジェクトの変数のクラス
(cls.var <- sapply(objnames.car, function(x) sapply(get(x), function(x2) class(x2))))
# 各オブジェクトの各クラスの変数の一覧
sx <- stack(cls.var)
aggregate(sx[,1], list(sx[,2]), table)

# データセットの一覧

データファイル


その他