scratch-R: resources

Quick-Rであげられていた参考資料。CRANも参照。** はQuick-Rで超お勧めだそうだ。

そのほかのメモ

pdfの解説・入門

P. Kuhnert & B. Venables, An Introduction to R: Software for Statistical Modeling & Computing [zipped]
J.H. Maindonald, Using R for Data Analysis and Graphics
B. Muenchen, R for SAS and SPSS Users. Web.**
W.J. Owen, The R Guide
D. Rossiter, Introduction to the R Project for Statistical Computing for Use at the ITC
W.N. Venebles & D. M. Smith, An Introduction to R***みんなが勧める (version 1.7の日本語)

書籍

M. Crawley, Basic Statistics: An Introduction using R (クローリー, M. J. 野間口謙太郎・：菊池泰樹 (2008). 統計学: Rを用いた入門書　共立出版)
P. Dalgaard, Introductory Statistics with R (Rによる医療統計学　丸善)
B.S. Everitt & T. Hothorn, A Handbook of Statistical Analyses Using R (Rによる統計解析ハンドブック　メディカル・パブリケーションズ) **
J.J. Faraway, Linear Models with R
J.J. Faraway, Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models
J. Maindonald & J. Braun, Data Analysis and Graphics Using R: An Example-based Approach
P. Murrell, R Graphics (R グラフィックス: R で思いどおりのグラフを作図するために　共立出版)

私的参考資料。感謝。常に感謝。

ウェブサイト

書籍

足立浩平 (2006). 多変量データ解析法――心理・教育・社会系のための入門――　ナカニシヤ出版
Aguinis, H. (2004). Regression analysis for categorical moderators. New York: Guilford Press.
Aguinis, H., Beaty, J. C., Boik, R. J., & Pierce, C. A. (2005). Effect size and power in assessing moderating effects of categorical variables using multiple regression: A 30-year review. Journal of Applied Psychology, 90, 94-107.
Aiken, L. S., & West, S. G. (1991). Multiple Regression: Testing and interpreting interactions . Newbury Park, CA: Sage.
Albert, J., & Bennett, J. (2003). Curve ball: Baseball, statistics, and the role of chance in the game. Springer. (アルバート, J., & ベネット, J. 後藤寿彦 (監修), 加藤貴昭 (訳) (2004). メジャーリーグの数理科学　上下巻　シュプリンガー・ジャパン)
青木繁伸 (2009). Rによる統計解析　オーム社
青柳　領 (2010). Rによるスポーツ統計学　櫂歌書房
馬場浩也 (2005). SPSSで学ぶ統計分析入門　第2版　東洋経済新報社
Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Mahwah, NJ: Erlbaum.
Crawley, M. J. (2005). Statistics: An introduction using R. London, England: John Wiley & Sons. (クローリー, M. J. 野間口謙太郎・：菊池泰樹 (2008). 統計学: Rを用いた入門書　共立出版)
Everitt, B. (2005). An R and S-PLUS Companion to Multivariate Analysis. London, England: Springer. (エヴェリット, B. 石田基広・石田和枝・掛井秀一 (訳) (2007). RとS-PLUSによる多変量解析　シュプリンガー・ジャパン)
Everitt, B., & Hothorn, T. (2009). A handbook of statistical analyses using R 2nd edition. Chapman and Hall/CRC. (エヴェリット, B. 大門貴志・吉川俊博・手良向　聡 (訳) (2010). Rによる統計解析ハンドブック　第2版　メディカル・パブリケーションズ)
Fox, J. (2008). Applied regression analysis and generalized linear models (2nd ed.). Los Angeles: Sage.
舟尾暢男 (2009). R流! イメージで理解する統計処理入門――データ解析の初歩から，シミュレーション，統計アプリの作成方法まで――　カットシステム
古谷知之 (2008). ベイズ統計データ分析――R & WinBUGS――　朝倉書店
Gigerenzer, G. (2002). Calculated risks: How to know when numbers deceive you. New York: Simon & Schuster. (ギーゲレンツァー, G. 吉田利子 (訳) (2010). リスク・リテラシーが身につく統計的思考法――初歩からベイズ統計まで――　早川書房)
南風原朝和 (2002). 心理統計学の基礎――統合的理解のために――　有斐閣
南風原朝和・杉澤武敏・平井洋子 (2009). 心理統計学ワークブック――理解の確認と深化のために――　有斐閣
廣瀬毅士・寺島拓幸 (2010). 社会調査のための統計データ分析　オーム社
Howell, D. C. (2002). Statistical methods for psychology (5th ed.). Boston: Duxbury.
Howell, D. C. (2010). Statistical methods for psychology (7th ed.). Belmont, CA: Cengage Wadsworth. amazon 2012版
石村貞夫・石村友二郎 (2010). SPSSでやさしく学ぶ統計解析　第4版　東京図書
狩野裕・三浦麻子 (2002). AMOS, EQS, CALISによるグラフィカル多変量解析――目で見る共分散構造分析　第2版　現代数学者
Kline, R. B. (2004). Beyond significance testing: Reforming data analysis methods in behavioral research. Washington, DC: American Psychological Association.
宮本友弘・山際勇一郎・田中　敏 (1991) 要因計画の分散分析において単純主効果検定に使用する誤差項の選択について心理学研究，62，207-211．
Murrell, P. (2005). R graphics. Taylor & Francis. (マレル, P. 久保拓弥 (訳) (2009). Rグラフィックス――Rで思いどおりのグラフを作図するために――　共立出版)
中村永友 (2009). 多次元データ解析法　金　明哲 (編) Rで学ぶデータサイエンス　2　共立出版
新村秀一 (1995). パソコンによるデータ解析――統計ソフトを使いこなす――　講談社
芝　祐順・南風原朝和 (1990). 行動科学における統計解析法　東京大学出版会
繁桝算男・柳井晴夫・森　敏明 (2008). Q&Aで知る統計データ解析――DOs and DON'Ts――　第2版　サイエンス社
Spector, P. (2008). Data manipulation with R. London, England: Springer. (スペクター, P. 石田基広・石田和枝 (訳) (2008). Rデータ自由自在　シュプリンガー・ジャパン)
Tabachnick, B. G., & Fidell, L. S. (2007). Using multivariate statistics (5th ed.). Boston: Allyn & Bacon. amazon
田中　敏・山際雄一郎 (1997). ユーザーのための心理データの多変量解析法――方法の理解から論文の書き方まで――　教育出版
太郎丸　博 (2005). 人文・社会科学のためのカテゴリカル・データ解析入門　ナカニシヤ出版
豊田秀樹 (1998). 共分散構造分析事例編――構造方程式モデリング　朝倉書店
豊田秀樹 (1998). 共分散構造分析入門編――構造方程式モデリング――　朝倉書店
豊田秀樹 (2000). 共分散構造分析応用編――構造方程式モデリング　朝倉書店
豊田秀樹 (2003). 共分散構造分析技術編――構造方程式モデリング　朝倉書店
豊田秀樹 (2003). 共分散構造分析疑問編――構造方程式モデリング　朝倉書店
豊田秀樹 (2007). 共分散構造分析理論編――構造方程式モデリング　朝倉書店
豊田秀樹 (2009). 共分散構造分析実践編――構造方程式モデリング　朝倉書店
豊田秀樹 (編著) (2009). データマイニング入門――Rで学ぶ最新データ解析――　東京図書
Winer, Brown, Michels, 1991. Statistical Principles in Experimental Design (3rd edition). McGraw-Hill, New York.
山田剛史・杉澤武俊・村井潤一郎 (2008). Rによるやさしい統計学　オーム社
山田剛史・村井潤一郎 (2004). よくわかる心理統計　ミネルヴァ書房
山際雄一郎・田中敏 (1992). ユーザーのための教育・心理統計と実験計画法――方法の理解から論文の書き方まで――　教育出版
吉田寿夫 (1998). 本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本　北大路書房
吉田寿夫・森　敏昭 (1990). 心理学のためのデータ解析テクニカルブック　北大路書房

上記以外・随時更新・備忘録

入門とか概要とかTips

CRAN Contributed Documentation. 入門マニュアル群。下のほうに間瀬先生によるマニュアルの邦訳。神すぐる
間瀬先生の和訳置き場。同上
基本統計関数マニュアルpdf. 同上
間瀬先生によるヘルプの日本語訳
統計処理ソフトウェアRについてのTips
R（R言語）のトップメニュー
Rに関する各種文献とその訳 (Rjpwiki内。日本語ドキュメント、FAQ和訳、ヘルプファイル和訳、オブジェクト一覧の和訳等へのリンク集)
R for SAS and SPSS Users (pdf)
間瀬先生のtips

検索等

メーリングリスト検索。いろいろあるのだがおそらくここが一番見やすい。
メーリングリスト検索。ここもみやすい。
R Site Search Jonathan Baron作成
Rseek
seekR.統計分析環境 R のための検索エンジン
Function Finder
R-bloggers

グラフ関係

統計解析: 全般

William Revelle: Using R for psychological research
　> Using R for personality research (very short guide)
　> Statistics in Research Methods: Using R (short guide)
　>psychometric theory e-book. William Revelleの授業用資料。書きかけのe-book
　> Psychology 405: Psychometric Theory: William Revelleの授業ページ。参考文献リストが良い。
　> psychパッケージマニュアル
　> psychパッケージ概要
　> Using the psych package to generate and test structural models
　> Simulation as a tool for personality research
John Fox: Introduction to Statistical Computing in R. リンク集として便利
Jonathan Baron: Notes on the use of R for psychology experiments and questionnaires (pdf)
StatSoft, Inc. (2011). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/.
　STATISTICAのページだけどテキストが詳しくてすごい
鹿児島大学: 統計科学のための電子図書システムのWebページ
University of North Texas: Do it yourself Introduction to R ** ここはマジですごい
Journal of Statistical Software よくパッケージの解説が載ってる。
UCLA Statistics Electronic Publications べつにどうでもいいかも。

統計解析: 分散分析

Analysis of Variance in Psychology, prepared by Prof Colleen F. Moore. 分散分析の講義の資料
Repeated Measures Analysis with R. UCLAの反復測定分散分析のセミナー。gls関数を使っている。正直よくわからない。
Advanced Statistics by J. J McDowell. 被験者間要因の分散分析で交互作用対比の検定の例。
入戸野宏 (2004). 心理生理学データの分散分析　生理心理学と精神生理学, 22, 275-290. pdf
分散分析のノート
読めば必ずわかる分散分析の基礎
C. P. Doncaster and A. J. H. Davey: Examples of Analysis of Variance and Covariance
平方和についての解説の日本語リンク。順不同。

統計解析: 検定力分析

G*Power: 検定力と効果量算出のソフト。user guideが勉強になる。
Kline, R. B. (2004). Beyond significance testing: Reforming data analysis methods in behavioral research. Washington, DC: American Psychological Association. amazon
水本篤・竹内理 (2008). 研究論文における効果量報告のために――基礎的概念と注意点――　英語教育研究, 31, 57-66.
　> 水本先生の統計のページ
川端一光先生: 被験者間計画の為の多要因分散分析(主効果・交互作用)検定力分析
ANOVA君/反復測定デザインにおける効果量
　> Bakeman, R. (2005). Recommended effect size statistics for repeated measures designs. Behavior Research Methods, 37, 379-384. pdf
　> Olejnik, S., & Algina, J. (2003). Generalized eta and omega squared statistics: Measures of effect size for some common research designs. Psychological Methods, 8, 434-447.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd edition). Hillsdale, NJ: Erlbaum.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.

統計解析: 因子分析

Confirmatory Factor Analysis using Amos, LISREL, Mplus, and SAS/STAT CALIS 各ソフトで確認的因子分析をどうやるか。R関係なし。pdf。
　同サイト内Tutorials and Working Papers

統計解析: (今は) その他

: カテゴリカルデータ解析。R (and S-PLUS) Manual to Accompany Agresti's Categorical Data Analysis (2002) 2nd edition .
　> 著者 Laura Thompson
Karl Wuensch's SAS Programs Page. sasのコード集。Rに書き換えれば使える。
: 多変量解析全般。Multivariate Statistics with R by Paul Hewson (CRAN Task View: Multivariate StatisticsのMaintainer。
: マルチレベルモデル
Hoffman, L., & Rovine, M. J. (2007). Multilevel models for the experimental psychologist: Foundations and illustrative examples. Behavior Research Methods, 39, 101-117. pdf

データセット覚書

データライブラリ

The Data and Story Library 領域、方法などで検索可能。
StatSci.org 教科書別等。
UCLA Statistics Data Sets コース別など。
StatLab Heidelberg data irisとかアリの収穫データとか
spss公式のデータリンク集。
Journal of Statistics Educationのデータアーカイブ

組み込みデータセット

よく使うデータセット。説明文は間瀬先生の邦訳から。感謝。

ChickWeight
鶏の体重を誕生から20 日目まで二日置きに観測. 21 日目にも観測. 蛋白質成分が異なる4 つのグループからなる. 変数weight は鶏体重の数値データ(単位g), 変数Time は誕生からの日数, 変数Chick は個体を識別する順序付き因子, 変数Diet は給餌種類を表す因子1, 2, 3, 4. 4 変数578 ケース.
CO2
草(Echinochloa crus-galli) の耐寒性実験で得られたデータ．Quebec とMississippi 産のそれぞれ6 個体．半数を一晩低温下においた．変数Plant は各個体を識別する順序付き因子，Type は原産地を表す因子，Treatement は処理を表す因子，conc は環境二酸化炭素濃度(ml/L) の数値ベクトル，uptake は二酸化炭素摂取量 (umol/m 2 ) の数値ベクトル．5 変数84 ケース．
Orange
オレンジの木の成長データ. 変数Tree は測定された5 本の木を識別する5水準の順序付き因子, 変数age は樹齢(1968.12.31 以来の日数), 変数circumferenceは(おそらく胸高) 周囲長(単位mm). 3 変数35 ケース.
InsectSprays
異なる殺虫剤スプレーの効果を比較するため実施された複数農業実験区でのおそらく死んだ昆虫の計数データ. 変数count は昆虫の数, spray はスプレーの種類で6 水準の因子. 2 変数72 ケース.
airquality
ニューヨークにおける1973 年5 月から9 月までの毎日の大気状態観測データ. 変数Ozone はRoosevelt 島における13:00 時から15:00 時までの平均オゾン量(単位ppb), Solar.R はセントラルパークにおける08:00 時から12:00 時の周波数4000-7700 オングストロームの日射量(単位Langleys, cal/cm 2 ). Wind はLaGuardia 空港における毎日の07:00 時から10:00 時の平均風速(単位マイル/ 時), Temp は華氏温度, Month は月, Day は日にち. 6 変数154 ケース.
iris
この有名な(Fiher もしくはAnderson の) あやめのデータセットは, 3 種類のあやめの品種のそれぞれからの50 の花の, センチメートル単位の蕚(がく) 片の長さと幅, 花弁の長さと幅の計測結果を与える. 品種はIris setosa, versicolor そしてvirginica である. 変数Sepal.Length は蕚(がく) 片の長さ, Sepal.Width は蕚(がく) 片の長さ, Petal.Length は花弁の長さ, Petal.Width 花弁の幅, Speciesは品種(3 水準因子). データセットiris3 は同じデータを50 x 4 x 3 の3 次元配列で表現したもの. 5 変数150 ケース.
参考。写真あり。他のデータセットなどもある。
mtcars
1973-74 年タイプの32 台の車の燃料消費量とデザインや性能に関する10の変数からなる. 変数mpg は燃料消費量(単位Miles/(US)gallon), cyl はシリンダー数, disp はエンジン排気量(単位cubic inch), hp は総馬力, drat は後部車軸比, wt は重量(単位lb/1000), qsec は1/4mile 走行時間, vs は燃料圧縮比V/S, am はトランスミッションタイプ(オートマティック0, マニュアル1), gear は前進ギヤ数, carb はキャブレター数. 11 変数32 ケース.
HairEyeColor
Delaware 大学の592 人の学生を髭色("Black" "Brown" "Red" "Blond"), 瞳色("Brown" "Blue" "Hazel" "Green"), 性別("Male", "Female") で分類した3 元分類表. 次元4 x 4 x 2 の配列.
Titanic
2,201 観測値を4 変数でクロス集計した4 次元配列. タイタニック号の乗船客の運命を, 乗船クラス, 性別, 年齢, そして生死で分類した情報. 変数Classは4 水準(一等, 二等, 三等船室, 船員), Sex は2 水準(男女), Age は2 水準(子供と大人), Survive は2 水準(生存, 死亡).
OBrienKaiser (carパッケージ)

反復測定データ。元は　O'Brien, R. G., and Kaiser, M. K. (1985) MANOVA method for analyzing repeated measures designs: An extensive primer. Psychological Bulletin 97, 316-333, Table 7.
bfi (psychパッケージ)

5因子25項目のパーソナリティ測定尺度のデータ。性別、年齢、教育の3変数と25項目、計28変数2800ケースのデータ。

UCLA Academic Technology Services
Statistical Computing のデータセット

そのうち説明を日本語にしたい

# hsb2: 200ケース11変数。高校生対象の調査。 # id: student id # female: カテゴリカル変数。 (male, female) # race: カテゴリカル変数。 (1=hispanic 2=asian 3=african-amer 4=white) # ses: 順序変数。 (1=low 2=middle 3=high) # schtyp: カテゴリカル変数。 type of school (1=public 2=private) # prog: カテゴリカル変数。 type of program (1=general 2=academic3=vocational) # read: 連続変数。 standardized reading score # write: 連続変数。 standardized writing score # math: 連続変数。 standardized math score # science: 連続変数。 standardized science score # socst: 連続変数。 standardized social studies score # hon: カテゴリカル変数。 nominal honors english (0/1) hsb2<-read.csv("http://www.ats.ucla.edu/stat/R/notes/hsb2.csv", header=T) head(hsb2)

library(foreign) dat <- read.spss("http://www.ats.ucla.edu/stat/spss/examples/mlm_imm/imm10.sav", to.data.frame=T) names(dat) <- tolower(names(dat)) head(dat) library(foreign) dat <- read.spss("http://www.ats.ucla.edu/stat/spss/examples/mlm_imm/imm23.sav", to.data.frame=T) names(dat) <- tolower(names(dat)) head(dat)

各パッケージのデータセット

# psychパッケージのデータセット library(psych) # データセットオブジェクトの名前 objnames.psych <- c("Bechtoldt", "Bechtoldt.1", "Bechtoldt.2", "Chen", "Dwyer", "Gorsuch", "Harman.Burt", "Harman.Holzinger", "Holzinger", "Holzinger.9", "Reise", "Schmid", "Thurstone", "Thurstone.33", "Tucker", "West", "all.income", "bfi", "blot", "bock.table", "burt", "cities", "city.location", "cubits", "epi.bfi", "flat", "galton", "heights", "income", "iqitems", "lsat6", "lsat7", "maps", "msq", "neo", "peas", "sat.act", "schmid.leiman", "veg") # 各オブジェクトのクラスと次元 clsnames <- sapply(objnames.psych, function(x) class(get(x))) dims <- sapply(objnames.psych, function(x) dim(get(x))) data.frame(clsnames, t(dims)) # 各オブジェクトの変数のクラス (cls.var <- sapply(objnames.psych, function(x) sapply(get(x), function(x2) class(x2)))) # 各オブジェクトの各クラスの変数の一覧 sx <- stack(cls.var) aggregate(sx[,1], list(sx[,2]), table) # データセットの一覧

# carパッケージのデータセット library(car) # データセットオブジェクトの名前 objnames.car <- c("AMSsurvey", "Adler", "Angell", "Anscombe", "Baumann", "Bfox", "Blackmoor", "Burt", "CanPop", "Chile", "Chirot", "Cowles", "Davis", "DavisThin", "Depredations", "Duncan", "Ericksen", "Florida", "Freedman", "Friendly", "Ginzberg", "Greene", "Guyer", "Hartnagel", "Highway1", "Leinhardt", "Mandel", "Migration", "Moore", "Mroz", "OBrienKaiser", "Ornstein", "Pottery", "Prestige", "Quartet", "Robey", "SLID", "Sahlins", "Salaries", "Soils", "States", "Transact", "UN", "USPop", "Vocab", "WeightLoss", "Womenlf", "Wool") # 各オブジェクトのクラスと次元 clsnames <- sapply(objnames.car, function(x) class(get(x))) dims <- sapply(objnames.car, function(x) dim(get(x))) data.frame(clsnames, t(dims)) # 各オブジェクトの変数のクラス (cls.var <- sapply(objnames.car, function(x) sapply(get(x), function(x2) class(x2)))) # 各オブジェクトの各クラスの変数の一覧 sx <- stack(cls.var) aggregate(sx[,1], list(sx[,2]), table) # データセットの一覧

データファイル

Crawley, M. J. (2005). Statistics: An introduction using R. London, England: John Wiley & Sons. (クローリー, M. J. 野間口謙太郎・：菊池泰樹 (2008). 統計学: Rを用いた入門書　共立出版) のデータセット。元サイトから転載
　Data files
　Execises
　Executable code in the text
　Code to generate figures in the book
Kreft, I., & de Leeuw, J. (1998). Introducing multilevel modeling. Newbury Park, CA: Sage. (クレフト, I., デレウ, J. 小野寺孝義 (編訳) (2006). 基礎から学ぶマルチレベルモデル―入り組んだ文脈から新たな理論を創出するための統計手法　ナカニシヤ出版　で使われているデータセット。UCLAのサイトから転載。".dat"という拡張子だがただのタブ区切りテキスト
　imm10
　imm23
Everitt, B. (2005). An R and S-PLUS Companion to Multivariate Analysis. London, England: Springer. (エヴェリット, B. 石田基広・石田和枝・掛井秀一 (訳) (2007). RとS-PLUSによる多変量解析　シュプリンガー・ジャパン)　のデータセット。元サイトから転載
　データおよびコード群
Holzinger, K., & Swineford, F. (1939). A study in factor analysis: The stability of a bifactor solution. Supplementary Educational Monograph, no. 48. Chicago: University of Chicago Press.　のデータセット。
　26変数 (MBESSパッケージより)
　9変数バージョン (lavaanパッケージより)
　psychパッケージに相関データ)
　香川大学・堀啓造先生の再分析とそのなかで使用されていたExcel形式のデータ (拝借) 。これは便利
日本野球のデータ。なぜか海外のほうが充実している。
- Career Batting Data from Japanese Star Players
- Career Pitching Data from Japanese Star Players
- Jim Albright's Japanese Baseball Database
- Japanese Baseball Database
- Pro Yakyu Database
- 自分用に整形した打撃データ (dat <- read.delim("http://eau.uijin.com/about/datasets/batting.dat"))
- 自分用に整形した投手データ
- 略称の読みかた
南風原朝和 (2002). 心理統計学の基礎――統合的理解のために――　有斐閣
吉田寿夫・森　敏昭 (1990). 心理学のためのデータ解析テクニカルブック　北大路書房

scratch-R