• このエントリーをはてなブックマークに追加

shell macさん のコメント

レスきたー。まず、
1. データの性質について
これは重要な問題ですね。そもそも回帰分析をする前にデータが無作為抽出され、無作為割り当てがされているかどうか、
というのが分析前の大前提になっているからですね。そうでないと母集団の推測がうまくいかない。DQN校の例のように
偏った分析結果しかもたらさない。
ただ今回は母集団そのものが対象なため、問題に当たらない、そういうことですよね?
つまりサンプリング方法に問題はないということと理解してもいいですか?(というかサンプルじゃなく母集団をみてるので)
これについてはちょっと反省でいろんな事を一気に書きすぎてしまって論点がぼやけてしまいました。反省。
ということで以下では”強く無視できる割り当て条件”などの処理群の不偏性についての話はしません。

まあ僕が書きたかったことは、回帰分析はバランスしているデータにしか使えない、という事だけでした。それは上で話したデータの性質(サンプリング方法)ではないんです。なら書くなよって話ですがwww
回帰分析だけでなく分散分析もt検定も正規分布が根っこにある検定はどれもそうなんですが、各水準のデータがバランスしていることが必要です。これはデータがどこから取られたという話でなく純粋に数学の話で
正規分布の再生性のことです。X~Normal(平均=0,分散=1) iidのとき(X1+X2+X3+X4+X5)/5 ~ Normal(0,1/5)
(X1+X2)/2 ~ Normal(0,1/2)
となりますね。この時前者と後者を比較してみた時、平均値は同じ0でも分散が違うのがわかるでしょうか?
そういうわけで分散分析の時(離散的変数の時)、なんらかの水準1と水準2でデータ数がバランスしてないと「正規分布が根っこにある」解析は出来ないんです。(係数の標準偏差の値が正しくなくなる)
そして今回は連続変数の場合ですがバランスと言う言葉は、ある説明変数の分布の形と範囲が共変量になっている
変数にわたって似ていることが条件です。例えば今回の例をあげると
ボーキが300~900までの値における弾薬の値は観察されてませんね、しかしその範囲で鋼材の値は観測されている。
つまり分布が他の共変量にわたって異なるということがわかる。
つまり割り当て条件ではなく、正規分布を仮定した分析で使っちゃダメなデータ、ということです。

ただウェルチのt検定のようにバランスしていない場合でも解析できる方法があるみたいなんですけど、、、回帰分析の場合は
知らないです。(とくに連続変数が入っている場合)もし知ってたら教えてください。
No.7
130ヶ月前
このコメントは以下の記事についています
後藤和智の若者論と統計学っぽいブロマガ 第45回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価(2月26日版) (予定を変更してお送りします。) 「EVENT JACK 気仙沼22」(2014年3月16日、気仙沼市民会館)のサークルペーパーとして配布した記事です。なおこの論考はpixivにも公開しております。 【艦これ考察】2月26日追加・修正の遠征の評価 http://www.pixiv.net/member_illust.php?mode=medium&illust_id=42205876 さて本章では、一般化線形モデルによる回帰分析を使って「艦これ」の遠征について評価を行いました。ところで、本書の冊子版を刊行した後、2月26日のアップデートで、神通改二や新マップ「東京急行」の実装に加え、遠征まわりの修正がいくつかなされました。 ・「通商破壊作戦」「水上機基地建設」の報酬の上方修正 ・新遠征「北方鼠輸送作戦」「艦隊演習」「東京急行」の実装 新たに追加された遠征を見ると、まず「北方鼠輸送作戦」と「東京急行」の2つの鼠輸送任務では、装備「ドラム缶(輸送用)」を必要とし、また特に「東京急行」はレベルの高い軽巡洋艦・駆逐艦を運用できる必要がありますが、短い時間で相当の量の資源を入手でき、デイリー消化用の任務として優秀です。また「艦隊演習」は、「艦これ」では初の、資源の獲得ではなく艦隊の練度の向上をメインに据えた遠征であり、資源は雀の涙ほどしか手に入りませんが大量の経験値を得ることが可能です。特に弾薬は効率よく入手することが可能で、元々乏しかった(本気で貯めたいなら「長距離演習航海」か「海上護衛任務」くらいしかまともに弾薬を手に入れられる遠征がなかった)弾薬の入手手段を増やしてくれたことは極めて嬉しいことです(ただいずれの任務も少なくない燃料・弾薬を消費するので、弾薬の消費量の少ない天龍型・睦月型を育てておきましょう)。 報酬が上方修正された遠征については、40時間かかるためあまり頻繁には使わないであろう「通商破壊作戦」はともかく、水上機母艦が必要とはいえ9時間で終わる「水上機基地建設」は、以前も中量の燃料・鋼材・ボーキサイトが入手できて、本書でも優秀な遠征と評価していたのですが、ここに来てさらに多い量となり、優秀な遠征としての地位をますます高めることとなりました。建造のお供にますます使えるようになりました。 さて、このような遠征まわりの大幅な変化を受けて、新たに遠征について分析を行うこととしました。新しい遠征を加えた上で遠征全体の評価をし直すというのはもちろんあるのですが、本章の分析でやり残したことがあったり、また遠征まわりでの新たな知見などを反映したりというものです。 遠征についての新たな知見とは、遠征によって司令部が得られる経験値と、艦隊(艦娘)が得られる経験値が違うのではないかということです。例えば今回新たに追加された「艦隊演習」に出して「成功」しても、表示される経験値は45ポイントでしかありません。しかし、艦隊の艦娘のほうには400または800の経験値が入っている(旗艦はその1.5倍)というデータが指摘されています(有志による攻略Wikiより。 http://wikiwiki.jp/kancolle/?%B7%D0%B8%B3%C3%CD なお私も確認しました。なおどちらになるかは概ね半々の模様)。 また以前の分析でやり残したこととは、獲得資源や経験値同士の交互作用です。交互作用の分析については艦載機開発理論のところでも一部やっていますが、遠征の報酬においても交互作用が認められるのではないかと考えるようになりました。 今回は新遠征と既存の遠征の修正を踏まえ、また経験値については司令部ではなく艦隊が得られる経験値(低い方)を用いて、新たなモデルを作成してみることとします。またデータのばらつきによる影響をなくした結果も見るため、それぞれの指標を標準化した値を使ってのモデル作成も行います。さらに、遠征の時間の予測のためのモデルと、評価のためのモデルについても検討してみたいと思います(なお、値を標準化すると、回帰係数は変わりますが、各パラメータ及び全体のp値とAICは変わりません)。 今回用いる回帰モデルは次の通りです。 モデル1:経験値、燃料、弾薬、鋼材、ボーキサイト モデル2:経験値、燃料、弾薬、鋼材、ボーキサイト、ドラム缶ダミー モデル3:モデル2から指標を取り除いてAIC(赤池情報量規準)を最小化 モデル4:経験値、燃料、弾薬、鋼材、ボーキサイト、高速修復、高速建造、開発資材、家具コイン小、家具コイン中 モデル5:モデル4+ドラム缶ダミー モデル6:モデル6から指標を取り除いてAICを最小化 モデル7:モデル4に加え、経験値、燃料、弾薬、鋼材、ボーキサイトの間の2つの交互作用(指標同士の積を使用) モデル8:モデル7+ドラム缶ダミー モデル9:モデル8から指標を取り除いてAICを最小化 このうち、予測用は7~9、評価用は1~6から選定したいと思います。予測するならできるだけ多くのデータを用いた方がいいですが、評価の場合は逆にデータが多すぎると不便です。そのため、今回は予測と評価を分けてみようと思います。なお、一般化線形モデルによる分析では修正決定係数は出ませんので、デビアンスやAIC(赤池情報量規準)で判定する必要があります。ここではAICを用います。 詳細は次以降のページを見てほしいのですが、新しい遠征のぶんを加えても、弾薬の影響は負になりましたが、他の変数の影響を取り除くと優位な量ではなくなりました。また、交互作用については、燃料×弾薬、弾薬×鋼材以外は負に働いており、この2つが手に入りやすい遠征(前者なら「海上護衛任務」「鼠輸送作戦」「北方鼠輸送作戦」、後者なら「資源輸送作戦」「包囲陸戦隊撤収作戦」「東京急行」)の遠征時間が、評価用のモデルでは低く評価されているということがわかると思います。 また予測された時間についてモデル3,6,9を比較すると、モデル9が極めて精度がよく予測されていることがわかります。しかしこのデータは対象物全部を分析対象としているため、評価の際にはあまり意味をなしません。評価の対象としてモデル3,6を用いた場合、「北方鼠輸送作戦」は双方で良好な結果となりました。また修正の掛かった「水上機基地建設」は、モデル3だと実際の時間が9時間なのに比べて評価時間はなんと17時間という値になりました。しかしモデル6だと、家具コイン箱中が予測値を大きく押し下げる要因になっているので、評価時間は実際の時間を少し下回るものとなります。「東京急行」は、モデル6では鋼材の係数が上がったぶん、予測値も大きくなりました。なおモデル3,6双方で弾薬と経験値は係数から外れたため、「艦隊演習」の評価は切片の値がそのまま採用されるため、できませんでした。 こちらの2つの評価の結果から、修正が加わった「水上機基地建設」は元々優良な遠征であったものがより優秀なものになり、「北方鼠輸送作戦」は文句なしに優良な遠征と言えるでしょう。また「東京急行」も、モデル6による評価が良好であり、優良な部類に属すると思います。少なくともこれによって「資源輸送作戦」「包囲陸戦隊撤収作戦」の出番がほぼ完全になくなったのは確実でしょう…(開発資材が欲しいのであれば「潜水艦哨戒任務」や「MO作戦」をやればいいわけですし)。 【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】 第46回:【思潮】「悪意」の源泉はどこにあるのか?――森達也『クラウド増殖する悪意』を批判する(2014年3月31日配信予定/「幻想郷フォーラム2014」のサークルペーパーとして配信します。) 第47回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価(3月14日版)(2014年4月5日配信予定) 第48回:未定(2014年4月15日配信予定/「新潟東方祭14」のサークルペーパーとして配信します。) 第49回:【書評】春の書評祭り(2014年4月30日配信予定/「仙台コミケ216」「Comic1☆8」のサークルペーパーとして配信します。) 【近況】 ・「第8回東方名華祭」併催イベント「幻想郷フォーラム2014」新刊の『香霖堂の社会思想ゼミ――市民のための「社会」をめぐる思想講座』の情報を公開しました。メロンブックスで通販予約も始まっています。表紙はサークル「慶雲興」のKch氏です。 情報ページ: http://ameblo.jp/kazutomogoto/entry-11795422870.html サンプル(pixiv): http://www.pixiv.net/member_illust.php?mode=medium&illust_id=42211933 通販ページ: http://shop.melonbooks.co.jp/shop/detail/212001071156 ・「海ゆかば2」新刊の『提督のための統計学――艦隊決戦統計解析論序説』がメロンブックスにて委託販売中です。また、電子版の配信もメロンブックスDLにて始まりました。 情報ページ: http://ameblo.jp/kazutomogoto/entry-11755408226.html サンプル(pixiv): http://www.pixiv.net/member_illust.php?mode=medium&illust_id=41109949 通販ページ: http://shop.melonbooks.co.jp/shop/detail/212001070288 電子版: http://www.melonbooks.com/index.php?main_page=product_info&products_id=IT0000170590 ・「コミックマーケット85」新刊の『統計同人誌をつくろう!――調べて、分析して、書きたい人のために』『改訂増補版 紅魔館の統計学なティータイム――市民のための統計学Special2』が、メロンブックス・とらのあな・COMIC ZINにて委託販売中です。詳細は各同人誌の情報ページをご覧ください。 『統計同人誌をつくろう!』情報ページ: http://ameblo.jp/kazutomogoto/entry-11717450615.html 『改訂増補版 紅魔館の統計学なティータイム』情報ページ: http://ameblo.jp/kazutomogoto/entry-11717449750.html ・常見陽平氏が発行する早稲田大学・慶應義塾大学学生向けフリーペーパー「アスユニ」に論考「「慶應SFC的なるもの」とは何か」を寄稿しました。4月上旬に両大学にて配布される予定です。 ・「第8回東方名華祭」併催イベント「幻想郷フォーラム2014」(東方Project情報・評論系オンリーイベント)にサークル参加予定です。 開催日:2014年3月30日(日) 開催場所:名古屋市国際展示場(ポートメッセなごや)(愛知県名古屋市港区) アクセス:名古屋臨海高速鉄道あおなみ線「金城ふ頭」駅より徒歩5分程度/伊勢湾岸自動車道「名港中央」インターチェンジより車で5分程度 スペース:デスク参加07 ・「新潟東方祭14」にサークル参加予定です。 開催日:2014年4月13日(日) 開催場所:朱鷺メッセ(新潟県新潟市中央区) アクセス:JR各線「新潟」駅または新潟交通バス「万代シテイバスセンター」から「佐渡汽船」行きバス「朱鷺メッセ」下車すぐ/「新潟」駅から徒歩20分程度 スペース:未定 ・「Comic1☆8」にサークル参加予定です。 開催日:2014年4月29日(火祝) 開催場所:東京ビッグサイト(東京都江東区) アクセス:ゆりかもめ「国際展示場正門」駅下車すぐ/東京臨海高速鉄道りんかい線「国際展示場」駅より徒歩3分程度 スペース:「ね」ブロック41a ・「第十八回文学フリマ」にサークル参加予定です。 開催日:2014年5月5日(月祝) 開催場所:東京流通センター(東京都港区) アクセス:東京モノレール「流通センター」駅下車すぐ スペース:未定 ・「第11回博麗神社例大祭」にサークル参加予定です。 開催日:2014年5月11日(日) 開催場所:東京ビッグサイト(東京都江東区) アクセス:前掲 スペース:「ぬ」ブロック13b ・日本図書センターより5年ぶりの商業新刊『「あいつらは自分たちとは違う」という病――不毛な「世代論」からの脱却』が刊行されました。内容としては戦後の若者論の歴史をたどるものとなります。 Amazon: http://www.amazon.co.jp/dp/4284503421/ 楽天ブックス: http://books.rakuten.co.jp/rb/12468953/ (2014年3月17日) 奥付 後藤和智の若者論と統計学っぽいブロマガ・第45回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価 著者:後藤 和智(Goto, Kazutomo) 発行者:後藤和智事務所OffLine 発行日:2014(平成26)年3月17日 連絡先:kgoto1984@nifty.com チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto 著者ウェブサイト: http://www45.atwiki.jp/kazugoto/ Twitter: @kazugoto Facebook… 個人: http://www.facebook.com/kazutomo.goto.5 サークル: http://www.facebook.com/kazugotooffice
後藤和智の若者論と統計学っぽいブロマガ
同人サークル「後藤和智事務所OffLine」代表がプロデュースする、青少年政策・言説、統計学、科学論を中心としたブロマガです。2014年9月より若者論のテキストマイニングを行うブログとして運営しております。(それ以前の記事を、青少年言説の研究を中心とする【思潮】、教育・青少年政策のレビューを行う【政策】、統計学やニセ科学、科学論を扱う【科学・統計】の3カテゴリに分けています)