第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）

2014/03/17(月) 23:50

後藤和智の若者論と統計学っぽいブロマガ
第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）
（予定を変更してお送りします。）

「EVENT JACK 気仙沼22」（2014年3月16日、気仙沼市民会館）のサークルペーパーとして配布した記事です。なおこの論考はpixivにも公開しております。
【艦これ考察】2月26日追加・修正の遠征の評価 http://www.pixiv.net/member_illust.php?mode=medium&illust_id=42205876

さて本章では、一般化線形モデルによる回帰分析を使って「艦これ」の遠征について評価を行いました。ところで、本書の冊子版を刊行した後、2月26日のアップデートで、神通改二や新マップ「東京急行」の実装に加え、遠征まわりの修正がいくつかなされました。

・「通商破壊作戦」「水上機基地建設」の報酬の上方修正
・新遠征「北方鼠輸送作戦」「艦隊演習」「東京急行」の実装

新たに追加された遠征を見ると、まず「北方鼠輸送作戦」と「東京急行」の2つの鼠輸送任務では、装備「ドラム缶（輸送用）」を必要とし、また特に「東京急行」はレベルの高い軽巡洋艦・駆逐艦を運用できる必要がありますが、短い時間で相当の量の資源を入手でき、デイリー消化用の任務として優秀です。また「艦隊演習」は、「艦これ」では初の、資源の獲得ではなく艦隊の練度の向上をメインに据えた遠征であり、資源は雀の涙ほどしか手に入りませんが大量の経験値を得ることが可能です。特に弾薬は効率よく入手することが可能で、元々乏しかった（本気で貯めたいなら「長距離演習航海」か「海上護衛任務」くらいしかまともに弾薬を手に入れられる遠征がなかった）弾薬の入手手段を増やしてくれたことは極めて嬉しいことです（ただいずれの任務も少なくない燃料・弾薬を消費するので、弾薬の消費量の少ない天龍型・睦月型を育てておきましょう）。

報酬が上方修正された遠征については、40時間かかるためあまり頻繁には使わないであろう「通商破壊作戦」はともかく、水上機母艦が必要とはいえ9時間で終わる「水上機基地建設」は、以前も中量の燃料・鋼材・ボーキサイトが入手できて、本書でも優秀な遠征と評価していたのですが、ここに来てさらに多い量となり、優秀な遠征としての地位をますます高めることとなりました。建造のお供にますます使えるようになりました。

さて、このような遠征まわりの大幅な変化を受けて、新たに遠征について分析を行うこととしました。新しい遠征を加えた上で遠征全体の評価をし直すというのはもちろんあるのですが、本章の分析でやり残したことがあったり、また遠征まわりでの新たな知見などを反映したりというものです。

遠征についての新たな知見とは、遠征によって司令部が得られる経験値と、艦隊（艦娘）が得られる経験値が違うのではないかということです。例えば今回新たに追加された「艦隊演習」に出して「成功」しても、表示される経験値は45ポイントでしかありません。しかし、艦隊の艦娘のほうには400または800の経験値が入っている（旗艦はその1.5倍）というデータが指摘されています（有志による攻略Wikiより。 http://wikiwiki.jp/kancolle/?%B7%D0%B8%B3%C3%CD なお私も確認しました。なおどちらになるかは概ね半々の模様）。

また以前の分析でやり残したこととは、獲得資源や経験値同士の交互作用です。交互作用の分析については艦載機開発理論のところでも一部やっていますが、遠征の報酬においても交互作用が認められるのではないかと考えるようになりました。

今回は新遠征と既存の遠征の修正を踏まえ、また経験値については司令部ではなく艦隊が得られる経験値（低い方）を用いて、新たなモデルを作成してみることとします。またデータのばらつきによる影響をなくした結果も見るため、それぞれの指標を標準化した値を使ってのモデル作成も行います。さらに、遠征の時間の予測のためのモデルと、評価のためのモデルについても検討してみたいと思います（なお、値を標準化すると、回帰係数は変わりますが、各パラメータ及び全体のp値とAICは変わりません）。

今回用いる回帰モデルは次の通りです。

モデル1：経験値、燃料、弾薬、鋼材、ボーキサイト
モデル2：経験値、燃料、弾薬、鋼材、ボーキサイト、ドラム缶ダミー
モデル3：モデル2から指標を取り除いてAIC（赤池情報量規準）を最小化
モデル4：経験値、燃料、弾薬、鋼材、ボーキサイト、高速修復、高速建造、開発資材、家具コイン小、家具コイン中
モデル5：モデル4＋ドラム缶ダミー
モデル6：モデル6から指標を取り除いてAICを最小化
モデル7：モデル4に加え、経験値、燃料、弾薬、鋼材、ボーキサイトの間の2つの交互作用（指標同士の積を使用）
モデル8：モデル7＋ドラム缶ダミー
モデル9：モデル8から指標を取り除いてAICを最小化

このうち、予測用は7～9、評価用は1～6から選定したいと思います。予測するならできるだけ多くのデータを用いた方がいいですが、評価の場合は逆にデータが多すぎると不便です。そのため、今回は予測と評価を分けてみようと思います。なお、一般化線形モデルによる分析では修正決定係数は出ませんので、デビアンスやAIC（赤池情報量規準）で判定する必要があります。ここではAICを用います。

詳細は次以降のページを見てほしいのですが、新しい遠征のぶんを加えても、弾薬の影響は負になりましたが、他の変数の影響を取り除くと優位な量ではなくなりました。また、交互作用については、燃料×弾薬、弾薬×鋼材以外は負に働いており、この2つが手に入りやすい遠征（前者なら「海上護衛任務」「鼠輸送作戦」「北方鼠輸送作戦」、後者なら「資源輸送作戦」「包囲陸戦隊撤収作戦」「東京急行」）の遠征時間が、評価用のモデルでは低く評価されているということがわかると思います。

また予測された時間についてモデル3,6,9を比較すると、モデル9が極めて精度がよく予測されていることがわかります。しかしこのデータは対象物全部を分析対象としているため、評価の際にはあまり意味をなしません。評価の対象としてモデル3,6を用いた場合、「北方鼠輸送作戦」は双方で良好な結果となりました。また修正の掛かった「水上機基地建設」は、モデル3だと実際の時間が9時間なのに比べて評価時間はなんと17時間という値になりました。しかしモデル6だと、家具コイン箱中が予測値を大きく押し下げる要因になっているので、評価時間は実際の時間を少し下回るものとなります。「東京急行」は、モデル6では鋼材の係数が上がったぶん、予測値も大きくなりました。なおモデル3,6双方で弾薬と経験値は係数から外れたため、「艦隊演習」の評価は切片の値がそのまま採用されるため、できませんでした。

こちらの2つの評価の結果から、修正が加わった「水上機基地建設」は元々優良な遠征であったものがより優秀なものになり、「北方鼠輸送作戦」は文句なしに優良な遠征と言えるでしょう。また「東京急行」も、モデル6による評価が良好であり、優良な部類に属すると思います。少なくともこれによって「資源輸送作戦」「包囲陸戦隊撤収作戦」の出番がほぼ完全になくなったのは確実でしょう…（開発資材が欲しいのであれば「潜水艦哨戒任務」や「MO作戦」をやればいいわけですし）。
01c2ba20a2a08b9ad41acb05c35ebb2448b3ace9

01c2ba20a2a08b9ad41acb05c35ebb2448b3ace9

64508d6560e17a4bb80baff8180dd310a79cc801

ccc32565770e246255f7dcf2143050ef4b5d2de2

【今後の掲載予定：定期コンテンツ（原則として毎月5,15,25日更新予定）】
第46回：【思潮】「悪意」の源泉はどこにあるのか？――森達也『クラウド増殖する悪意』を批判する（2014年3月31日配信予定/「幻想郷フォーラム2014」のサークルペーパーとして配信します。）
第47回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（3月14日版）（2014年4月5日配信予定）
第48回：未定（2014年4月15日配信予定/「新潟東方祭14」のサークルペーパーとして配信します。）
第49回：【書評】春の書評祭り（2014年4月30日配信予定/「仙台コミケ216」「Comic1☆8」のサークルペーパーとして配信します。）

【近況】
・「第8回東方名華祭」併催イベント「幻想郷フォーラム2014」新刊の『香霖堂の社会思想ゼミ――市民のための「社会」をめぐる思想講座』の情報を公開しました。メロンブックスで通販予約も始まっています。表紙はサークル「慶雲興」のKch氏です。
情報ページ：http://ameblo.jp/kazutomogoto/entry-11795422870.html
サンプル（pixiv）：http://www.pixiv.net/member_illust.php?mode=medium&illust_id=42211933
通販ページ：http://shop.melonbooks.co.jp/shop/detail/212001071156

・「海ゆかば2」新刊の『提督のための統計学――艦隊決戦統計解析論序説』がメロンブックスにて委託販売中です。また、電子版の配信もメロンブックスDLにて始まりました。
情報ページ：http://ameblo.jp/kazutomogoto/entry-11755408226.html
サンプル（pixiv）：http://www.pixiv.net/member_illust.php?mode=medium&illust_id=41109949
通販ページ：http://shop.melonbooks.co.jp/shop/detail/212001070288
電子版：http://www.melonbooks.com/index.php?main_page=product_info&products_id=IT0000170590

・「コミックマーケット85」新刊の『統計同人誌をつくろう！――調べて、分析して、書きたい人のために』『改訂増補版紅魔館の統計学なティータイム――市民のための統計学Special2』が、メロンブックス・とらのあな・COMIC ZINにて委託販売中です。詳細は各同人誌の情報ページをご覧ください。
『統計同人誌をつくろう！』情報ページ：http://ameblo.jp/kazutomogoto/entry-11717450615.html
『改訂増補版紅魔館の統計学なティータイム』情報ページ：http://ameblo.jp/kazutomogoto/entry-11717449750.html

・常見陽平氏が発行する早稲田大学・慶應義塾大学学生向けフリーペーパー「アスユニ」に論考「「慶應SFC的なるもの」とは何か」を寄稿しました。4月上旬に両大学にて配布される予定です。

・「第8回東方名華祭」併催イベント「幻想郷フォーラム2014」（東方Project情報・評論系オンリーイベント）にサークル参加予定です。
開催日：2014年3月30日（日）
開催場所：名古屋市国際展示場（ポートメッセなごや）（愛知県名古屋市港区）
アクセス：名古屋臨海高速鉄道あおなみ線「金城ふ頭」駅より徒歩5分程度/伊勢湾岸自動車道「名港中央」インターチェンジより車で5分程度
スペース：デスク参加07

・「新潟東方祭14」にサークル参加予定です。
開催日：2014年4月13日（日）
開催場所：朱鷺メッセ（新潟県新潟市中央区）
アクセス：JR各線「新潟」駅または新潟交通バス「万代シテイバスセンター」から「佐渡汽船」行きバス「朱鷺メッセ」下車すぐ/「新潟」駅から徒歩20分程度
スペース：未定

・「Comic1☆8」にサークル参加予定です。
開催日：2014年4月29日（火祝）
開催場所：東京ビッグサイト（東京都江東区）
アクセス：ゆりかもめ「国際展示場正門」駅下車すぐ/東京臨海高速鉄道りんかい線「国際展示場」駅より徒歩3分程度
スペース：「ね」ブロック41a

・「第十八回文学フリマ」にサークル参加予定です。
開催日：2014年5月5日（月祝）
開催場所：東京流通センター（東京都港区）
アクセス：東京モノレール「流通センター」駅下車すぐ
スペース：未定

・「第11回博麗神社例大祭」にサークル参加予定です。
開催日：2014年5月11日（日）
開催場所：東京ビッグサイト（東京都江東区）
アクセス：前掲
スペース：「ぬ」ブロック13b

・日本図書センターより5年ぶりの商業新刊『「あいつらは自分たちとは違う」という病――不毛な「世代論」からの脱却』が刊行されました。内容としては戦後の若者論の歴史をたどるものとなります。
Amazon：http://www.amazon.co.jp/dp/4284503421/
楽天ブックス：http://books.rakuten.co.jp/rb/12468953/

（2014年3月17日）

奥付
後藤和智の若者論と統計学っぽいブロマガ・第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価
著者：後藤和智（Goto, Kazutomo）
発行者：後藤和智事務所OffLine
発行日：2014（平成26）年3月17日
連絡先：kgoto1984@nifty.com
チャンネルURL：http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト：http://www45.atwiki.jp/kazugoto/

Twitter：@kazugoto
Facebook…
個人：http://www.facebook.com/kazutomo.goto.5
サークル：http://www.facebook.com/kazugotooffice

29件のコメントを見る

違反報告

2014/03/06(木) 00:30 第44回：【政策】センター試験国語で若者の言語能力は測れません！

2014/04/03(木) 12:00 第46回：【思潮】「悪意」の源泉はどこにあるのか？――森達也『クラウド増殖する悪意』を批判する

後藤和智の若者論と統計学っぽいブロマガ

フォロー

同人サークル「後藤和智事務所OffLine」代表がプロデュースする、青少年政策・言説、統計学、科学論を中心としたブロマガです。2014年9月より若者論のテキストマイニングを行うブログとして運営しております。（それ以前の記事を、青少年言説の研究を中心とする【思潮】、教育・青少年政策のレビューを行う【政策】、統計学やニセ科学、科学論を扱う【科学・統計】の3カテゴリに分けています）

メール配信：あり更新頻度：原則毎週月～水曜※メール配信はチャンネルの月額会員限定です

1984年生まれ。宮城県仙台市出身。同人サークル「後藤和智事務所OffLine」代表。東北大学大学院工学研究科都市・建築学専攻博士課程前期修了。2004年よりウェブ上で若者論の批判的検証を行う。著書に『「ニート」って言うな！』（光文社新書、2006年）、『おまえが若者を語るな！』（角川Oneテーマ21、2008年）など。雑誌『POSSE』にて「検証・格差論」連載中。

コメントを書く

他19件のコメントを表示

shell mac（ID：15571176）

書き込めるかてしと

No.1 131ヶ月前

shell mac（ID：15571176）

書き込めたー。色々書きたかったけどニコニコのブロマガ、ほとんど書き込みエラーがでて出来なかったので
ちょっとだけ。
http://wikiwiki.jp/kancolle/?%B1%F3%C0%AC
の報酬早見表から分析データを使ったんですよね。でもこのデータじゃ穴だらけすぎる気が。
これでモデル内にボーキ、燃料、弾薬、などを入れてブロックしようにも、釣り合いの取れているデータが少なすぎ。
このデータで回帰分析するとかなり前提条件が必要になるとも。

釣り合いというのは、例えば治験の被験者にたいしてある薬の副作用を見たいときを例にして説明すると。
処理群と統制群についてわけてその事後の結果の平均値どうしを比較したりする。このときブロックとして患者の
健康状態を健康、病気でわけたとすると、健康群が患者１０名、病気群が患者２名、の場合明らかに分散が患者二名が
大きくなってしまう。それどころか今回の艦これのデータだとブロックの仕方によっては患者５名ｖｓ患者０名、なんて
ことになってるのもある。。だから同じ患者数同士で比較すべき、実験計画法のようにおのおののデータの観察数が等しくなって
いなければいけない。
もちろん健康、病気だけでなく、年齢でさらにブロックしないと処理群と統制群の
平等な比較はできないかもしれないし。ただBIBDデザイン、なんてのもあって一見釣り合いのとれてない（本当はとれてる）デザインもあるにはあるんだけど。ただ今回の場合は流石に説明変数がオーバーラップしてない部分が多すぎて分析してはいけない気がするは_(┐「ε:)_

No.2 131ヶ月前

shell mac（ID：15571176）

ちょっと説明が飛躍しすぎた。例えば説明変数が離散変数の場合、つまりダミー変数の場合は
http://monge.tec.fukuoka-u.ac.jp/r_analysis/test_anova21.html
この表、どれを見てもサンプル１～サンプル５まで横方向だと測定回数が同じになってることに気づくはず。なぜ
こうするのかというと、逆にいない場合を見ればわかる。つまり表４の場合、データが
歯抜けになっている場合、サンプルサイズによって重み付け平均を
計算しなければならない（めんどい）。

また、今回の場合がそうなんだけど、そもそもデータがどの範囲から取られたのか、というのが母集団の推定に影響する
と思う。たとえばよくある調査に中学生の性経験率３０％なんてのもがあるけど、あれはDQN校から採取されたデータから
解析した結果であり、推測する母集団もDQN集団にかぎるわけですよ。一般的に日本人中学生が性経験率３０はないんで。

次にダミー変数でなく、連続変数が説明変数だった時について。
同じように今回の艦これデータ、燃料を見ますと４００，２４０，５００などの数字で連続的というにはかなーり
間が開いていて、あいだの見えない（観測されていない）部分については強い前提が必要になるとおも。それは
さっきのDQN校の解析を無理やり一般日本人に当てはめるようなもので。。
イチャモンと思われる可能性があるので、さらに例を出すと、がん患者の例がありますね。仮にステージ４以上の患者に
同意の上でしか
この手法は使えません、という手法がある。この手法の副作用を論じたい時は同じステージ４以上の統制群の
患者と比較しなければ、平等な比較にならないんですね。ただ現実問題として軽度のステージの人間に劇薬なんか
処方できないですし、かといって比較できるのは同じ背景をもつ患者のみ、というジレンマなどがあるんですね。
というわけで別にイチャモンではなく本当に歯抜けデータには回帰分析しない方がいいとおもう。といっても
統計まだ１年ちょっとしか勉強していないので色々突っ込んでもらえると嬉しいです。

No.3 131ヶ月前

shell mac（ID：15571176）

ちなみに
http://www.niph.go.jp/journal/data/55-3/200655030007.pdf
によると「強く無視できる割り当て条件」の所で僕が上で話したのと似た解説があるみたいです。

それと本文にある
＞またデータのばらつきによる影響をなくした結果も見るため、それぞれの指標を標準化した値を使ってのモデル作成も行います。

ガチで素人なのでわからないのですが、説明変数を標準化するとバラつきの影響がなくなるのですか？というか
バラつきが何に影響するのか教えてください。ググったのですが説明変数同士が無相関なときに係数が説明力としても
使える、ぐらいしかわからなかった。個人的には標準化の意味は、説明変数を単位フリーにできること。？ぐらいですかね。標準化すると逆に
係数が解釈しにくくなる気がします。例えばある説明変数の１ｓｄの増加が0.00023の目的変数の増加に対応する、なんて直感的に分かりにくい。。

＞なお、一般化線形モデルによる分析では修正決定係数は出ませんので、デビアンスやAIC（赤池情報量規準）で判定する必要があります。ここではAICを用います。

GLMではR^2計算できない。そうなんだけど個人的には一般線形モデルのほうが一般化線形モデルより使いやすいのでなぜそうしないのか気になったです。今回も前回に引き続いて正規分布を仮定してるんですよね。解析ソフトで使いやすい関数が揃ってることを抜きにしても、最小二乗法の推定（BLUE)と正規分布の最尤推定法は同じ推定結果なるから無理して一般化使わなくても、、とこでdispersion parameterの値もR^2に代わるものとしてのせてほしいかも。１に近いほど
モデルが適合してる、だっけ。

No.4 131ヶ月前

shell mac（ID：15571176）

ところで前回のコメントで単位を５０ごとに変えたらどうでしょうと、僕が提案したのは単に解釈しやすいというだけですｗｗｗｗｗ

今回の場合モデル３は
　　　　　　　　推定値 SE
燃料　　　　　0.00286 0.00029
鋼材 0.00167 0.00028
ボーキサイト 0.00462 0.00037
となっていますが下のように変えてみたらどうでしょ
　　　　　　　　　　推定値 SE
燃料（100単位ごと） 0.286 0.029
鋼材（100単位ごと) 0.167 0.028
ボーキサイト（100単位ごと） 0.462 0.037

解釈すると更にわかりやすくなるかと。統計学知らない人のためにね。例えば
「鋼材とボーキサイトの影響を考慮した上で、ゲットする燃料の推定中央値が１００単位増加するごとに、作戦遂行に
かかる時間は1.33倍増加する（９５％信頼区間：1.24倍～1.43倍）」とか。

No.5 131ヶ月前

後藤和智（著者）

＞Shell mac様
はじめまして。書き込みありがとうございます。しかし、Shell mac様のコメントは的外れなところが多いと思うので改めて前提を説明いたします。

1. データの性質について
まず、ここで用いている「艦これ」の遠征の報酬データは、「この値の資材などが得られることが最初から決まっている」ものです。そのため測定回数などはまったく関係はありません。あくまでこのモデル構築の目的は「得られる資材の量と遠征時間の関係を一般化線形モデルで作成し、遠征の時間資源の獲得量に見合ったものになっているか」ということを評価するのが目的です。そのため割り当て条件などの批判は無効です。

2. 資源取得数について
報酬の資源の量は離散的な値ではありますが、連続的な量と見なして分析することも可能です。100単位ごとにやる、というのはかえって操作を増やしてしまうことになります。データの性質から考えると、最初から連続量として分析したほうが効率的ですし、正確です。

3. 標準化について
標準化を行う目的は、回帰係数から元のデータのばらつき（平均・分散）の影響を取り除くためです。標準化を行うと全てのパラメータが平均0・分散1になるので、影響の程度についてより正確なものを知ることができます（これによって得られた係数を標準化偏回帰係数と言います）。

以上、Shell mac様のご意見はいずれもデータ及び分析の性質を考えると的外れなものでしかないと考えます。

No.6 131ヶ月前

shell mac（ID：15571176）

レスきたー。まず、
1. データの性質について
これは重要な問題ですね。そもそも回帰分析をする前にデータが無作為抽出され、無作為割り当てがされているかどうか、
というのが分析前の大前提になっているからですね。そうでないと母集団の推測がうまくいかない。DQN校の例のように
偏った分析結果しかもたらさない。
ただ今回は母集団そのものが対象なため、問題に当たらない、そういうことですよね？
つまりサンプリング方法に問題はないということと理解してもいいですか？（というかサンプルじゃなく母集団をみてるので）
これについてはちょっと反省でいろんな事を一気に書きすぎてしまって論点がぼやけてしまいました。反省。
ということで以下では”強く無視できる割り当て条件”などの処理群の不偏性についての話はしません。

まあ僕が書きたかったことは、回帰分析はバランスしているデータにしか使えない、という事だけでした。それは上で話したデータの性質（サンプリング方法）ではないんです。なら書くなよって話ですがｗｗｗ
回帰分析だけでなく分散分析もｔ検定も正規分布が根っこにある検定はどれもそうなんですが、各水準のデータがバランスしていることが必要です。これはデータがどこから取られたという話でなく純粋に数学の話で
正規分布の再生性のことです。X~Normal(平均＝0,分散＝1) iidのとき(X1+X2+X3+X4+X5)/5 ~ Normal(0,1/5)
(X1+X2)/2 ~ Normal(0,1/2)
となりますね。この時前者と後者を比較してみた時、平均値は同じ０でも分散が違うのがわかるでしょうか？
そういうわけで分散分析の時（離散的変数の時）、なんらかの水準１と水準２でデータ数がバランスしてないと「正規分布が根っこにある」解析は出来ないんです。（係数の標準偏差の値が正しくなくなる）
そして今回は連続変数の場合ですがバランスと言う言葉は、ある説明変数の分布の形と範囲が共変量になっている
変数にわたって似ていることが条件です。例えば今回の例をあげると
ボーキが３００～９００までの値における弾薬の値は観察されてませんね、しかしその範囲で鋼材の値は観測されている。
つまり分布が他の共変量にわたって異なるということがわかる。
つまり割り当て条件ではなく、正規分布を仮定した分析で使っちゃダメなデータ、ということです。

ただウェルチのｔ検定のようにバランスしていない場合でも解析できる方法があるみたいなんですけど、、、回帰分析の場合は
知らないです。（とくに連続変数が入っている場合）もし知ってたら教えてください。

No.7 131ヶ月前

shell mac（ID：15571176）

2. 資源取得数について
これはコメントNo.5をもう一度見てください。勘違いしてます。
２番めの表（僕が作った）は燃料（１００単位ごと）、鋼材（１００単位ごと）となっていますがこれは連続変数ですよ。一見すれば単に
上の表の推定値とSEをそれぞれ１００倍しただけとわかる。つまりやってることはセンチメートルの単位をメートルに直したダケ、のようなもんですｗ単位を変えただけ。

もし後藤さんの言うように、僕が連続変数を１００単位ごとの離散変数に区切っているのなら、推定値やSEの表はこうなっているハズ↓
　　　　　　推定値　　　SE
切片
燃料２
燃料３
、、、
燃料７
燃料８
鋼材１
鋼材２
、、、
↑各々はダミー変数で燃料１は切片に入れました。
そして繰り返しになりますが何故単位を変えたのかというと、表が見やすいから。「燃料が１増えるごとに対数時間が0.00286ふえる」よりも
「燃料が１００増えるごとに対数時間が0.286増える」がわかりやすいです。
さらに言えば、対数時間なんてケッタイな解釈をせず、スケールを元に戻して解釈するのがベター。
対数変換後は正規分布でも、もとのスケールに戻すと左右非対称な分布になってはいますが、変換後の平均値は
変換前の中央値として順序が保存されていることに注意すれば、うまく解釈できます。
詳しくはlog transformation interpretationで検索しましょう。

No.8 131ヶ月前

shell mac（ID：15571176）

3. 標準化について
うーん。人のこと的外れというけど、本当に僕の言ってること、理解できてますか？
＞標準化を行うと全てのパラメータが平均0・分散1になるので、影響の程度についてより正確なものを知ることができます

とのことですが、僕は前回こう書いたんです。
「例えばある説明変数の１ｓｄの増加が0.00023の目的変数の増加に対応する、なんて直感的に分かりにくい。。」
つまり標準化後の係数は１標準偏差の増加に対応した目的変数の値であることは既に理解していますよって。

ただ今回の返事で理解したことは
＞標準化を行うと全てのパラメータが平均0・分散1になるので、影響の程度についてより正確なものを知ることができます
ちょっと「より正確」という言葉引っかかりますが（ごめんなさい）、後藤さんが標準化後の推定値の方が解釈しやすいと感じてる、ということでよろしいでしょうか？？
それにしても
＞（なお、値を標準化すると、回帰係数は変わりますが、各パラメータ及び全体のp値とAICは変わりません）。
こう本文に書いてあるのだから標準化しても解析の正確さは変わらないはず。より正確　という言葉は誤解を産むのではないでしょうか。余計なお世話かもだけど
「解釈がしやすいから」の方が誤解をうまないのでは。

僕が標準化の利点は単位フリーになる、と言ったのは以下の様な例があるからです。たとえばある回帰分析で説明変数に国語、理科、算数の成績がある。
ところが国語は２００点満点、理科はパーセンテージ、算数は１００点満点のスケールで先生達が点数を記録してしまった。
こういう時に標準化すれば単位フリーになるため解釈がしやすくなる。。いわゆる各々の教科の偏差値を出して生徒の成績を測るわけですね。
ただ今回の艦これデータで標準化する意味が解せない。”燃料”の偏差値がわかって何が嬉しいんですか？それとも何か標準化する他の利点が
あるのでしょうか（これが前回の疑問点）。

No.9 131ヶ月前

shell mac（ID：15571176）

あ、いま気づいたけどNo.5の僕の解釈は、説明変数が標準化されてることは考慮してないですね。スマソ。

No.10 131ヶ月前

shell mac（ID：15571176）

かきこめない

No.11 130ヶ月前

shell mac（ID：15571176）

昨日の点と更に質問、というか既に聞いたことの繰り返しなんだけど。
１，なぜ正規分布なのに一般線形モデルをつかわず一般化線形モデルを使うのか。
（両方の推定法を理解していたらこんなことする理由がない）
２，なぜしてはいけない歯抜けデータで回帰分析したのか。
３，なぜ標準化したのか。解釈がわかりにくくなっているのに。
４，モデルの評価をしてもそれぞれの係数について解釈せず、作戦の種類について語っていますが、
なんのために回帰分析したんですか。

つまり今回の記事とその分析そのものがおかしくね？と聞いているのです。

No.12 130ヶ月前

後藤和智（著者）

これ以上のやりとりは不毛だと思いますが、何度でも言いますけど、

1. 一般化線形モデルを用いたのは、別のところでも書きましたが、目的変数である遠征時間のほうを対数正規分布に従うものと見なしているからです。

2. 「歯抜けデータで回帰分析をしてはいけない」というのは正しいですが、そもそもここで用いているデータは「歯抜け」ではありません。元データで記述されていないものは、得られない（獲得量が0である）ということです。従って変数には0を入れており、どこにも欠損はありません。

3. 標準化を行った理由は、元々のデータではデータ特有のばらつきがありますが、それを平均0・分散1にそろえることにより係数の水準の大小を比較しやすくすることが目的です。標準化を行えば少なくとも各パラメータの水準が揃うので、元データの分散などを取り除いた上での評価が可能になります。これだけでも十分な利点です。

4. 1と同様の理由で、これも作戦（遠征）ごとに時間と各種報酬が「決まっている」中で、報酬の量にあった時間になっているかを回帰モデルによって評価するのが目的です。

なお前提となる分析の目的については第37回（http://ch.nicovideo.jp/kazugoto/blomaga/ar420439）でも述べております。

No.15 130ヶ月前

shell mac（ID：15571176）

不毛と言うのでなく、ちゃんとダメな部分は直すべきだと思う。僕は１年３ヶ月しか統計学勉強してないが
そんな素人でも気づく間違いをそのまま放置するのってドウヨ。
サークルペーパー見れば、見る人は気づくんじゃないかな。

１、パラメータの推測方法についてのちがい
了解です。
dispersion parameterや、overdispersionについてもあるといいです。今のままだと当てはまりが悪いモデルの
予想をそのまま放置してる可能性ありです。

２，歯抜けデータ
データが母集団であろうが、欠落でなく０であろうが結論は変わらないです。僕のレスを再掲すると、
「例えば今回の例をあげると
ボーキが３００～９００までの値における弾薬の値は観察されてませんね、しかしその範囲で鋼材の値は観測されている。
つまり分布が他の共変量にわたって異なるということがわかる。」

この文章の「観察されてない」を「０になっている」に変えるだけ。釣り合いが取れてないのは変わりない。
それも１～９００までが全範囲のデータで３００～９００という広範囲でｗｗｗ。
こんなデータを用いた回帰分析しちゃだめ。

３．標準化について
＞標準化を行えば少なくとも各パラメータの水準が揃うので
「正確」という言葉を直したのはいいと思うでも、

>元データの分散などを取り除いた上での評価が可能になります。これだけでも十分な利点です。

評価が可能、と言われてもこの記事で係数を評価してる部分が全く見当たらないのです。
もしかして、係数の符号だけみれば評価したことになるんでしょうか。仮にそうだとしても標準化で符号は変わりませんし。
例えばモデル３の燃料の係数、0.00286、こういう具体的な係数は何も評価されてません。係数を見ないなら標準化する意味がどこにあったのか謎。

４．報酬の量にあった時間になっているかを回帰モデルによって評価するのが目的です。

なぜ回帰分析がその目的に？一瞬、予測のためにモデルをつくるのかと思ったが、そうではないようだし。（記事中でそうではないと書いてるので）
予測でも、係数の解釈でもないなら何故回帰分析したのですか？
それに今回は母集団についての分析なので、母集団から得られたモデルを用いて
母集団内の「作戦時間」がお得かどうか判断する事はできませんし。してもいいけど何故そんなバカバカしいことするんだろうと思ってしまう。

No.16 130ヶ月前

後藤和智（著者）

・データの分布について
そもそも回帰分析（ないし一般化線形モデル）というものは、被説明変数に対して各説明変数がどれほどの影響を及ぼしているかをモデルによって評価する手法であって、基本的に各説明変数は独立なものとして見なされます（回帰分析における説明変数が独立変数と呼ばれるのはこのためです）。従って説明変数Aと説明変数Bの間に「釣り合いがとれていない」としても、被説明変数との関係性を見るのが主目的ですから交互作用を考慮しない場合はそれは関係ありません。それどころか、「釣り合いが取れていない」ならばこの2変数はほぼ無相関、ほぼ独立ということになり、逆に回帰分析においては有利となります。

・標準化する理由について
この点は明言しておきたいと思いますが、私は「符号だけを見ている」わけではありません。次回同様の分析は行うときは標準化したあとの数値の大きさに対する評価も書く予定です。

・分析の意義について
特定の分析が「バカバカしい」と思うのはそれぞれの読者の勝手です。そして私は統計学の視点からゲームの進行に対して一つの視点を提供する、その手法として遠征時間と獲得資源量の関係のモデルを回帰分析（一般化線形モデル）を使っているというものです。本文中でも、「実際の時間」と「モデル3,6によって評価された時間」を見比べて評価を行っています（係数そのものに対する評価がこの記事では不足しているという指摘は認めますが）。この分析の意義については発売中の同人誌『提督のための統計学』で書いております（こちらを読んでも不十分に感じられるかもしれませんが）。それ以降はもちろんこちらの説明不足もあると思いますが、一方的に「バカバカしい」と決めつけるのもよくないと思います。

No.18 130ヶ月前

後藤和智（著者）

もう一つ。ご提示いただいたこちらの資料ですが、
＞http://monge.tec.fukuoka-u.ac.jp/r_analysis/test_anova21.html

これは分散分析、ないし実験計画法に基づく分析の解説であって、回帰分析の説明にはなりません。分散分析では水準をそろえることが必要ですけど、回帰分析はそれぞれの因子を基本的に独立と見なしますから水準をそろえる必要はあまりないと考えております。

No.19 130ヶ月前

後藤和智（著者）

訂正。先のコメントですが、「回帰分析はそれぞれの因子を基本的に独立と見なしますから水準をそろえる必要はあまりないと考えております」というのは少し間違った説明でした（分散分析も因子を独立と見なして計算することもあるので）。訂正いたします。そもそも回帰分析と分散分析では根本的に説明変数（因子）の考え方が異なるので分散分析の考えに基づく批判を回帰分析に行うことは不可能です。

分散分析における因子とは基本的に質的変量であり、質的変量の影響を見るのであれば各因子間で観測数をそろえる必要があります。その点では、この記事の分析を「分散分析と見なす」のであれば、標準化する意味がわからない、そもそもこのデータは釣り合いが取れていないから「分散分析を」するなという批判は全て当てはまります。そしてここで取り扱っているデータでは「分散分析は」できないというのは百も承知です。しかし回帰分析は行えるデータです。

しかし私は「そもそもこの記事で行っているのは分散分析ではなく回帰分析である」ということを完全に見落としてはいないでしょうか。分散分析と回帰分析は、対応しているところはあっても分析の手法はかなり異なりますから。

No.21 130ヶ月前

shell mac（ID：15571176）

下のRコードを実行してみてくださいな

#t-test and a linear model
t.test(extra ~ group,data=sleep,var.equal=T)
summary(lm(extra ~group,data=sleep))
#paired t-test
t.test(extra ~ group,data=sleep,paired=T)
summary(lm(extra ~group+ID,data=sleep))
#t-test and anova
t.test(extra ~ group,data=sleep,var.equal=T)
summary(aov(extra ~ group,data=sleep))
#one way anova and a linear model
summary(aov(len~factor(dose),ToothGrowth))
summary(lm(len~factor(dose),ToothGrowth))

No.23 130ヶ月前

shell mac（ID：15571176）

もっかい。ちなみに対応のあるt検定の方は、線形モデルのgroup項の係数と見比べてみて。

#two way anova and linear models
HEC = data.frame(HairEyeColor)
summary(aov(Freq ~ Hair*Eye,data=HEC))
lm1 = lm(Freq ~ Hair+Eye,data=HEC)
lm2 = lm(Freq ~ Hair*Eye,data=HEC)
anova(lm2,lm1)

そして最後に二元配置分分析の交互作用項と、２つの線形モデルの残差の二乗の差から考えたF検定が一致。
本当にt検定、分散分析、線形モデルは質的に違うのだろうか？

No.25 130ヶ月前

shell mac（ID：15571176）

答えから言うと、ｔ検定も分散分析も連続変数を含んだ共分散分析も、全部線形モデルを通して行うことが可能。
それは「統計学は最強の～」に書いてあった通り。
その理由はというと、どれもデザイン行列を通して解析を行うことができるから、なんです。
分散分析のデザイン行列は、離散的変数を用いた線形モデルと一緒。
共分散分析のデザイン行列は、離散的変数、連続変数両方を用いた線形モデルと一緒。
このデザイン行列が何かというと、説明変数を一つの行列に束ねたもの、と考えればさしあたって問題ないです。

そして説明変数が独立かどうか、という話なんですけどこれは今回関係ないかも。
興味あるのはバランスしてるかどうかなんで。このバランスの話は繰り返しになるんだけど連続変数の場合は範囲が
共変量にわたって重なってることなんだよね。たとえば
http://www.socialresearchmethods.net/kb/quasird.php
英語よまなくていいですｗこれはFigure.2だけ見てください。緑の線が統制群、青色の線が処理群です。
問題は割り当てのされ方なんです。統制群はpreが５０を超えた部分にだけ割り当てられている。
処理群はpreが５０未満にだけ割り当てられている。つまりpreの値において統制群と処理群が割り当てられた
部分が重なってる領域がない。こういう場合に統制群と処理群を比較してもいいんですかね～？というのが問題。

ちなみに上のURLの場合は処理と統制の割り当てが完璧にわかってるので、pre50のギリギリかさなってる範囲でのみ
回帰分析して良い、という手法（回帰分断デザインという）。らしい。

というわけで、本当に僕のイチャモンだけでなく。統計学では共変量にわたって重なってる部分しか比較できない、というのは常識（上のような処理の割り当てのされ方が完全に把握されている特殊例を除く）。

考えてみればわかるけど、上の分断デザインの例だとたとえば、学力に関しての回帰分析だと思えば理解しやすい。
preを家庭の収入、おのおのの点が子供達を表すとかんがえる。このとき収入が１０００万以上ある家庭は必ず塾に行ける、
１０００万未満だと絶対に塾に行けない。こういう場合に塾が子供の成績に与える影響を正答に評価できるかって話。
僕は無理だと思う。なぜなら、収入の条件が平等になってないからね。様々なレンジの所得の子供に、塾の有無が
割り振られてなければ、それが塾の影響によるものだとはいえないから。高所得家庭の子供は親戚関係が高学歴で
プレッシャーが強いから成績が高いのかもしれない。それは塾の影響ではない。

僕の歯抜けデータではダメという意味わかりましたか。ところで多分説明変数の範囲が共変量にわたって重なってる
部分だけとりだして比較すれば、回帰分析できるようなきもする。ただ解析結果が当てはまるその分範囲はせまくなるけど。

または分析結果で外挿していることを明言するとか。「ボーキが３００～９００までの値における弾薬の値は０になっている、
しかしその範囲で鋼材の値は観測されている。つまり現段階では分布が共変量にわたって等しいとはいえない。
だが新たな作戦が追加されていくうちに共変量における分布は等しくなるだろうと考えた。よってこの分析結果は妥当」とかね。

No.26 130ヶ月前

shell mac（ID：15571176）

・標準化についてと分析の意義について
ああ理解しました。解釈するためのモデルなんですね。なら何も言うことはないです。

説明変数の独立の話はつっこみたいけど面倒なのでしませんｗ
僕は
「一般化線形モデル入門」と
「数理統計学　基礎から学ぶデータ解析」の回帰分析の行列部分
の２冊で読めばだいたい理解しました。ちなみにランダム化実験だとおっしゃるとおり独立変数は直交してますが
観察実験だとそうではないです。でもきちんと最小二乗法が一般線形モデルで計算できているのは
疑似逆行列を計算してるから、らしい（よくわかってない）。

まあお開きにしましょう。ではでは

No.28 130ヶ月前

後藤和智（著者）

こちらもこれ以上繰り返したくはないので最後に。

＞コメント23,24について
こちらのコマンドは全て回しました。しかし、ここで用いられているデータは全て説明変数が質的変量であり、こちらで用いているデータに応用することはできません。確かに因子（説明変数）が全て質的変量であればt検定、分散分析、そして線形モデルの結果は全て一致します。そのため3者の間には本質的な差はないと言えるでしょう。この点では私も早とちりだったと思います。

しかしこちらで用いているデータはほとんど量的変量であり、無理矢理でもカテゴリ化しない限り分散分析を行うことは不可能です。また忘れてはならないのは、今回用いているのは質的な変量ではなく量的な変量であるということです。今回の説明変数間の「欠け」の指摘が正しいとしても、量的な変数の場合は変数に調整を加えたり、外れ値を取り除いてより正確なモデルを作ることが可能だと考えます。今回の分析について現実的な解を提示するのであれば、次の改善点が提示できるはずです（あくまでも一例）。

1. 報酬が外れ値を示しているものを取り除く。
2. 報酬を対数や平方根に変換する。

量的な変数の場合、分布の実態に基づいて分布を修正することも可能であり、「欠け」を解消することも可能になります。量的な変量なら、それぞれの分布の実態に従って変換を行うことにより「欠け」を解消することも可能です。次回の分析ではそれも行う予定です。

従って、こちらのデータの「欠け」に対するshell mac様の批判に答えるなら、こちらでやるべき操作としてデータの分布に基づいて変数を変換するというのが現実的な解になります。

＞コメント25について
http://www.socialresearchmethods.net/kb/quasird.php こちらの記事は拝読しました。しかしこちらの説明をもとにこちらのデータの「欠け」を批判することはできません。というのもこちらのFigure2を今回の分析で考えるのであれば、釣り合いが取れているべきは被説明変数である「遠征時間（対数変換）」と、説明変数である各種獲得資源量ということになります。このFigure2で取り扱われているものは説明変数の間の「釣り合い」ではないでしょう。少なくともFigure1とFigure2を比較する限りでは、

Figure1: post = 切片 + 係数 * pre
Figure2: post = 切片 + 係数 * pre + 係数2 * 統制群ダミー

というモデルを想定して施策の効果の有無を比べるものであって、たとい今回用いているデータ間の「欠け」の指摘が正しいとしても、今回の分析とは相容れないものです。

またshell mac様は規準として「ボーキサイト300以上」というのを提示されていますが、その分け方の妥当性は疑わしいでしょう。というのもこれに該当する遠征は3つしかないので両者の間で極端に水準が合わないからです。水準を合わせるとしたら、統制群と比較群に該当するものを「ボーキサイト入手不可」「ボーキサイト入手可」にすると、前者は15、後者は14ですから水準として「合ってしまう」ことになります。

このような事態が起こる理由は、結局量的なそれぞれの説明変数の間で分布が異なるということに帰結します。だからボーキサイト300以上得られる遠征において弾薬が得られるものはないから回帰分析をすることはできない、というのは一概に言えないと思います。

（それぞれの変数で分布が違う）量的な変量に対して、片方を特定の値で輪切りにして統制群・比較群とするよりも、それぞれの変量について、データの分布に基づいて変換を行い、その上で考えた方が現実的だと思います。実際、例えば弾薬とボーキサイトの値をそれぞれ「1を足して自然対数変換」すれば、この「欠け」は解消できるのですから。

shell mac様の批判についてまとめると、コメント23,24についてはこちらで現実的な解を提示することが可能であり、次回は「改二」として反映させる予定です。しかし25については、こちらで使っているデータの前提を理解せず、前提の異なる条件を持ち出して批判しているものとして到底承服することはできません。

また25の批判については、コメント23,24での回答として示す予定である、変数を正規分布に近い形に変換するという行為を行えば自動的に消滅します。

今回の分析について、こちらで撤回するつもりはございません。再度申し上げますが、shell mac様の批判は前提の異なる複数の論点が交錯しているので、一部に対して現実的な解を提示することは可能でも、データの性質そのものを理解していない批判も少なくないことから、こちらの分析を取り下げるには値しないからです。

私からは以上です。こちらとしてももうこれ以上続けたくはないので返信は行わないで構いません。

No.29 130ヶ月前

shell mac（ID：15571176）

やっぱりコメントするは。でももう撤回の事は言ってないので安心してください。
＞しかしこちらで用いているデータはほとんど量的変量であり、無理矢理でもカテゴリ化しない限り分散分析を行うことは不可能です。

いや、できるんですよｗｗもうハッキリ言うけど、後藤さんもうちょっと統計学勉強してくださいよｗｗｗ
そして、わからないことは分からないと言ってください。今回の返事もほとんど誤解されててがっかり。
たとえば共分散分析は連続変数含んでますけど問題無いです。このRcode実行してみてください。
anova(lm(accel~.,data=attenu))

distは自由度１の連続変数ですが分散分析できてますね。詳しくは上であげた本や、計画行列でググってください。
本当に、わからないことは分からないと言ってください。標準化でも、線形モデルと分散分析の関係でも、線形モデルの評価
のことでもそうなんだけど。
そもそも、分散分析、t検定、回帰分析は同じしくみつかってます。例えばこれ
http://www.stat.math.keio.ac.jp/under.grad/data.analysis/2011/lecture/DS_Lec6_20111107.pdf
線形モデルは観察された値を当てはめ値と残差に分解するわけですが、これって分散分析で
全変動を群間変動、郡内変動に分解するのとおなじなんです。

そもそも回帰分断デザインの何が特殊なのか理解出来ましたか？理解できたなら
僕の指摘する艦これ回帰分析のおかしいところもすぐに理解できるはず。頼むからりかいできないことはそういってほしい。

つまり処理と統制群の割り当てのされ方が不公平ということですよ。僕の子供の学力の例で言うと、所得で１０００万円でブロックした時、
１０００万円以上のブロック内のみに塾が割り振られ、１０００万円以下には塾なしのみが割り振られている。そして
前回言ったように、このデザインは塾の成績に対する影響を見るときに不公平になる。

後藤さんの艦これ回帰モデル３の場合では、ボーキサイトの時間にたいする影響を知るために、燃料や鋼材で
ブロック化してますよね。このときブロック化された各々のグループの中で、ボーキサイトの様々な値が平等に
割り振られてない。あるブロックではボーキサイト０～３００のみ。別のブロックでは０～９００全てが割り振られている。だからブロック間の比較が不公平になってますよね。
そういうことです。ちなみに、離散と連続で揉めたくないので釘さしておくと、連続変数でブロックすることも可能ですよ。でなければそもそも記事中のモデル３を当てはめることが出来ない。

と書いて思ったけど、きっとブロック化実験も知らないんだろうな。。
後藤さんが違う話をしてるように見えても、まさに艦これ回帰分析に関係してるんだけど。

＞、shell mac様の批判は前提の異なる複数の論点が交錯しているので、
＞一部に対して現実的な解を提示することは可能でも、
＞データの性質そのものを理解していない批判も少なくないことから、
＞こちらの分析を取り下げるには値しないからです。

とあるんですが、分散分析の話もブロック化の話も回帰分断デザインも全て同じ話なんだけどな。
比較するユニット同士（この場合は作戦）はおのおのの背景が等しくなければならい。だから背景が同じ物同士で比較するために
背景でブロック化したりサンプルサイズを等しくしたりする。そのために上げた例も全部別々のもの、俺とはかんけいねーや
と思われてたら悲しい。

No.30 130ヶ月前

shell mac（ID：15571176）

http://www.snap-tck.com/room04/c01/stat/stat08/stat0803.html
このURL面白いのでぜひ見て欲しいです。僕が上で言ったことと同じことが書かれています。
ようは実験計画をたてて背景因子を整えたばあい、　比較が可能だが
後知恵的に適当にデータ集めした後にブロック化（この記事の用語では層別化）しても平等な
ひかくができないかもしれない、と書いてますね。まさに僕が書いたことです。

No.31 130ヶ月前

shell mac（ID：15571176）

今回でほんとに最後になるといいけど。

No.32 130ヶ月前

shell mac（ID：15571176）

＞このような事態が起こる理由は、結局量的なそれぞれの説明変数の間で分布が異なるということに帰結します。
＞だからボーキサイト300以上得られる遠征において弾薬が得られるものはないから回帰分析をすることはできない、
＞というのは一概に言えないと思います。

そうですね。平等な比較をするために背景因子１でブロックし、さらにそれを因子２でブロックし、とつづけていくと
最後にのこるグループ内のデータ数が少なくなってしまう。

実際、ブロックしないのもひとつの手かもね。ただ
前回の艦これ記事であったように、相互作用を加えたために符号まで変わってしまう説明変数があったことからも
わかるように、共変量を調整しないとバイアスが残ったままの回帰分析をせざるを得ないかも。
これは後藤さんが悪いのではなくデータの罪だと思う。

あと、目的変数がどの分布に従っているのか、ということと説明変数のバランスは全然別の概念ですよ。
釣り合いについて考えるときは目的変数については忘れてもらっておｋです。

No.33 130ヶ月前

shell mac（ID：15571176）

＞水準を合わせるとしたら、統制群と比較群に該当するものを
＞「ボーキサイト入手不可」「ボーキサイト入手可」にすると、
＞前者は15、後者は14ですから水準として「合ってしまう」こ
＞とになります。

もちろんダミー変数を使ってそういう層別化することも可能です。例を挙げると
燃料の時間における影響を観るために、ボーキサイトの共変量を後藤さんのやり方で調整することもできる。
ただこの層別化だとボーキサイト１～９００までが１グループとして扱われてしまうので、グループ内の
ばらつきが大きくなってしまってよくない。けどいいアイディアだと思います。０～３００までのグループと３００～９００までの
グループでダミー変数をつかってもいいかも。

No.34 130ヶ月前

後藤和智（著者）

＞shell mac様
一晩考えていました。先ほどの書き込みですが、あとで読み返したら明らかに私のほうがshell mac様の話を誤解して書き込んでいることに気付きました。ご迷惑をおかけして申し訳ございませんでした。今回の分析についてはshell mac様のご指摘がほとんど正しいと思います。冷静さを失って私のほうが混同しておりました。大変申し訳ございませんでした。また今までshell mac様が提示されたことは理解しているつもりです。

コメント34でshell mac様が指摘されたブロック化については、まさにあのあと私が一般化線形混合モデルを使って分析できないかと考えておりました。ただ弾薬とボーキサイトの分布が違うため「300以上で層別化」というのはやはり難しいというのがこちらの考えです。「改二」モデルで私が考えているのは、

1. ブロッキングは「入手可能/不可能」とする
2. 入手可能な報酬については、対数変換を行う
（オプション：場合によっては一般化線形モデルではなく、一般化線形混合モデルを用いる）

というパターンを考えております。パラメトリックな分析を行うときは、やはり母数（この場合はデータそのものが母数ですが）の性質を考える必要があるので、やはり変換は必要だと思います。

ついでに自分でやってみたところ、入手できる報酬に対してのみ対数変換を行うと、データの間で釣り合いが取れたものになると判断しました。shell mac様の疑問に対するこちらの現実的な解はこの通りになります。

今回の分析については、やはり一つの考え方を提示すると言うことで（ゲームをやる人にとっては）それなりに重要性はあると考えております。従って、このたびshell mac様のご意見をいただけたことを嬉しく思えます。

再度申し上げますが、このたびは私が冷静さを失っていろいろとご迷惑をおかけしたことをお詫び申し上げます。

No.35 130ヶ月前

shell mac（ID：15571176）

謝ることでは無いと思います。むしろ僕が匿名で実名ブログに粘着して申し訳ありませんでした。

No.36 130ヶ月前

コメントを書く

コメントをするにはログインして下さい。

第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）

新着記事

後藤和智の若者論と統計学っぽいブロマガ

後藤和智

コメント

コメントを書く