• このエントリーをはてなブックマークに追加
第45回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価(2月26日版)
閉じる
閉じる

新しい記事を投稿しました。シェアして読者に伝えましょう

×

第45回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価(2月26日版)

2014-03-17 23:50
  • 29
後藤和智の若者論と統計学っぽいブロマガ
第45回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価(2月26日版)
(予定を変更してお送りします。)

「EVENT JACK 気仙沼22」(2014年3月16日、気仙沼市民会館)のサークルペーパーとして配布した記事です。なおこの論考はpixivにも公開しております。
【艦これ考察】2月26日追加・修正の遠征の評価 http://www.pixiv.net/member_illust.php?mode=medium&illust_id=42205876

さて本章では、一般化線形モデルによる回帰分析を使って「艦これ」の遠征について評価を行いました。ところで、本書の冊子版を刊行した後、2月26日のアップデートで、神通改二や新マップ「東京急行」の実装に加え、遠征まわりの修正がいくつかなされました。

・「通商破壊作戦」「水上機基地建設」の報酬の上方修正
・新遠征「北方鼠輸送作戦」「艦隊演習」「東京急行」の実装

新たに追加された遠征を見ると、まず「北方鼠輸送作戦」と「東京急行」の2つの鼠輸送任務では、装備「ドラム缶(輸送用)」を必要とし、また特に「東京急行」はレベルの高い軽巡洋艦・駆逐艦を運用できる必要がありますが、短い時間で相当の量の資源を入手でき、デイリー消化用の任務として優秀です。また「艦隊演習」は、「艦これ」では初の、資源の獲得ではなく艦隊の練度の向上をメインに据えた遠征であり、資源は雀の涙ほどしか手に入りませんが大量の経験値を得ることが可能です。特に弾薬は効率よく入手することが可能で、元々乏しかった(本気で貯めたいなら「長距離演習航海」か「海上護衛任務」くらいしかまともに弾薬を手に入れられる遠征がなかった)弾薬の入手手段を増やしてくれたことは極めて嬉しいことです(ただいずれの任務も少なくない燃料・弾薬を消費するので、弾薬の消費量の少ない天龍型・睦月型を育てておきましょう)。

報酬が上方修正された遠征については、40時間かかるためあまり頻繁には使わないであろう「通商破壊作戦」はともかく、水上機母艦が必要とはいえ9時間で終わる「水上機基地建設」は、以前も中量の燃料・鋼材・ボーキサイトが入手できて、本書でも優秀な遠征と評価していたのですが、ここに来てさらに多い量となり、優秀な遠征としての地位をますます高めることとなりました。建造のお供にますます使えるようになりました。

さて、このような遠征まわりの大幅な変化を受けて、新たに遠征について分析を行うこととしました。新しい遠征を加えた上で遠征全体の評価をし直すというのはもちろんあるのですが、本章の分析でやり残したことがあったり、また遠征まわりでの新たな知見などを反映したりというものです。

遠征についての新たな知見とは、遠征によって司令部が得られる経験値と、艦隊(艦娘)が得られる経験値が違うのではないかということです。例えば今回新たに追加された「艦隊演習」に出して「成功」しても、表示される経験値は45ポイントでしかありません。しかし、艦隊の艦娘のほうには400または800の経験値が入っている(旗艦はその1.5倍)というデータが指摘されています(有志による攻略Wikiより。 http://wikiwiki.jp/kancolle/?%B7%D0%B8%B3%C3%CD なお私も確認しました。なおどちらになるかは概ね半々の模様)。

また以前の分析でやり残したこととは、獲得資源や経験値同士の交互作用です。交互作用の分析については艦載機開発理論のところでも一部やっていますが、遠征の報酬においても交互作用が認められるのではないかと考えるようになりました。

今回は新遠征と既存の遠征の修正を踏まえ、また経験値については司令部ではなく艦隊が得られる経験値(低い方)を用いて、新たなモデルを作成してみることとします。またデータのばらつきによる影響をなくした結果も見るため、それぞれの指標を標準化した値を使ってのモデル作成も行います。さらに、遠征の時間の予測のためのモデルと、評価のためのモデルについても検討してみたいと思います(なお、値を標準化すると、回帰係数は変わりますが、各パラメータ及び全体のp値とAICは変わりません)。

今回用いる回帰モデルは次の通りです。

モデル1:経験値、燃料、弾薬、鋼材、ボーキサイト
モデル2:経験値、燃料、弾薬、鋼材、ボーキサイト、ドラム缶ダミー
モデル3:モデル2から指標を取り除いてAIC(赤池情報量規準)を最小化
モデル4:経験値、燃料、弾薬、鋼材、ボーキサイト、高速修復、高速建造、開発資材、家具コイン小、家具コイン中
モデル5:モデル4+ドラム缶ダミー
モデル6:モデル6から指標を取り除いてAICを最小化
モデル7:モデル4に加え、経験値、燃料、弾薬、鋼材、ボーキサイトの間の2つの交互作用(指標同士の積を使用)
モデル8:モデル7+ドラム缶ダミー
モデル9:モデル8から指標を取り除いてAICを最小化

このうち、予測用は7~9、評価用は1~6から選定したいと思います。予測するならできるだけ多くのデータを用いた方がいいですが、評価の場合は逆にデータが多すぎると不便です。そのため、今回は予測と評価を分けてみようと思います。なお、一般化線形モデルによる分析では修正決定係数は出ませんので、デビアンスやAIC(赤池情報量規準)で判定する必要があります。ここではAICを用います。

詳細は次以降のページを見てほしいのですが、新しい遠征のぶんを加えても、弾薬の影響は負になりましたが、他の変数の影響を取り除くと優位な量ではなくなりました。また、交互作用については、燃料×弾薬、弾薬×鋼材以外は負に働いており、この2つが手に入りやすい遠征(前者なら「海上護衛任務」「鼠輸送作戦」「北方鼠輸送作戦」、後者なら「資源輸送作戦」「包囲陸戦隊撤収作戦」「東京急行」)の遠征時間が、評価用のモデルでは低く評価されているということがわかると思います。

また予測された時間についてモデル3,6,9を比較すると、モデル9が極めて精度がよく予測されていることがわかります。しかしこのデータは対象物全部を分析対象としているため、評価の際にはあまり意味をなしません。評価の対象としてモデル3,6を用いた場合、「北方鼠輸送作戦」は双方で良好な結果となりました。また修正の掛かった「水上機基地建設」は、モデル3だと実際の時間が9時間なのに比べて評価時間はなんと17時間という値になりました。しかしモデル6だと、家具コイン箱中が予測値を大きく押し下げる要因になっているので、評価時間は実際の時間を少し下回るものとなります。「東京急行」は、モデル6では鋼材の係数が上がったぶん、予測値も大きくなりました。なおモデル3,6双方で弾薬と経験値は係数から外れたため、「艦隊演習」の評価は切片の値がそのまま採用されるため、できませんでした。

こちらの2つの評価の結果から、修正が加わった「水上機基地建設」は元々優良な遠征であったものがより優秀なものになり、「北方鼠輸送作戦」は文句なしに優良な遠征と言えるでしょう。また「東京急行」も、モデル6による評価が良好であり、優良な部類に属すると思います。少なくともこれによって「資源輸送作戦」「包囲陸戦隊撤収作戦」の出番がほぼ完全になくなったのは確実でしょう…(開発資材が欲しいのであれば「潜水艦哨戒任務」や「MO作戦」をやればいいわけですし)。
01c2ba20a2a08b9ad41acb05c35ebb2448b3ace9

64508d6560e17a4bb80baff8180dd310a79cc801

ccc32565770e246255f7dcf2143050ef4b5d2de2


【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第46回:【思潮】「悪意」の源泉はどこにあるのか?――森達也『クラウド増殖する悪意』を批判する(2014年3月31日配信予定/「幻想郷フォーラム2014」のサークルペーパーとして配信します。)
第47回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価(3月14日版)(2014年4月5日配信予定)
第48回:未定(2014年4月15日配信予定/「新潟東方祭14」のサークルペーパーとして配信します。)
第49回:【書評】春の書評祭り(2014年4月30日配信予定/「仙台コミケ216」「Comic1☆8」のサークルペーパーとして配信します。)

【近況】
・「第8回東方名華祭」併催イベント「幻想郷フォーラム2014」新刊の『香霖堂の社会思想ゼミ――市民のための「社会」をめぐる思想講座』の情報を公開しました。メロンブックスで通販予約も始まっています。表紙はサークル「慶雲興」のKch氏です。
情報ページ:http://ameblo.jp/kazutomogoto/entry-11795422870.html
サンプル(pixiv):http://www.pixiv.net/member_illust.php?mode=medium&illust_id=42211933
通販ページ:http://shop.melonbooks.co.jp/shop/detail/212001071156

・「海ゆかば2」新刊の『提督のための統計学――艦隊決戦統計解析論序説』がメロンブックスにて委託販売中です。また、電子版の配信もメロンブックスDLにて始まりました。
情報ページ:http://ameblo.jp/kazutomogoto/entry-11755408226.html
サンプル(pixiv):http://www.pixiv.net/member_illust.php?mode=medium&illust_id=41109949
通販ページ:http://shop.melonbooks.co.jp/shop/detail/212001070288
電子版:http://www.melonbooks.com/index.php?main_page=product_info&products_id=IT0000170590

・「コミックマーケット85」新刊の『統計同人誌をつくろう!――調べて、分析して、書きたい人のために』『改訂増補版 紅魔館の統計学なティータイム――市民のための統計学Special2』が、メロンブックス・とらのあな・COMIC ZINにて委託販売中です。詳細は各同人誌の情報ページをご覧ください。
『統計同人誌をつくろう!』情報ページ:http://ameblo.jp/kazutomogoto/entry-11717450615.html
『改訂増補版 紅魔館の統計学なティータイム』情報ページ:http://ameblo.jp/kazutomogoto/entry-11717449750.html

・常見陽平氏が発行する早稲田大学・慶應義塾大学学生向けフリーペーパー「アスユニ」に論考「「慶應SFC的なるもの」とは何か」を寄稿しました。4月上旬に両大学にて配布される予定です。

・「第8回東方名華祭」併催イベント「幻想郷フォーラム2014」(東方Project情報・評論系オンリーイベント)にサークル参加予定です。
開催日:2014年3月30日(日)
開催場所:名古屋市国際展示場(ポートメッセなごや)(愛知県名古屋市港区)
アクセス:名古屋臨海高速鉄道あおなみ線「金城ふ頭」駅より徒歩5分程度/伊勢湾岸自動車道「名港中央」インターチェンジより車で5分程度
スペース:デスク参加07

・「新潟東方祭14」にサークル参加予定です。
開催日:2014年4月13日(日)
開催場所:朱鷺メッセ(新潟県新潟市中央区)
アクセス:JR各線「新潟」駅または新潟交通バス「万代シテイバスセンター」から「佐渡汽船」行きバス「朱鷺メッセ」下車すぐ/「新潟」駅から徒歩20分程度
スペース:未定

・「Comic1☆8」にサークル参加予定です。
開催日:2014年4月29日(火祝)
開催場所:東京ビッグサイト(東京都江東区)
アクセス:ゆりかもめ「国際展示場正門」駅下車すぐ/東京臨海高速鉄道りんかい線「国際展示場」駅より徒歩3分程度
スペース:「ね」ブロック41a

・「第十八回文学フリマ」にサークル参加予定です。
開催日:2014年5月5日(月祝)
開催場所:東京流通センター(東京都港区)
アクセス:東京モノレール「流通センター」駅下車すぐ
スペース:未定

・「第11回博麗神社例大祭」にサークル参加予定です。
開催日:2014年5月11日(日)
開催場所:東京ビッグサイト(東京都江東区)
アクセス:前掲
スペース:「ぬ」ブロック13b

・日本図書センターより5年ぶりの商業新刊『「あいつらは自分たちとは違う」という病――不毛な「世代論」からの脱却』が刊行されました。内容としては戦後の若者論の歴史をたどるものとなります。
Amazon:http://www.amazon.co.jp/dp/4284503421/
楽天ブックス:http://books.rakuten.co.jp/rb/12468953/

(2014年3月17日)

奥付
後藤和智の若者論と統計学っぽいブロマガ・第45回:【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2014(平成26)年3月17日
連絡先:kgoto1984@nifty.com
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/

Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice
コメント コメントを書く
他19件のコメントを表示

答えから言うと、t検定も分散分析も連続変数を含んだ共分散分析も、全部線形モデルを通して行うことが可能。
それは「統計学は最強の~」に書いてあった通り。
その理由はというと、どれもデザイン行列を通して解析を行うことができるから、なんです。
分散分析のデザイン行列は、離散的変数を用いた線形モデルと一緒。
共分散分析のデザイン行列は、離散的変数、連続変数両方を用いた線形モデルと一緒。
このデザイン行列が何かというと、説明変数を一つの行列に束ねたもの、と考えればさしあたって問題ないです。

そして説明変数が独立かどうか、という話なんですけどこれは今回関係ないかも。
興味あるのはバランスしてるかどうかなんで。このバランスの話は繰り返しになるんだけど連続変数の場合は範囲が
共変量にわたって重なってることなんだよね。たとえば
http://www.socialresearchmethods.net/kb/quasird.php
英語よまなくていいですwこれはFigure.2だけ見てください。緑の線が統制群、青色の線が処理群です。
問題は割り当てのされ方なんです。統制群はpreが50を超えた部分にだけ割り当てられている。
処理群はpreが50未満にだけ割り当てられている。つまりpreの値において統制群と処理群が割り当てられた
部分が重なってる領域がない。こういう場合に統制群と処理群を比較してもいいんですかね~?というのが問題。

ちなみに上のURLの場合は処理と統制の割り当てが完璧にわかってるので、pre50のギリギリかさなってる範囲でのみ
回帰分析して良い、という手法(回帰分断デザインという)。らしい。

というわけで、本当に僕のイチャモンだけでなく。統計学では共変量にわたって重なってる部分しか比較できない、というのは常識(上のような処理の割り当てのされ方が完全に把握されている特殊例を除く)。

考えてみればわかるけど、上の分断デザインの例だとたとえば、学力に関しての回帰分析だと思えば理解しやすい。
preを家庭の収入、おのおのの点が子供達を表すとかんがえる。このとき収入が1000万以上ある家庭は必ず塾に行ける、
1000万未満だと絶対に塾に行けない。こういう場合に塾が子供の成績に与える影響を正答に評価できるかって話。
僕は無理だと思う。なぜなら、収入の条件が平等になってないからね。様々なレンジの所得の子供に、塾の有無が
割り振られてなければ、それが塾の影響によるものだとはいえないから。高所得家庭の子供は親戚関係が高学歴で
プレッシャーが強いから成績が高いのかもしれない。それは塾の影響ではない。

僕の歯抜けデータではダメという意味わかりましたか。ところで多分説明変数の範囲が共変量にわたって重なってる
部分だけとりだして比較すれば、回帰分析できるようなきもする。ただ解析結果が当てはまるその分範囲はせまくなるけど。

または分析結果で外挿していることを明言するとか。「ボーキが300~900までの値における弾薬の値は0になっている、
しかしその範囲で鋼材の値は観測されている。つまり現段階では分布が共変量にわたって等しいとはいえない。
だが新たな作戦が追加されていくうちに共変量における分布は等しくなるだろうと考えた。よってこの分析結果は妥当」とかね。

No.26 123ヶ月前

・標準化についてと分析の意義について
ああ理解しました。解釈するためのモデルなんですね。なら何も言うことはないです。

説明変数の独立の話はつっこみたいけど面倒なのでしませんw
僕は
「一般化線形モデル入門」と
「数理統計学 基礎から学ぶデータ解析」の回帰分析の行列部分
の2冊で読めばだいたい理解しました。ちなみにランダム化実験だとおっしゃるとおり独立変数は直交してますが
観察実験だとそうではないです。でもきちんと最小二乗法が一般線形モデルで計算できているのは
疑似逆行列を計算してるから、らしい(よくわかってない)。

まあお開きにしましょう。ではでは

No.28 123ヶ月前
userPhoto 後藤和智(著者)

こちらもこれ以上繰り返したくはないので最後に。

>コメント23,24について
こちらのコマンドは全て回しました。しかし、ここで用いられているデータは全て説明変数が質的変量であり、こちらで用いているデータに応用することはできません。確かに因子(説明変数)が全て質的変量であればt検定、分散分析、そして線形モデルの結果は全て一致します。そのため3者の間には本質的な差はないと言えるでしょう。この点では私も早とちりだったと思います。

しかしこちらで用いているデータはほとんど量的変量であり、無理矢理でもカテゴリ化しない限り分散分析を行うことは不可能です。また忘れてはならないのは、今回用いているのは質的な変量ではなく量的な変量であるということです。今回の説明変数間の「欠け」の指摘が正しいとしても、量的な変数の場合は変数に調整を加えたり、外れ値を取り除いてより正確なモデルを作ることが可能だと考えます。今回の分析について現実的な解を提示するのであれば、次の改善点が提示できるはずです(あくまでも一例)。

1. 報酬が外れ値を示しているものを取り除く。
2. 報酬を対数や平方根に変換する。

量的な変数の場合、分布の実態に基づいて分布を修正することも可能であり、「欠け」を解消することも可能になります。量的な変量なら、それぞれの分布の実態に従って変換を行うことにより「欠け」を解消することも可能です。次回の分析ではそれも行う予定です。

従って、こちらのデータの「欠け」に対するshell mac様の批判に答えるなら、こちらでやるべき操作としてデータの分布に基づいて変数を変換するというのが現実的な解になります。


>コメント25について
http://www.socialresearchmethods.net/kb/quasird.php こちらの記事は拝読しました。しかしこちらの説明をもとにこちらのデータの「欠け」を批判することはできません。というのもこちらのFigure2を今回の分析で考えるのであれば、釣り合いが取れているべきは被説明変数である「遠征時間(対数変換)」と、説明変数である各種獲得資源量ということになります。このFigure2で取り扱われているものは説明変数の間の「釣り合い」ではないでしょう。少なくともFigure1とFigure2を比較する限りでは、

Figure1: post = 切片 + 係数 * pre
Figure2: post = 切片 + 係数 * pre + 係数2 * 統制群ダミー

というモデルを想定して施策の効果の有無を比べるものであって、たとい今回用いているデータ間の「欠け」の指摘が正しいとしても、今回の分析とは相容れないものです。

またshell mac様は規準として「ボーキサイト300以上」というのを提示されていますが、その分け方の妥当性は疑わしいでしょう。というのもこれに該当する遠征は3つしかないので両者の間で極端に水準が合わないからです。水準を合わせるとしたら、統制群と比較群に該当するものを「ボーキサイト入手不可」「ボーキサイト入手可」にすると、前者は15、後者は14ですから水準として「合ってしまう」ことになります。

このような事態が起こる理由は、結局量的なそれぞれの説明変数の間で分布が異なるということに帰結します。だからボーキサイト300以上得られる遠征において弾薬が得られるものはないから回帰分析をすることはできない、というのは一概に言えないと思います。

(それぞれの変数で分布が違う)量的な変量に対して、片方を特定の値で輪切りにして統制群・比較群とするよりも、それぞれの変量について、データの分布に基づいて変換を行い、その上で考えた方が現実的だと思います。実際、例えば弾薬とボーキサイトの値をそれぞれ「1を足して自然対数変換」すれば、この「欠け」は解消できるのですから。

shell mac様の批判についてまとめると、コメント23,24についてはこちらで現実的な解を提示することが可能であり、次回は「改二」として反映させる予定です。しかし25については、こちらで使っているデータの前提を理解せず、前提の異なる条件を持ち出して批判しているものとして到底承服することはできません。

また25の批判については、コメント23,24での回答として示す予定である、変数を正規分布に近い形に変換するという行為を行えば自動的に消滅します。

今回の分析について、こちらで撤回するつもりはございません。再度申し上げますが、shell mac様の批判は前提の異なる複数の論点が交錯しているので、一部に対して現実的な解を提示することは可能でも、データの性質そのものを理解していない批判も少なくないことから、こちらの分析を取り下げるには値しないからです。

私からは以上です。こちらとしてももうこれ以上続けたくはないので返信は行わないで構いません。

No.29 123ヶ月前

やっぱりコメントするは。でももう撤回の事は言ってないので安心してください。
>しかしこちらで用いているデータはほとんど量的変量であり、無理矢理でもカテゴリ化しない限り分散分析を行うことは不可能です。

いや、できるんですよwwもうハッキリ言うけど、後藤さんもうちょっと統計学勉強してくださいよwww
そして、わからないことは分からないと言ってください。今回の返事もほとんど誤解されててがっかり。
たとえば共分散分析は連続変数含んでますけど問題無いです。このRcode実行してみてください。
anova(lm(accel~.,data=attenu))

distは自由度1の連続変数ですが分散分析できてますね。詳しくは上であげた本や、計画行列でググってください。
本当に、わからないことは分からないと言ってください。標準化でも、線形モデルと分散分析の関係でも、線形モデルの評価
のことでもそうなんだけど。
そもそも、分散分析、t検定、回帰分析は同じしくみつかってます。例えばこれ
http://www.stat.math.keio.ac.jp/under.grad/data.analysis/2011/lecture/DS_Lec6_20111107.pdf
線形モデルは観察された値を当てはめ値と残差に分解するわけですが、これって分散分析で
全変動を群間変動、郡内変動に分解するのとおなじなんです。

そもそも回帰分断デザインの何が特殊なのか理解出来ましたか?理解できたなら
僕の指摘する艦これ回帰分析のおかしいところもすぐに理解できるはず。頼むからりかいできないことはそういってほしい。

つまり処理と統制群の割り当てのされ方が不公平ということですよ。僕の子供の学力の例で言うと、所得で1000万円でブロックした時、
1000万円以上のブロック内のみに塾が割り振られ、1000万円以下には塾なしのみが割り振られている。そして
前回言ったように、このデザインは塾の成績に対する影響を見るときに不公平になる。

後藤さんの艦これ回帰モデル3の場合では、ボーキサイトの時間にたいする影響を知るために、燃料や鋼材で
ブロック化してますよね。このときブロック化された各々のグループの中で、ボーキサイトの様々な値が平等に
割り振られてない。あるブロックではボーキサイト0~300のみ。別のブロックでは0~900全てが割り振られている。だからブロック間の比較が不公平になってますよね。
そういうことです。ちなみに、離散と連続で揉めたくないので釘さしておくと、連続変数でブロックすることも可能ですよ。でなければそもそも記事中のモデル3を当てはめることが出来ない。

と書いて思ったけど、きっとブロック化実験も知らないんだろうな。。
後藤さんが違う話をしてるように見えても、まさに艦これ回帰分析に関係してるんだけど。

>、shell mac様の批判は前提の異なる複数の論点が交錯しているので、
>一部に対して現実的な解を提示することは可能でも、
>データの性質そのものを理解していない批判も少なくないことから、
>こちらの分析を取り下げるには値しないからです。

とあるんですが、分散分析の話もブロック化の話も回帰分断デザインも全て同じ話なんだけどな。
比較するユニット同士(この場合は作戦)はおのおのの背景が等しくなければならい。だから背景が同じ物同士で比較するために
背景でブロック化したりサンプルサイズを等しくしたりする。そのために上げた例も全部別々のもの、俺とはかんけいねーや
と思われてたら悲しい。

No.30 123ヶ月前

http://www.snap-tck.com/room04/c01/stat/stat08/stat0803.html
このURL面白いのでぜひ見て欲しいです。僕が上で言ったことと同じことが書かれています。
ようは実験計画をたてて背景因子を整えたばあい、 比較が可能だが
後知恵的に適当にデータ集めした後にブロック化(この記事の用語では層別化)しても平等な
ひかくができないかもしれない、と書いてますね。まさに僕が書いたことです。

No.31 123ヶ月前

今回でほんとに最後になるといいけど。

No.32 123ヶ月前

>このような事態が起こる理由は、結局量的なそれぞれの説明変数の間で分布が異なるということに帰結します。
>だからボーキサイト300以上得られる遠征において弾薬が得られるものはないから回帰分析をすることはできない、
>というのは一概に言えないと思います。

そうですね。平等な比較をするために背景因子1でブロックし、さらにそれを因子2でブロックし、とつづけていくと
最後にのこるグループ内のデータ数が少なくなってしまう。

実際、ブロックしないのもひとつの手かもね。ただ
前回の艦これ記事であったように、相互作用を加えたために符号まで変わってしまう説明変数があったことからも
わかるように、共変量を調整しないとバイアスが残ったままの回帰分析をせざるを得ないかも。
これは後藤さんが悪いのではなくデータの罪だと思う。

あと、目的変数がどの分布に従っているのか、ということと説明変数のバランスは全然別の概念ですよ。
釣り合いについて考えるときは目的変数については忘れてもらっておkです。

No.33 123ヶ月前

>水準を合わせるとしたら、統制群と比較群に該当するものを
>「ボーキサイト入手不可」「ボーキサイト入手可」にすると、
>前者は15、後者は14ですから水準として「合ってしまう」こ
>とになります。

もちろんダミー変数を使ってそういう層別化することも可能です。例を挙げると
燃料の時間における影響を観るために、ボーキサイトの共変量を後藤さんのやり方で調整することもできる。
ただこの層別化だとボーキサイト1~900までが1グループとして扱われてしまうので、グループ内の
ばらつきが大きくなってしまってよくない。けどいいアイディアだと思います。0~300までのグループと300~900までの
グループでダミー変数をつかってもいいかも。

No.34 123ヶ月前
userPhoto 後藤和智(著者)

>shell mac様
一晩考えていました。先ほどの書き込みですが、あとで読み返したら明らかに私のほうがshell mac様の話を誤解して書き込んでいることに気付きました。ご迷惑をおかけして申し訳ございませんでした。今回の分析についてはshell mac様のご指摘がほとんど正しいと思います。冷静さを失って私のほうが混同しておりました。大変申し訳ございませんでした。また今までshell mac様が提示されたことは理解しているつもりです。

コメント34でshell mac様が指摘されたブロック化については、まさにあのあと私が一般化線形混合モデルを使って分析できないかと考えておりました。ただ弾薬とボーキサイトの分布が違うため「300以上で層別化」というのはやはり難しいというのがこちらの考えです。「改二」モデルで私が考えているのは、

1. ブロッキングは「入手可能/不可能」とする
2. 入手可能な報酬については、対数変換を行う
(オプション:場合によっては一般化線形モデルではなく、一般化線形混合モデルを用いる)

というパターンを考えております。パラメトリックな分析を行うときは、やはり母数(この場合はデータそのものが母数ですが)の性質を考える必要があるので、やはり変換は必要だと思います。

ついでに自分でやってみたところ、入手できる報酬に対してのみ対数変換を行うと、データの間で釣り合いが取れたものになると判断しました。shell mac様の疑問に対するこちらの現実的な解はこの通りになります。

今回の分析については、やはり一つの考え方を提示すると言うことで(ゲームをやる人にとっては)それなりに重要性はあると考えております。従って、このたびshell mac様のご意見をいただけたことを嬉しく思えます。

再度申し上げますが、このたびは私が冷静さを失っていろいろとご迷惑をおかけしたことをお詫び申し上げます。

No.35 123ヶ月前

謝ることでは無いと思います。むしろ僕が匿名で実名ブログに粘着して申し訳ありませんでした。

No.36 123ヶ月前
コメントを書く
コメントをするにはログインして下さい。