第13回:【科学・統計】レビュー系サイト・同人誌のための多変量解析入門/第2回:対応分析(数量化3類)
レビュー系サイトや同人誌に役立つ統計解析手法を紹介していくこのシリーズですが、今回は多変量解析の一つである「対応分析」(コレスポンデンス分析)について説明します。
対応分析とは、データ全体を一つの行列として見なし、それの転置行列を使って正方行列を作って、さらにその固有値を求めることにより、パラメータとデータの双方の特徴を見ることができる手法です。この場合、調査票を行列の縦軸、調査項目を行列の横軸に置きます。そうすると、行列のそれぞれの行が、データの個票を示すことになります。
データセットの行列をX、その転置行列(行と列を入れ替えた行列)をXtとするとき、行列XXt(XとXtの積)は行と列の数がXの行の数に等しい正方行列となり、これの固有値を求めると調査票の因子得点ができあがります。また行列XtX(XtとXの積。行列はどちらを先にかけるかによって値が違うことがほとんど)は行と列の数がXの列の数に等しい正方行列になり、これの固有値を求めると調査項目の因子得点ができあがります。
このようにして、調査票と調査項目の特徴を作ることができるわけです。これを対応分析と言います。また、使用する値がダミー変数(特定の特徴を持つときに1、持たないときには0をとる変数)であるときは、数量化3類と言いますが、やっていることは変わりません。
ここで分析の例を示してみましょう。使用するのは、2013年3月5日閲覧の、ニコニコ静画における、タグ「霧雨魔理沙」がついた作品のクリップ数上位40作品のタグです。それぞれのタグを集計して、4つ以上見つかったもの(ただし、「かわいい」「なにこれかわいい」「あらかわいい」など、近似した性質を持つと考えられるタグは統合している)を集計対象とし、それらのタグについて分析を行ってみます。使用するタグは次の通りです(下記のタグを一つも含まないものは除外)。
x01:博麗霊夢
x02:十六夜咲夜
x03:レミリア・スカーレット
x04:アリス・マーガトロイド
x05:魂魄妖夢
x06:八雲紫
x07:伊吹萃香
x08:東風谷早苗
x09:レイマリ/マリレイ/僕の見つけた真実はレイマリ
x10:マリアリ/マリアリが俺のジャスティス
x11:かわいい/なにこれかわいい/あらかわいい/かわいいは正義
x12:神々が恋した幻想郷
x13:YR1
x14:ふつくしい
分析にはフリーソフト「R」を使います。まず、Rの作業フォルダに、タグのデータを入れたcsvファイルを作り、下のように読み込んで、文字datasetに代入します。「行列」ではなく「データフレーム」で読み込むのがポイントです。
> dataset <- data="" frame="" read="" csv="" blomaga013_data="" header="T,row.name=1))
> dataset
また、Rで対応分析をやるためには、パッケージMASSを読み込まなければなりません。
> library(MASS)
対応分析はコマンドcorrespを使って、次のように行います。なお、この分析に限らず、Rで何らかの分析をする際には、結果は文字に代入すると便利です。ここでは文字resultに代入します。ここでは、集計対象静画が34、集計対象タグが14なので、因子は18個出すことにします。
> result <- corresp="" dataset="" nf="14)
なお、結果のそれぞれのパラメータは次のようにして呼び出します(#以下はただの註釈です)。
result$cor #正準相関係数。なお、result$cor^2と入力すると正準相関係数の2乗を求めることができ、累積寄与率を計算できる
result$cscore #パラメータの結果
result$rscore #データの結果
result$Freq #元データ
そしてこれをcsvに出力します。
> write.csv(result$cscore,"blomaga013_cscore.csv")
> write.csv(result$rscore,"blomaga013_rscore.csv")
> write.csv(result$cor,"blomaga013_cor.csv")
求めた結果から、5因子で累積寄与率が70%になるので、5因子までを採用することとします。
また、対応分析や因子分析の結果は、コマンドbiplotを使うことにより、両方の点数を、2因子まで平面上にプロットすることができます。
> biplot(result)
> biplot(result,xlim=c(-1,1),ylim=c(-1,1)) #範囲を限定した
結果は下の図に示します。あくまでもこれは一例ですが、このようにしてタグの特徴を全体の中で判断できるようになります。
このシリーズは全4回を予定しています。
今後の予定…
第3回:クラスター分析
第4回:テキストマイニング
【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第14回:【政策】若者雇用戦略を総括する(第3回)(2013年3月15日配信予定)
第15回:【政策】中絶と貧困(2013年3月25日配信予定)
第16回:【思潮】「デジタルネイティブ」論を批判的に読み解くために(第3回)(2013年4月5日更新予定)
【近況】
・ジャーナリストの津田大介氏のメールマガジン「津田大介の「メディアの現場」」に、統計学と世論に関する論考「インターネット世論調査はどうあるべきか?」を寄稿しました。その記事が津田氏のサイトに公開されています。
http://tsuda.ru/tsudamag/2013/02/2033/
・近日発売予定の『POSSE』(NPO法人POSSE)第18号に連載「検証・格差論」の最終回が掲載されます。なお私の連載は19号ではリニューアルが予定されています。
http://www.npoposse.jp/magazine/index.html
・「EVENT JACK 気仙沼21」にサークル参加します。
開催日:2013年3月17日(日)
開催場所:気仙沼市民会館(JR気仙沼線・大船渡線「気仙沼」駅より徒歩20分程度/駐車場あり。東北自動車道「一関」インターチェンジより国道284号線経由で1時間程度、または三陸自動車道「桃生津山」インターチェンジより国道45号線経由で1時間程度)
スペース:未定
・「杜の奇跡20」にサークル参加します。
開催日:2013年3月24日(日)
開催場所:仙台市情報・産業プラザ(JR各線「仙台」駅北口より徒歩2分程度、または仙台市地下鉄南北線「仙台」駅より徒歩5分程度)
スペース:未定
・「超文学フリマ in ニコニコ超会議2」にサークル参加します。
開催日:2013年4月28日(日)
開催場所:幕張メッセ(JR京葉線「海浜幕張」駅より徒歩5分程度、またはJR総武本線「幕張本郷」駅・京成千葉線「京成幕張本郷」駅より京成バス利用)
スペース:未定
・「コミックマーケット83」新刊の『紅魔館の統計学なティータイム――市民のための統計学Special』ですが、好評につき重版し、とらのあな・COMIC ZINに補充しました。また、電子版がメロンブックスDLにて販売中です。下記の告知ページをご覧下さい。
http://ameblo.jp/kazutomogoto/entry-11422949903.html
・同じく「コミックマーケット83」新刊の『社会の見方、専門知の関わり方――俗論との対峙から考える』がCOMIC ZIN専売にて委託販売中です。
http://shop.comiczin.jp/products/detail.php?product_id=14728
・「コミックマーケット80」(2011年夏コミ)で出した『青少年言説Commenatries――後藤和智/後藤和智事務所OffLine発言集』を、ニセ科学関係、政策論関係を中心に再編集した普及版『青少年言説Commenatries Lite』や、電子書籍書き下ろしシリーズ「平成日本若者論史Plus」の『ロスジェネ・メディアの世代認識:『AERA』に見るロスジェネ世代の特別視と他世代への攻撃性に関する考察』『「ニート」肯定言説の甘い罠:若年労働問題の「本質」を語る危うさ』など、電子書籍がKindleにて配信中です。
Amazonの著者セントラルはこちらです。
http://www.amazon.co.jp/後藤-和智/e/B004LUVA6I
(2013年3月5日)
奥付
後藤和智の若者論と統計学っぽいブロマガ・第13回「【科学・統計】レビュー系サイト・同人誌のための多変量解析入門/第2回:対応分析(数量化3類)」
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2013(平成25)年2月25日
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/
Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice