閉じる
閉じる
×
今回は「クラスター分析」の説明を行いますが、その前にこの連載企画で使っているフリーの統計ソフト「R」が、実に9年ぶりとなるメジャーアップデートが行われました。Rを持っている人はアップデート(インストール)をおすすめしておきます。ただしインストールした場合は、この記事にも書かれているとおり、パッケージも改めてインストールしなければならないので、ご注意ください。
統計解析ツール「R」、8年半ぶりのメジャーバージョンアップ版「R 3.0.0」リリース(SOURCEFORGE.JP)
http://sourceforge.jp/magazine/13/04/08/153000
さて、クラスター分析ですが、まずクラスター分析は、何らかの高度な数学的な手法を使った分析と言うよりも、特殊な集計法と言った方が適切なものであり、使われている数学的な考え方も簡単なものです。ただ、大量の計算が必要になるものであり、その点では至極コンピュータ向けの手法と言えます。
クラスター分析の際に使うものは、データの間の「距離」です。その「距離」はいくつかありますが、私たちにとって一番身近なのは「ユークリッド距離」でしょう。(x1,x2,x3,...,xn)と(y1,y2,y3,...,yn)というデータがあるとき、次の式で表されるものです。
ユークリッド距離=√((x1-y1)^2+(x2-y2)^2+...+(xn-yn)^2)
ところで、クラスター分析には2つの手法があります。第一に、k平均クラスター分析(k平均法)と呼ばれるもので、最初にk個のクラスターに分けることを決めて、そこからどのクラスターに所属するのかを鑑別するもの。第二に、階層的クラスター分析と呼ばれるもので、それぞれのデータに近いものをまとめ上げていくというものです。そして階層的クラスター分析の結果は、トーナメントの組み合わせ表のようなもの(デンドログラム)になり、結果の上からどんどんクラスターに分かれていくというものになります。
階層的クラスター分析におけるクラスターへのまとめ方は、最少距離法、重心法、ウォード法(クラスターの中心からの距離の分散を最大にするやりかた)などがあります。このようにして、データをクラスターに分けていくわけです。
さて、このクラスター分析をRコマンダーで行う方法を紹介します。Rコマンダーの起動及びデータフレームの作成については割愛します。データフレームをRコマンダーに読み込ませてアクティブデータセットとした後、メニューバーの「統計量」メニューから「次元解析」を選び、さらにその中の「クラスター分析」を選びます(図1)。ここでは階層的クラスター分析をやってみましょう。データは前回のこの企画で使った、ニコニコ静画における「霧雨魔理沙」タグのついているイラストのクリップ数上位40作品とします(データの詳細は http://ch.nicovideo.jp/kazugoto/blomaga/ar145908 を参照)。
これを選択すると、クラスター分析のメニューが出ます。文字を入力する欄にはデータを出力する文字を入力し、クラスター分けの方法と使用する距離を選択します。そして「OK」を押すと結果が文字に格納され、また「デンドログラムを描く」のチェックを入れているなら、R画面にデンドログラムが表示されます。一例として、今回の結果(クラスタリングはウォード法、距離はユークリッド距離)を図3に掲載しました。
このシリーズの予定(1回増やします)
第4回:間奏:ツール紹介(RStudio、Rzなど)
第5回(最終回):テキストマイニング
【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第18回:【政策】若者雇用戦略を総括する(第4回)(2013年4月25日配信予定)
第19回:未定(2013年5月5日配信予定)
第20回:【思潮】「草食系男子」論の表象(第1回)(2013年5月15日配信予定)
【近況】
・2013年5月25日に、統計学勉強会「市民統計ワークショップ 東京第1回」を企画しております。詳しくは6日に配信したリリースをご覧ください。
リリース:http://ch.nicovideo.jp/kazugoto/blomaga/ar187873
場所:ルノアール高田馬場早稲田通り店(JR山手線、東京メトロ東西線、西武新宿線「高田馬場」駅より徒歩2分程度)
日程:2013年5月25日(土)15:00~17:00
参加費:一般参加2,500円、発表者参加1,000円(テキスト代含む、ドリンク代除く)
・「杜の奇跡20」新刊の同人誌『統計学で解き明かす成人の日社説の変遷――平成日本若者論史5』が現在発売中です。また、電子版は4月頃にKindleでの刊行を予定しております。
告知ページ:http://ameblo.jp/kazutomogoto/entry-11489088720.html
とらのあな:http://www.toranoana.jp/mailorder/article/04/0030/10/93/040030109347.html
COMIC ZIN:http://shop.comiczin.jp/products/detail.php?product_id=15815
・「検証・格差論」の最終回が掲載された『POSSE』第18号が発売中です。
http://www.npoposse.jp/magazine/index.html
・「超文学フリマ in ニコニコ超会議2」にサークル参加します。
開催日:2013年4月28日(日)
開催場所:幕張メッセ(JR京葉線「海浜幕張」駅より徒歩5分程度、またはJR総武本線「幕張本郷」駅・京成千葉線「京成幕張本郷」駅より京成バス利用)
スペース:「エ」ブロック03
・「第10回博麗神社例大祭」にサークル参加します。
開催日:2013年5月26日(日)
開催場所:東京ビッグサイト(ゆりかもめ「国際展示場正門」駅より徒歩3分程度、東京臨海高速鉄道りんかい線「国際展示場」駅より徒歩5分程度)
スペース:「す」ブロック37a
・「コミックマーケット83」新刊の『紅魔館の統計学なティータイム――市民のための統計学Special』と、『社会の見方、専門知の関わり方――俗論との対峙から考える』が委託販売中です。
『紅魔館の統計学なティータイム』
告知ページ:http://ameblo.jp/kazutomogoto/entry-11422949903.html
とらのあな:http://www.toranoana.jp/mailorder/article/04/0030/08/67/040030086743.html
COMIC ZIN:http://shop.comiczin.jp/products/detail.php?product_id=14496
電子書籍(メロンブックスDL):http://www.melonbooks.com/index.php?main_page=product_info&products_id=IT0000160128
『社会の見方、専門知の関わり方――俗論との対峙から考える』(COMIC ZIN専売)
http://shop.comiczin.jp/products/detail.php?product_id=14728
・「コミックマーケット80」(2011年夏コミ)で出した『青少年言説Commenatries――後藤和智/後藤和智事務所OffLine発言集』を、ニセ科学関係、政策論関係を中心に再編集した普及版『青少年言説Commenatries Lite』や、電子書籍書き下ろしシリーズ「平成日本若者論史Plus」の『ロスジェネ・メディアの世代認識:『AERA』に見るロスジェネ世代の特別視と他世代への攻撃性に関する考察』『「ニート」肯定言説の甘い罠:若年労働問題の「本質」を語る危うさ』など、電子書籍がKindleにて配信中です。
Amazonの著者セントラルはこちらです。
http://www.amazon.co.jp/後藤-和智/e/B004LUVA6I
(2013年4月15日)
奥付
後藤和智の若者論と統計学っぽいブロマガ・第17回「【科学・統計】レビュー系サイト・同人誌のための多変量解析入門(第3回)」
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2013(平成25)年4月15日
連絡先:kgoto1984@nifty.com
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/
Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice
統計解析ツール「R」、8年半ぶりのメジャーバージョンアップ版「R 3.0.0」リリース(SOURCEFORGE.JP)
http://sourceforge.jp/magazine/13/04/08/153000
さて、クラスター分析ですが、まずクラスター分析は、何らかの高度な数学的な手法を使った分析と言うよりも、特殊な集計法と言った方が適切なものであり、使われている数学的な考え方も簡単なものです。ただ、大量の計算が必要になるものであり、その点では至極コンピュータ向けの手法と言えます。
クラスター分析の際に使うものは、データの間の「距離」です。その「距離」はいくつかありますが、私たちにとって一番身近なのは「ユークリッド距離」でしょう。(x1,x2,x3,...,xn)と(y1,y2,y3,...,yn)というデータがあるとき、次の式で表されるものです。
ユークリッド距離=√((x1-y1)^2+(x2-y2)^2+...+(xn-yn)^2)
ところで、クラスター分析には2つの手法があります。第一に、k平均クラスター分析(k平均法)と呼ばれるもので、最初にk個のクラスターに分けることを決めて、そこからどのクラスターに所属するのかを鑑別するもの。第二に、階層的クラスター分析と呼ばれるもので、それぞれのデータに近いものをまとめ上げていくというものです。そして階層的クラスター分析の結果は、トーナメントの組み合わせ表のようなもの(デンドログラム)になり、結果の上からどんどんクラスターに分かれていくというものになります。
階層的クラスター分析におけるクラスターへのまとめ方は、最少距離法、重心法、ウォード法(クラスターの中心からの距離の分散を最大にするやりかた)などがあります。このようにして、データをクラスターに分けていくわけです。
さて、このクラスター分析をRコマンダーで行う方法を紹介します。Rコマンダーの起動及びデータフレームの作成については割愛します。データフレームをRコマンダーに読み込ませてアクティブデータセットとした後、メニューバーの「統計量」メニューから「次元解析」を選び、さらにその中の「クラスター分析」を選びます(図1)。ここでは階層的クラスター分析をやってみましょう。データは前回のこの企画で使った、ニコニコ静画における「霧雨魔理沙」タグのついているイラストのクリップ数上位40作品とします(データの詳細は http://ch.nicovideo.jp/kazugoto/blomaga/ar145908 を参照)。
これを選択すると、クラスター分析のメニューが出ます。文字を入力する欄にはデータを出力する文字を入力し、クラスター分けの方法と使用する距離を選択します。そして「OK」を押すと結果が文字に格納され、また「デンドログラムを描く」のチェックを入れているなら、R画面にデンドログラムが表示されます。一例として、今回の結果(クラスタリングはウォード法、距離はユークリッド距離)を図3に掲載しました。
このシリーズの予定(1回増やします)
第4回:間奏:ツール紹介(RStudio、Rzなど)
第5回(最終回):テキストマイニング
【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第18回:【政策】若者雇用戦略を総括する(第4回)(2013年4月25日配信予定)
第19回:未定(2013年5月5日配信予定)
第20回:【思潮】「草食系男子」論の表象(第1回)(2013年5月15日配信予定)
【近況】
・2013年5月25日に、統計学勉強会「市民統計ワークショップ 東京第1回」を企画しております。詳しくは6日に配信したリリースをご覧ください。
リリース:http://ch.nicovideo.jp/kazugoto/blomaga/ar187873
場所:ルノアール高田馬場早稲田通り店(JR山手線、東京メトロ東西線、西武新宿線「高田馬場」駅より徒歩2分程度)
日程:2013年5月25日(土)15:00~17:00
参加費:一般参加2,500円、発表者参加1,000円(テキスト代含む、ドリンク代除く)
・「杜の奇跡20」新刊の同人誌『統計学で解き明かす成人の日社説の変遷――平成日本若者論史5』が現在発売中です。また、電子版は4月頃にKindleでの刊行を予定しております。
告知ページ:http://ameblo.jp/kazutomogoto/entry-11489088720.html
とらのあな:http://www.toranoana.jp/mailorder/article/04/0030/10/93/040030109347.html
COMIC ZIN:http://shop.comiczin.jp/products/detail.php?product_id=15815
・「検証・格差論」の最終回が掲載された『POSSE』第18号が発売中です。
http://www.npoposse.jp/magazine/index.html
・「超文学フリマ in ニコニコ超会議2」にサークル参加します。
開催日:2013年4月28日(日)
開催場所:幕張メッセ(JR京葉線「海浜幕張」駅より徒歩5分程度、またはJR総武本線「幕張本郷」駅・京成千葉線「京成幕張本郷」駅より京成バス利用)
スペース:「エ」ブロック03
・「第10回博麗神社例大祭」にサークル参加します。
開催日:2013年5月26日(日)
開催場所:東京ビッグサイト(ゆりかもめ「国際展示場正門」駅より徒歩3分程度、東京臨海高速鉄道りんかい線「国際展示場」駅より徒歩5分程度)
スペース:「す」ブロック37a
・「コミックマーケット83」新刊の『紅魔館の統計学なティータイム――市民のための統計学Special』と、『社会の見方、専門知の関わり方――俗論との対峙から考える』が委託販売中です。
『紅魔館の統計学なティータイム』
告知ページ:http://ameblo.jp/kazutomogoto/entry-11422949903.html
とらのあな:http://www.toranoana.jp/mailorder/article/04/0030/08/67/040030086743.html
COMIC ZIN:http://shop.comiczin.jp/products/detail.php?product_id=14496
電子書籍(メロンブックスDL):http://www.melonbooks.com/index.php?main_page=product_info&products_id=IT0000160128
『社会の見方、専門知の関わり方――俗論との対峙から考える』(COMIC ZIN専売)
http://shop.comiczin.jp/products/detail.php?product_id=14728
・「コミックマーケット80」(2011年夏コミ)で出した『青少年言説Commenatries――後藤和智/後藤和智事務所OffLine発言集』を、ニセ科学関係、政策論関係を中心に再編集した普及版『青少年言説Commenatries Lite』や、電子書籍書き下ろしシリーズ「平成日本若者論史Plus」の『ロスジェネ・メディアの世代認識:『AERA』に見るロスジェネ世代の特別視と他世代への攻撃性に関する考察』『「ニート」肯定言説の甘い罠:若年労働問題の「本質」を語る危うさ』など、電子書籍がKindleにて配信中です。
Amazonの著者セントラルはこちらです。
http://www.amazon.co.jp/後藤-和智/e/B004LUVA6I
(2013年4月15日)
奥付
後藤和智の若者論と統計学っぽいブロマガ・第17回「【科学・統計】レビュー系サイト・同人誌のための多変量解析入門(第3回)」
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2013(平成25)年4月15日
連絡先:kgoto1984@nifty.com
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/
Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice