閉じる
閉じる
×
後藤和智の若者論と統計学っぽいブロマガ
第29回:【科学・統計】レビュー系サイト・同人誌のための多変量解析入門(最終回:テキストマイニング)
この連載企画も最後となります。この連載企画の締めとして、テキストマイニングという手法について解説します。
テキストマイニングとは、テキストデータを単語ごとなどに分け、それをもとにして統計解析を行う手法のことです。特に動詞や名詞などの品詞(形態素)ごとに分ける手法を形態素解析と言い、通常のテキストマイニングはこの形態素解析によって得られた手法を元に行うのが一般的です。
この連載では、フリーの統計ソフト「R」を使って分析を行ってきましたが、形態素解析もRで可能です。用いるのはフリーの形態素解析ツール「MeCab」と、これをR上で動かせるようにするツール「RMeCab」です。MeCabとRMeCabはそれぞれ次のサイトから取得します。なお、前提としてRをインストールしている必要があります。また、RMeCabを使えるようにするには、library(RMeCab)でパッケージを読み込むことが必要となります。
MeCabサイト:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
RMeCabサイト(石田基広):http://rmecab.jp/wiki/index.php?RMeCab
上記の2つのソフトのインストールが終わったら、Rで形態素解析を行ってみましょう。例えば、「俺の妹がこんなに可愛いわけがない」という文字列があるとする場合、これを形態素ごとに分けると次のようになります。コマンドはRMeCabC(文字列)というものになります。
―――――
> RMeCabC("俺の妹がこんなに可愛いわけがない")
[[1]]
名詞
"俺"
[[2]]
助詞
"の"
[[3]]
名詞
"妹"
[[4]]
助詞
"が"
[[5]]
副詞
"こんなに"
[[6]]
形容詞
"可愛い"
[[7]]
名詞
"わけ"
[[8]]
助詞
"が"
[[9]]
形容詞
"ない"
―――――
MeCabとRMeCabを使えば、この通り文章を品詞に分けて分析することができるわけです。ただ、本格的な形態素解析の場合は、複数の文章の形態素を解析する必要があります。そのときは、Rの作業フォルダの中にテキストファイルを詰め込んだフォルダを作成し(仮にこれの名前を"text"とします)、その中のテキストを一気に読み込むコマンドがあるので、それを使います。
単純に形態素を抽出する場合:docMatrix2("text",pos=c(品詞),minFreq=最低観測回数)
単語動詞のつながり(N-gram)を抽出する場合:NgramDF2("text",N=つなげる単語数,pos=c(品詞),minFreq=最低観測回数)
品詞の欄には、名詞、動詞、形容詞、副詞、助詞、助動詞、接続詞、感動詞が指定可能で、名詞と動詞のみを分析したい場合は、pos=c("名詞","動詞")と入力します。また長い文章を分析する場合は、minFreqを使って、すべてのテキストの合計で、一定の回数以上観測されないものはデータから外す、というものも可能です。長い文章や、あるいはテキストの数が多いと、分析に時間がかかってしまうため、注意が必要です。なお、minFreqは省略可能です。
N-gramというのは、単語動詞のつながりを示す指標です。先ほどの「俺の妹がこんなに可愛いわけがない」なら、観測するのを名詞・動詞・形容詞にすると、N=2なら「俺-妹」「妹-可愛い」「可愛い-わけ」「わけ-ない」、N=5なら「俺-妹-可愛い-わけ-ない」というものが抽出されます。長い文章を分析したり、あるいは分析するテキストの数が多かったら、単語による分析のほかにも、このN-gramによる分析も並行して行うと、新たな発見が見つかるかもしれません。
なお、RMeCabを用いたテキストマイニングについては、詳しい解説はRMeCabの開発者である石田基広の『Rで学ぶテキストマイニング』(森北出版)を、また私が行った実例として以下の記事をご覧ください。
石田基広『Rで学ぶテキストマイニング』
http://www.amazon.co.jp/dp/4627848412/
実例…
「インターネット世論調査はどうあるべきか?」(初出:『津田大介の「メディアの現場」』66号)
http://tsuda.ru/tsudamag/2013/02/2033/
『統計学で解き明かす成人の日社説の変遷』(杜の奇跡20)
http://ameblo.jp/kazutomogoto/entry-11489088720.html
『都条例メディア規制の形成』(コミックマーケット84)
http://ameblo.jp/kazutomogoto/entry-11586906736.html
【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第30回:【思潮】「草食系男子」論とは何か(第3回:非モテ――「当事者」の語りとそれがもたらした爪痕)(2013年9月15日配信予定)
第31回:【政策】現代学力政策概論(第1回:全国学力テスト(前編))(2013年9月25日配信予定)
第32回:【科学・統計】(未定)(2013年10月5日配信予定)
第33回:【思潮】高学歴は罪なのか?(仮題)(2013年10月15日配信予定:「第9回東方紅楼夢」のサークルペーパーとして配信予定です)
第34回・第35回(合併号):【思潮】(未定)/【書評】秋の書評祭り(2013年11月5日配信予定:前者は「SUPER ADVENTURES 69」のサークルペーパーとして、後者は「杜の奇跡21」のサークルペーパーとして配信予定です)
【近況】
・「第9回東方紅楼夢」にサークル参加します。
開催日:2013年10月13日(日)
開催場所:インテックス大阪(大阪府大阪市住之江区)
アクセス:大阪市営南港ポートタウン線「中ふ頭」駅より徒歩3分程度、または大阪市営地下鉄中央線「コスモスクエア」駅より徒歩15分程度
スペース:6号館「B」ブロック11a
・「第十七回文学フリマ」にサークル参加します。
開催日:2013年11月4日(月・祝)
開催場所:東京流通センター(東京都港区)
アクセス:東京モノレール「流通センター」駅より徒歩すぐ/京急本線「平和島」駅よりバス
スペース:未定
・本年9月に、日本図書センターより5年ぶりの商業新刊『「あいつらは自分たちとは違う」という病――不毛な世代論はもうやめよう』が刊行されます。内容としては戦後の若者論の歴史をたどるものとなります。
・「コミックマーケット84」の第1新刊『R Maniax――フリーの統計ソフト「R」を使いこなす本』がメロンブックス・COMIC ZIN・とらのあなにて委託販売中です。また第1新刊及び第2新刊『都条例メディア規制の形成』の電子版の配信もKindleで始まりました。
『R Maniax』告知ページ:http://ameblo.jp/kazutomogoto/entry-11575471627.html
『都条例メディア規制の形成』告知ページ:http://ameblo.jp/kazutomogoto/entry-11586906736.html
・「サンシャインクリエイション60」新刊の『「働き方」を変えれば幸せになれる?――平成日本若者論史7』のKindle版がリリースされました。
http://www.amazon.co.jp/dp/B00DKCYYJ8/
・ 「第10回博麗神社例大祭」新刊の『古明地さとりの自己形成論講義――市民のための「自己」をめぐる社会科学講座』と『新・幻想論壇案内――東方 Project系「評論・情報」コンテンツの新たな展開』がメロンブックス、とらのあな、COMIC ZINで発売中です。またいずれも電子版もメロンブックスDLで配信中です。詳しくは告知ページをご覧ください。
『古明地さとりの自己形成論講義――市民のための「自己」をめぐる社会科学講座』告知ページ:http://ameblo.jp/kazutomogoto/entry-11524050938.html
『新・幻想論壇案内――東方Project系「評論・情報」コンテンツの新たな展開』告知ページ:http://ameblo.jp/kazutomogoto/entry-11524045526.html
(2013年9月6日)
奥付
後藤和智の若者論と統計学っぽいブロマガ・第29回「【科学・統計】レビュー系サイト・同人誌のための多変量解析入門(最終回:テキストマイニング)」
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2013(平成25)年9月6日
連絡先:kgoto1984@nifty.com
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/
Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice
第29回:【科学・統計】レビュー系サイト・同人誌のための多変量解析入門(最終回:テキストマイニング)
この連載企画も最後となります。この連載企画の締めとして、テキストマイニングという手法について解説します。
テキストマイニングとは、テキストデータを単語ごとなどに分け、それをもとにして統計解析を行う手法のことです。特に動詞や名詞などの品詞(形態素)ごとに分ける手法を形態素解析と言い、通常のテキストマイニングはこの形態素解析によって得られた手法を元に行うのが一般的です。
この連載では、フリーの統計ソフト「R」を使って分析を行ってきましたが、形態素解析もRで可能です。用いるのはフリーの形態素解析ツール「MeCab」と、これをR上で動かせるようにするツール「RMeCab」です。MeCabとRMeCabはそれぞれ次のサイトから取得します。なお、前提としてRをインストールしている必要があります。また、RMeCabを使えるようにするには、library(RMeCab)でパッケージを読み込むことが必要となります。
MeCabサイト:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
RMeCabサイト(石田基広):http://rmecab.jp/wiki/index.php?RMeCab
上記の2つのソフトのインストールが終わったら、Rで形態素解析を行ってみましょう。例えば、「俺の妹がこんなに可愛いわけがない」という文字列があるとする場合、これを形態素ごとに分けると次のようになります。コマンドはRMeCabC(文字列)というものになります。
―――――
> RMeCabC("俺の妹がこんなに可愛いわけがない")
[[1]]
名詞
"俺"
[[2]]
助詞
"の"
[[3]]
名詞
"妹"
[[4]]
助詞
"が"
[[5]]
副詞
"こんなに"
[[6]]
形容詞
"可愛い"
[[7]]
名詞
"わけ"
[[8]]
助詞
"が"
[[9]]
形容詞
"ない"
―――――
MeCabとRMeCabを使えば、この通り文章を品詞に分けて分析することができるわけです。ただ、本格的な形態素解析の場合は、複数の文章の形態素を解析する必要があります。そのときは、Rの作業フォルダの中にテキストファイルを詰め込んだフォルダを作成し(仮にこれの名前を"text"とします)、その中のテキストを一気に読み込むコマンドがあるので、それを使います。
単純に形態素を抽出する場合:docMatrix2("text",pos=c(品詞),minFreq=最低観測回数)
単語動詞のつながり(N-gram)を抽出する場合:NgramDF2("text",N=つなげる単語数,pos=c(品詞),minFreq=最低観測回数)
品詞の欄には、名詞、動詞、形容詞、副詞、助詞、助動詞、接続詞、感動詞が指定可能で、名詞と動詞のみを分析したい場合は、pos=c("名詞","動詞")と入力します。また長い文章を分析する場合は、minFreqを使って、すべてのテキストの合計で、一定の回数以上観測されないものはデータから外す、というものも可能です。長い文章や、あるいはテキストの数が多いと、分析に時間がかかってしまうため、注意が必要です。なお、minFreqは省略可能です。
N-gramというのは、単語動詞のつながりを示す指標です。先ほどの「俺の妹がこんなに可愛いわけがない」なら、観測するのを名詞・動詞・形容詞にすると、N=2なら「俺-妹」「妹-可愛い」「可愛い-わけ」「わけ-ない」、N=5なら「俺-妹-可愛い-わけ-ない」というものが抽出されます。長い文章を分析したり、あるいは分析するテキストの数が多かったら、単語による分析のほかにも、このN-gramによる分析も並行して行うと、新たな発見が見つかるかもしれません。
なお、RMeCabを用いたテキストマイニングについては、詳しい解説はRMeCabの開発者である石田基広の『Rで学ぶテキストマイニング』(森北出版)を、また私が行った実例として以下の記事をご覧ください。
石田基広『Rで学ぶテキストマイニング』
http://www.amazon.co.jp/dp/4627848412/
実例…
「インターネット世論調査はどうあるべきか?」(初出:『津田大介の「メディアの現場」』66号)
http://tsuda.ru/tsudamag/2013/02/2033/
『統計学で解き明かす成人の日社説の変遷』(杜の奇跡20)
http://ameblo.jp/kazutomogoto/entry-11489088720.html
『都条例メディア規制の形成』(コミックマーケット84)
http://ameblo.jp/kazutomogoto/entry-11586906736.html
【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第30回:【思潮】「草食系男子」論とは何か(第3回:非モテ――「当事者」の語りとそれがもたらした爪痕)(2013年9月15日配信予定)
第31回:【政策】現代学力政策概論(第1回:全国学力テスト(前編))(2013年9月25日配信予定)
第32回:【科学・統計】(未定)(2013年10月5日配信予定)
第33回:【思潮】高学歴は罪なのか?(仮題)(2013年10月15日配信予定:「第9回東方紅楼夢」のサークルペーパーとして配信予定です)
第34回・第35回(合併号):【思潮】(未定)/【書評】秋の書評祭り(2013年11月5日配信予定:前者は「SUPER ADVENTURES 69」のサークルペーパーとして、後者は「杜の奇跡21」のサークルペーパーとして配信予定です)
【近況】
・「第9回東方紅楼夢」にサークル参加します。
開催日:2013年10月13日(日)
開催場所:インテックス大阪(大阪府大阪市住之江区)
アクセス:大阪市営南港ポートタウン線「中ふ頭」駅より徒歩3分程度、または大阪市営地下鉄中央線「コスモスクエア」駅より徒歩15分程度
スペース:6号館「B」ブロック11a
・「第十七回文学フリマ」にサークル参加します。
開催日:2013年11月4日(月・祝)
開催場所:東京流通センター(東京都港区)
アクセス:東京モノレール「流通センター」駅より徒歩すぐ/京急本線「平和島」駅よりバス
スペース:未定
・本年9月に、日本図書センターより5年ぶりの商業新刊『「あいつらは自分たちとは違う」という病――不毛な世代論はもうやめよう』が刊行されます。内容としては戦後の若者論の歴史をたどるものとなります。
・「コミックマーケット84」の第1新刊『R Maniax――フリーの統計ソフト「R」を使いこなす本』がメロンブックス・COMIC ZIN・とらのあなにて委託販売中です。また第1新刊及び第2新刊『都条例メディア規制の形成』の電子版の配信もKindleで始まりました。
『R Maniax』告知ページ:http://ameblo.jp/kazutomogoto/entry-11575471627.html
『都条例メディア規制の形成』告知ページ:http://ameblo.jp/kazutomogoto/entry-11586906736.html
・「サンシャインクリエイション60」新刊の『「働き方」を変えれば幸せになれる?――平成日本若者論史7』のKindle版がリリースされました。
http://www.amazon.co.jp/dp/B00DKCYYJ8/
・ 「第10回博麗神社例大祭」新刊の『古明地さとりの自己形成論講義――市民のための「自己」をめぐる社会科学講座』と『新・幻想論壇案内――東方 Project系「評論・情報」コンテンツの新たな展開』がメロンブックス、とらのあな、COMIC ZINで発売中です。またいずれも電子版もメロンブックスDLで配信中です。詳しくは告知ページをご覧ください。
『古明地さとりの自己形成論講義――市民のための「自己」をめぐる社会科学講座』告知ページ:http://ameblo.jp/kazutomogoto/entry-11524050938.html
『新・幻想論壇案内――東方Project系「評論・情報」コンテンツの新たな展開』告知ページ:http://ameblo.jp/kazutomogoto/entry-11524045526.html
(2013年9月6日)
奥付
後藤和智の若者論と統計学っぽいブロマガ・第29回「【科学・統計】レビュー系サイト・同人誌のための多変量解析入門(最終回:テキストマイニング)」
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2013(平成25)年9月6日
連絡先:kgoto1984@nifty.com
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/
Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice