面倒なデータマイニング作業を時給200円ぐらいでバングラデシュ人に発注してみた
閉じる
閉じる

新しい記事を投稿しました。シェアして読者に伝えましょう

×

面倒なデータマイニング作業を時給200円ぐらいでバングラデシュ人に発注してみた

2015-04-13 01:48
  • 2
  • 9

先週の金曜に、超会議でお仕事の関係で東京に戻ってきて、そのまま土日はずっとハッカソンをしていた。

疲れ果てつつ充実したハッカソン後

International Space Apps Challenge
(以下ISAC)という、NASAが主催しているハッカソンがある。人工衛星の位置データとか、月面や火星の写真とか、その他ものすごい量の様々なデータを世界中のハッカーに解放して、2日間で何か面白いものを開発もらって、宇宙に親しみを持ってね、というハッカソンだ。

いろいろな都市で行われていて、僕は2011年から東京支部に参加している。会場の大きさの限界だった80人はすぐ埋まったようで、シンガポールに行っていて出れなかった去年はもっと大人数で行われたそうだ。

■NASAのハッカソン
いくつかNASAから課題が提示されているのだけど、昔は「好きに何かやってください」みたいなモノが多く、アウトプットも「星の軌道データから音楽を生成してみた」みたいなふんわりしたモノが多かったが、年を追うごとに参加者もNASAもレベルが上がって、今は
「世界の降雨量をマッピングして、どのぐらい食料の生産量を増やして良いかシミュレーションして欲しい
「無重力で動く、宇宙ステーションの中用のドローンをプロトタイプして欲しい

など、ガチなものが増えてきている。たぶん、NASAが思っていたより、市井のハッカーたちが二日間でできることは大きかったのだろうし、本職の人も参加してきたのだろう。ハッカソンには毎年、JAXAからもプライベートで参加する人とかもいる。

僕はハッカソンだと、技術をつかいつつ笑いを取りに行くアプローチが好きだ。このハッカソンでは2012年に「火星や月のデータを画像解析して人面岩を探す」という冗談プロジェクトを有志と立ち上げた。思ったよりウケたこともあって、チームは継続して、僕もずっと同じプロジェクトにいる。


(火星の人面岩 Wikipediaより)

こういう「月刊ムー」によく出てくるような画像を、画像認識の力で大量に発見しようというプロジェクトだ。プロジェクト名はムーにあやかってマーという。ハッカソン後、ムーの編集長に会いに行ったら「このアプローチは面白い!」と大変に好評だった。


初年度のスライド。ロゴからしてこんな感じである。宇宙文明発見チーム MarsfaceProject from Masakazu Takasu

もともとこういう研究をしていた津田塾大の栗原先生(イグノーベル賞受賞者)や、画像認識に本職な人たちだったハッカソンメンバーなどと一緒にチームを立ち上げて、面白いので毎年続けている、7人だったメンバーは17人ぐらいになった。年に2日間だけの遊びである。
画像認識に関しては本職が参加してWindows Azuleを50台単位で回し、800億ピクセルを探索するなど、圧倒的な技術の無駄遣いがウケたのか、R25みたいなニュースサイトに載ったりもした。毎年、「優秀作になって世界大会には絶対に行かないが、話題には一番なる」というポジションにいる。
賞が取れても取れなくても、普段と違うエンジニアや学生たちとハッカソンやるのは楽しい。どういう雰囲気かはこの委員長の湯村さんによってtogetterにまとめられたツイートを読むのがよい。
付記すると、僕はいろんなハッカソンに参加しているけど、まったくといって良いほどプログラムが書けない。でも、弁当を買ってくるとか資料をまとめるとか、下記にやってるようなことで、エンジニアの役に立ってハッカソンを楽しむやり方はいろいろあるので、どんな人でも時間があったらハッカソン参加してみると良いと思う。何より技術とイメージの産物であっという間に世界は変わるので、技術に長けた人たちと一緒になってイメージを楽しめると、世の中が楽しく過ごせると思う。

ちなみに参加80人に対して、初日の会場泊まり込み人数39名。「おもしろそうだし、できるし、やりたい」と思ったら平然と徹夜してしまう。締め切りが近づくと、「思い入れがあるしできるはずだったんだけどうまくいかない」部分を切り捨てて、ハッカソンの発表会に向けてプロジェクトの整理をみんなではじめる。かといって納得のいかない仕事はできてもやらない。おまえらどれだけ開発することそのものが好きなんだよ。この辺の価値観が合わない人と労働の話をするとだいたい不毛になる。かくいう僕も昔から徹夜ができない人で泊まり込みはしなかったけど、会場から歩けるギークハウス秋葉原にわざわざ宿を取って、起きてる時間はハッカソンフル参加の準備をしていた。


■クラウドソーシング
画像認識で面倒なのは、「コンピュータが人間の顔と判断した」ものが、実際は単なる壁のシミみたいなことが多いことだ。閾値を上げすぎるとまったくヒットしないし、元データが数十億ピクセルレベルなので、平気で「10万個ぐらいの疑わしいデータ」とかがでてくる。最終的にはものすごい数のデータを目で見ることになる。
これを2日間のハッカソンで見ていくのは萎えるけど、機械学習とか統計をやっていく時には避けられない問題でもある。ニコニコデータ研究会で言う根性マイニングだ。

今回、栗原先生が研究として行っている部分から、少し科研費が使えた。もともと全員が興味を持っていた、「面倒な作業をクラウドソーシングにアウトソース」というのを試してみることにした。結果としては、払ったお金は総額数千円なので、飲み会に5000円使える人ならぜんぜんプライベートで払える金額だった。
みんなががりがりプログラム書いてるヨコで、お金の力で何とかするのはそれだけでハック的で面白い。

oDeskは世界最大のクラウドソーシングサービスで、クラウドソーシングというのはヤフオクの反対で「やってほしいこと:お値段」を投稿してやる人を募るサービスだ。仕事をものすごい数の人たち(crowd)に投げて、誰かにやってもらうことを指す。

僕はニコ技深圳観察会に参加してくれた林さんが便利に使っているという話を聞いてoDeskを知った。4/28に、林さんがoDeskの勉強会をひらいてくれるというので、oDeskの事例を細かく知りたい人は行ってみると良いと思う。たぶん僕も行きます。

oDeskには、「ネイティブじゃない僕が書いた英文を添削してください、1500ワード:$10」とか決めると世界中から仕事をもらいにくる。単なるYes/Noだけじゃなくて、「そんなの$5でやるよ」とか「$12ならやる」みたいな提案もあるし、全員が履歴書のようなものを持っていて、過去の仕事の一覧や評価も見れる。
ある程度規模のでかい仕事(デザインとかアプリ開発とか)は、「全部で$100なんだけど、ラフで$50,のこりは完成してから」のようにマイルストーンを切って発注することもできる。

■画像から顔が見えるかどうかを外注しよう
今回お願いしたのは、画像認識プログラムからは「顔有り」で出てきた数千枚の画像から、「ホントに人間が見て顔っぽい画像」を出すという作業だ。
今の僕らのチームの画像認識では、

こういう「ビンゴ!」も見つけてくれることがありながら、

これぐらいまで顔と認識してしまう。
画像認識はクラウド上で行っていたので、ファイルは全部URLを持っていて、Web越しにアクセスできる。
あまり量が多いとやる方も作業がいい加減になるので、GoogleスプレッドシートでWeb上に400件程度のスプレッドシートを作って、顔の有無をYes/Noで答えられるようにした。



ためしに数件は自分たちでやってYes/Noのサンプルを作って、oDeskにジョブを立て、仕事を依頼した。


「画像400件振り分けお願いします。値段は$5。ファイルはこのGoogleスプレッドシートから見れます。サンプルを見てYes/Noをつけてください。」

アップすると、30分ぐらいで4-5人からオファーが来る。こういう値段と仕事だと、来るのはフィリピン・バングラデシュ・インド・パキスタンといった、英語圏でお給料が安いところだ。最初は「データ入力」のカテゴリで仕事を出していたが、「データマイニング/機械学習」にカテゴリを変えたところ、パキスタンは減って、バングラデシュのエンジニアっぽい人の比率が上がる。


仕事をしてくれた一人のバングラデシュ・ダッカ住まいの人。「自分で工夫します、Webのスクレイプやデータマイニングやります」というキャッチコピー。ほかに、Photoshopでクリッピングパスで背景抜くのウマイよとか、そういうアピールのデザイナーも多い。

各人と、「君に選んだよ、お仕事お願い、すぐやって」とか、「終わったよ」とか、「これどうすればいいの?」みたいなやりとりがサイト上のメッセージで始まる。同時に6本プロジェクトを立ち上げたので、たちまちメールボックスはメッセージで埋まる。



人によっては、作業後に提案をしてくれることもある。フィリピンのCristinaさんは、
「選択肢を、人の顔と動物の顔とエイリアンの顔にわけた方がいい」と提案してくれた。
僕らから見たら安い時給だけど、メール見てると、彼らが前向きにきっちり仕事しよう、としてるのがわかる。個人ごとにレビューがついて、評判に関わるし、たぶんそういう構造は個人のモチベーションをすごく高める。日本国内みたいに閉じた環境だと、嫌々仕事しててもやすい仕事がまわってきそうだけど、oDeskだとたいていの仕事は取り合いになるから、前向きじゃないとやれなさそうだ。1ジョブ数時間でチャリンチャリン入ってくるのは楽しそうだし。(漫画家の西原理恵子も、一枚いくらと決まっているカット描きは楽しいと言っていた)
僕も、オンラインとはいえ、やる気ある人と働くほうが楽しい。

■外注した結果
oDesk経由の人たちは本当に速い。案件を立ててから、数人の応募が来るまでせいぜい30分。お願いして、2-3時間ぐらいで作業を終えていた。たしかに1分3-4枚ぐらいかかるし、回線が向こうの方が遅そうなので、2時間というのはいいタイミングだ。こちらが別の作業を終えたり、食事から帰っていると完了報告がバンバン入ってきた。結果がわかりやすいので、簡単に確認してすぐOKを出し、Paypal経由で$5を払う。(もうちょい安い人もいた)
最終的に、彼らが「顔である」と認めたものから、チーム内でよりイケる顔画像を選んだ。
今回の進化で、僕らのチームはいっぱい賞状や賞品をもらった。
ぼくは今回のハッカソンでoDesk経由でいろんな人とやりとりした経験そのものが充分面白く、もっといろんなJobを頼んでみたいなあとも思った。


僕らの「マー」プロジェクト全体は、栗原さんのスライドにまとめられている。ココに書いたクラウドソーシング以外も、合計17名のメンバーがいろんな事をしたのだ。

■グローバル化やばい
oDeskには他にもいろんな仕事がある。
・ロゴデザイン
・英文のネイティブチェック
・講演データ文字起こし
・手書きデータ清書(たぶん一回スキャンしてwebに上げるのかな)
・Webからのデータスクレイピング(たとえば、施設の名前の一覧に、ググって住所を入れてもらうとかそういうことだ)
・適当に地図と必要情報を渡すからポスターデザイン、店のメニューデザイン
・資格のある人に会計書類を書いてもらう
・写真と図、スクリプトをテキストで渡すのでいい感じに動画にしてもらう(結婚式ムービーみたいな奴)
・iOS/Android/Webアプリ開発
打ち合わせが頻繁に発生する仕事、何回もプロトタイピングを繰り返しながらゴールに向かう仕事は難しいだろうけど、タスク単位で簡単に切り出せて、せいぜい数日で終わる仕事は充分使えそうだ。
学生さんも、Wordで書いた文書をTeXにマークアップしてもらうとか、海外の講義で文字起こしとかで仕事を頼めるんじゃないか。
「基本的に仕事を頼む人間は仕事をもらう人間より給料が高いという資本主義の法則を見た」
という、教育者を含めた大人たちからのコメントもあった。早めにやっておくと世の中に対するひとつの経験になるので良いと思う。

実際、案件の作り方とか、メールの書き方はどれもそれなりに頭も気も使う。こういうところをいい加減にしてる今回、「顔以外でもいいから、面白いモノを見つけたらボーナスで$5払う」とか書いておいたり、「400個から一番顔っぽい4つを選んでくれ」だったらもっと効果的だったかも。
今回の画像認識のクオリティは、同時に試したIBMの人工知能WATSONよりも遙かに高かった。IBMは今回のハッカソンにスポンサードしてくれて、僕らはワトソンを無料で使えたけど、時間当たり単価もバングラデシュ人のほうが安いんじゃなかろうか。

Googleスプレッドシート経由なので、ブラウザで同じシートを開いていると作業の様子が逐一見える。空白のセルが一件一件Yes/Noに変わっていく様子を、ハッカソンで徹夜中でテンションのおかしくなったメンバーが見ながらゲラゲラ笑っていたが、同時に怖くなったりもした。トウキョウで好きで徹夜してるサラリマン・ハッカーが遊戯で発注したジョブをバングラデシュのワーカーがリモートでオペレーションしているのはなんたるマッポー的なワザマエ!アイエエエエエエ!

こういう流れは止めてもたぶん止まらない。インターネットで海外の機器を通販してるのと、今回oDeskで仕事を投げたことはたぶんセットで、「僕らに都合のいいものだけ受け入れる」ことはできないし、そういうことをやろうとするとたぶん全体的においていかれる。
いつか僕らが、もっとお金持ちの国の人たちの気晴らしで日銭を稼ぐときが来るのかもしれないなあと、「おわったよ、早くお金を払ってくれ」というメールを見ながら思ったりした。



追記:宣伝
落合さんの「日本のITが永遠にアメリカに勝てない理由」にしてもこのエントリにしても、グローバルの話はアツいので、セッションをニコニコ学会でやります。
海外ネタはよくヒステリックに反応する人が出てきて収集つかなくなることがあるので、放送禁止の「夜のニコニコ学会」として、ニコニコ超会議初日の夜、4/25土 19:00から海浜幕張駅近くのレストランでやります。
レストランで食事つき飲み放題なのでチケットが税込6000円になってますが関係者一同ボランティアで行っています。SNSでやれない質問なども受けるのでご興味ある方は是非。

外のニコニコ学会 -海外と/海外で研究してみた-
http://peatix.com/event/83125



追記その2:
マーチーム、さらに追加でIBM賞を受賞!

マーチームは、積極的にBluemixのWatson画像認識サービスを活用し、人工知能Watsonとクラウドソーシングによる人力の集合知との対比を、エンターテイメント性あふれる研究成果として発表されました。くわえてその開発過程で独自に得られた技術的知見をQiitaで公開。その内容はIBMのエンジニアチームにも認められ、デベロッパー向け情報サイト「IBM developerWorks」に転載されることも決まりました。積極的に新しいテクノロジー活用に挑戦するチャレンジ精神とオープンな姿勢を評価させていただきました。

賞品は「IBM Bluemix 1年間 $12,000の利用権」です。

人工知能と人間の対決は、テーマとして面白そうなので、今後もハックが捗りそうです。すでにksasaoさんは、WATSONの飯画像判定機能を使ったtwitter飯テロ検出器を作っています。

来年に向けて、マーこと宇宙文明発見チームの活動にご期待ください!


広告
×
外注して、それで賞とりましたー!って、全然威張れる要素無くね?
もらった景品とか賞は返すべきでしょう。
20ヶ月前
×
>>1
プロジェクト全体の多くの要素の内、一部要素である目視の単純作業を外注して効率化した。しかも人力とWATSONとの比較要素もあったりして興味深い。プロジェクトととしては十分でしょ。賞の返還とか何を馬鹿なこと言ってるんだ?
20ヶ月前
コメントを書く
コメントをするには、
ログインして下さい。