個人情報の複雑なデータセットは、情報サンプル(サブセット)を分離するといった今の匿名化方式では再特定を防げないことを、彼らのモデルは示唆している。
つまり、匿名化して公開された大きなデータセットで、厳格なアクセス制限なくして再特定に対して安全なものはひとつもないということだ。
「私たちの研究が示しているのは、大量にサンプリングされた匿名化データセットであっても、GDPR(EU一般データ保護規則)に明記された最新の基準を満たせず、公開したらそれっきりという非特定化モデルによる匿名化の技術的、法的な妥当性を著しく阻害します」と、インペリアル・カレッジ・ロンドンとベルギーのルーヴァン・カトリック大学の研究者たちは、Nature Communicationsに掲載された論文の要約の中に書いている。
当然ながら今回の研究は、データの匿名化を元に戻せることを初めて証明したものではない。この論文に関わった研究者の一人、インペリアル・カレッジ・ロンドンのイブ=アレキサンダー・デ・モントイ(Yves-Alexandre de Montjoye)氏は、これ以前の研究でも、たとえば、クレジットカードのメタデータから、わずか4つの情報の断片をランダムに抽出するだけで、買い物をした人の90%を、一意の個人として再特定できることを証明している。
スマートフォンの位置情報のプライバシー侵害問題について調査した、デ・モントイ氏が共同筆者となった別の研究論文によれば、たった4つの時空間地点からなるデータセットから、95%の個人を一意に特定することに成功したという。
同時に、寄せ集められたデータから簡単に個人が特定できてしまうというこれらの研究結果があるにも関わらず、マーケティング目的でブローカーが売買しているような匿名化された顧客データセットには、その何倍もの個人の属性データが含まれている恐れがある。
たとえば研究者たちは、データブローカーのExperianがAlteryxにアクセス権を販売した匿名化されたデータセットには、米国の1億2000万世帯の、世帯あたり248の属性データが含まれていたことを引き合いにい出している。
彼らのモデルから見れば、基本的に、これらの世帯はみな再特定される危険性がある。それでも、大量のデータセットが、匿名化という甘い言葉に載せられて、今でも取り引きされている。
個人情報がどれだけ商用目的で取り引きされているかに関して、さらに怖い話を聞きたい方に教えよう。あの悪評高い、すでに廃業した、政界にデータを売る会社Cambridge Analyticaは、昨年、こう話していた。それは、Facebookのデータ不正利用スキャンダルの最中のことだ。米国人有権者をターゲットにした内密な活動の基礎となったデータセットは、Acxiom、Experian、Infogroupといった有名データブローカーからライセンスされたものだった。とくに同社が強調していたのは、「米国人個人の無数のデータ点」は「超大手の信頼あるデータ収集業者とデータ販売業者」から合法的に入手したということだ。
匿名データセットから、驚くほど簡単に個人を再特定できてしまうことを、研究者たちは何年間にもわたり示してきたが、今回の研究の最大の成果は、あらゆるデータセットからどれだけ簡単に個人を特定できるかを見積もれる統計モデルを構築したことにある。
彼らは、データのマッチングが正しい可能性を演算することで、これを実現している。そのため、基本的に、マッチの一意性が評価される。また彼らは、小さなサンプリングの断片がデータの再特定を許してしまうことも突き止めた。
「人口統計と調査データからの210件のデータセットを使って私たちのアプローチを検証したところ、非常に小さなサンプリングデータの断片であっても、再特定の防止や個人データの保護の妨げになることがわかりました」と彼らは書いている。「私たちの方法は、個人の一意性の予測に関してAUC精度で0.84から0.97というスコアを示し、誤発見率も低くなっています。私たちの研究では、米国人の99.98%は、今手に入る匿名化されたデータセットから、年齢、性別、配偶者の有無など、わずか15属性のデータを使って正確に再特定できることがわかりました」。
他の人たちも今回の発見を再現できるように、彼らは実験のためのプログラムを公開するという、通常あまり見かけないプロセスを踏んでいる。また、特定のデータ点に基づくデータセットからどれほど正確に再特定できるかを試せるように、属性を自由に入力できるウェブインターフェイスも作った。
そのインターフェイスにランダムに入力した3つの属性(性別、誕生日、郵便番号)でテストした結果、理論上の個人を再特定できる可能性は、属性をひとつ(配偶者の有無)追加すると、スコアが54%から95%に跳ね上がった。ここから、15件よりもずっと少ない属性データだけでも、ほとんどの人のプライバシーが危険にさらされるということがわかる。
経験からすると、データセットに含まれる属性データが多いほど、マッチングの精度は上がり、したがって匿名化でデータが守られる可能性は低くなる。
これは、たとえばGoogleが所有するAI企業DeepMindが、英国の国民健康保険との共同研究で100万人分の匿名化された目のスキャンデータへのアクセスを許されている件を考えるうえで、とても参考になる。
身体特徴に関するデータは、当然ながらその性質上、個人特有のデータ点を大量に含んでいる。そのため、(文字どおり)視覚データの数ピクセル分などという程度でなく多くのデータを保持している目のスキャンデータは、どれをとっても"匿名化"されていると考えるのは不適当だ。
今の欧州のデータ保護の枠組みは、本当の意味で匿名のデータならば、利用や共有が自由にできることになっているだがそれに対して、その法律が強要している個人情報の処理や利用に関する規制上の要件は厳格だ。
この枠組みは、再特定の危険性については深く認識しており、匿名化データよりもむしろ仮名化データという分類を用いている(仮名化には個人データが多く残っていることが多く、同じ保護の下にある)。十分な要素を取り除いて個人の特定を確実にできなくしたデータセットのみが、GDPRの下では匿名と認められる。
ほんのわずかな属性データしかない場合でも再特定される危険性があることを明らかにしたことで、この研究は、いかなるデータセットも、真に間違いなく匿名であると認定することが極めて難しいことを強調している。
「この研究結果は、ひとつには、再特定には実害がないとする主張、もうひとつには、データセットの一部をサンプリングまたは分離することが説得力のある否定論拠になるという主張を退けるものとなりました」と研究者たちは断言している。
「この研究の結果、1つ目には、ほんの数件の属性データで、非常に不完全なデータセットからでも確実に個人を再特定できることが示され、ふたつめには、データセット、たとえばひとつの病院ネットワーク、またはひとつのオンラインサービスから一部のデータをサンプリングまたは分離すれば説得力のある拒否論拠になるという主張が否定され、そして最終的に、みっつめとして、たとえ母集団一意性が低かろうと(これは、十分に再特定できるデータを匿名と見なすことを正当化する論議だが)、それでも私たちのモデルを使えば、多くの個人が正確に再特定されてしまうリスクを負うことが示されました」。
彼らは、規制当局と議員たちに、データ再特定による危険性を認識し、プライバシーを保護した形でデータ処理が行えると彼らが言う有効な「プライバシー保護を強化するシステムとセキュリティー対策」のための法律面での注意を払うよう訴えることにしている。この保護システムとセキュリティー対策には、暗号化検索とプライバシーを侵さないコンピューター処理、粒度の細かいアクセス制御メカニズム、ポリシーの執行と説明責任、データ来歴など、2015年の彼らの論文からの引用も含まれている。
「EU加盟国や地方の規制当局などにより、匿名化の基準が再定義される場合、それは堅牢で、私たちがこの論文で示したような新しい脅威を考慮したものにならなければなりません。再特定という個人的なリスクと、(たとえデータセットが不完全であっても)説得力のある拒否論拠の欠如を考慮する必要があります。さらに、効率的に人々のプライバシーを守りつつデータの利用を可能にする、広範で有効なプライバシー保護を強化するシステムとセキュリティー対策を法的に承認することも大切です」と彼らは付け加えている。
「今後も当局は、現在の非特定化の実現方法が、GDPRやCCPA(カリフォルニア消費者プライバシー法)などの現代のデータ保護法の匿名化基準に達しているかどうかを自問し、法律や規制の観点から、非特定化して公開したら終わりというモデルを超える必要性を強調するようになるでしょう」。
[原文へ]
(翻訳:金井哲夫)
この記事はTechCrunch Japanからの転載です。
難しいって言っても「デモグラフィック属性」ぐらいなものでしょ?,
性別、誕生日、郵便番号みたいな属性が15項目程度から,匿名に加工されたものから個人を特定できる確率を計算する方法を考えたのでを計算したら99.98%だった.
今まで思っていた以上に特定簡単みたい.
って主張をしている研究の紹介記事で,読みずらいのは直訳だからで文系理系関係ないですし.
「個人特定が可能とする方法」のことではなくて,「個人特定ができる度合いの計算方法を提案して計算したら異様に簡単に特定できそうだと見積もれた」ことを記事にしているのでパズルの例で言いたいこととも違うんだけど.
でもやっぱりパズルで例えた方がわかりやすいのかな?
「99.98%」に該当する特定できる割合の数値を推定する方法を提案したっていう研究なので,実際にデータの99.98%の個人が特定できたかというわけではないそうだし.99.98%も推定値みたい.標準誤差ぐらいは計算してるだろうけど.
アキネイターとかあるんだから断片的な情報があれば個人特定できるわな
そもそも「データの匿名化」が何の事を言ってるのか良くわからん。
パスワードの事?データセットって何?
…ぐらいの人間はそもそも対象にしてないかww
重要なのって一番上の要約と一番下のじゃあどうすればいいのって部分をセットで読まなきゃだめだと思うんだけど。
まあ名前を非公開にしても報道されてる情報から個人情報割り出しちゃうなんて鬼女板の人とか狂信的なファンの人とかやってるからわかりそうなものだと思うんだけれども。
>>1
ものすごい納得しました。要点が文章構造になくて。助かりました。
これが文系の書く文章かぁ。。。世も末
さすがにそれは読解力なさすぎ
世も末とか気にするより先に自分の心配した方がいいと思う……
逆に00.02%で間違うってなんだよ、15項目が完全に一致する個人が2人以上いる場合かそいつが非実在の人物だった場合とかなのかな
チンフェやんけ!
いや、この記事はちょっと良くないと思う。そもそも「個人の特定」が何を指すのかを明確にもしてないし、所詮門外漢向けの正確性にかける記事でしょ。別にそれ自体は良いんだけど、それならもっと直感的に分かる言葉で書いたら良いのに。
しかしこの実験に使ったデータセットとやらは一体何人の個人が含まれてるのかは気になるな。例えば10000データあったとして、そこに含まれる個人が50人とかだったらそりゃクラスタリングで個人に分けることは出来そうだよね。現実の何億という個人が入り乱れるデータセットにどこまで適用できる話なのか。
人間ってわからない言葉をわからない言葉で説明されると理解を停止するのよね。やる気とか関係なく、脳がそういうシステムになってるらしい。
冒頭の『匿名化されたデータセット』『デモグラフィック属性』から始まり、3段落目のつまり~でもう一行づつしっかり読みたい人たちはほぼ全滅やろうな
ななめ読みで要点は掴めるけど、言葉一つ一つの意味とか考えて熟読するのは無理な文章だと思う