市区町村別一人あたり面積をプロットしたらロングテールだった  の続きです。

 市区町村別の人口密度から一人あたり面積を計算して、面積が大きい人からずらっと全人口分並べてプロットするとロングテールになってたという話でした。グラフを再掲するとこちら。左右同じグラフで、軸の目盛りの取り方が普通(左、リニア)と対数(右、1,10,100,..)になっています。
ffa8c7d174fa7b994b83dabebbe5028561658a6be127de7ad280e1d989158750f12a1147408f42cb
 で、当然他の国がどうなっているか気になるわけで、さっそく直接アメリカの国勢調査のサイトに行ったのですが、データが州ごとに分かれているのしか見つけられず、うーと はまった後、おとなしく日本語でググったら、アメリカ・人口密度ランキング(郡別)というそのものズバリのベージがすぐに出てきました。最初からググればよかった……。

 ということで、アメリカの郡別(州より一つ下)人口密度から日本と同じように計算して一緒にしたのがこれです。
b817e815309abc6959e4e112b9c804d502424fad
 国民の数が違うので、順位を全国総人口で割った正規化した順位に揃えています。日本と一緒で、いやむしろ日本よりきれいなロングテールの分布をしています。

 青線は全体的に赤線のはっきり上にあって、これはつまりアメリカ人の方が人口密度が低いということです。これは当然ですね。

 一番右端を見ると、アメリカ37平方メートル、日本46平方メートルと同じような狭さになっていますが、アメリカの曲線は鋭く切り立っていて、つまりアメリカではその高度に過密な地区、たとえば1000平方メートル以下に住む人の割合がごく限られていることがわかります。それに対して日本の曲線の右端部分は滑らかです。これは順位の軸を普通(リニア)に戻すとよりはっきりします。
d55d26d9ebcc953fe939c093282f4b8e297c92ff

 ご覧のように、右端の部分ではっきりと差が出ます。
 アメリカでは約10%弱の人は特に高度に過密な地区に住んでいますが、日本では面積の変化はなだらかです。つまりアメリカでは、他の地区に比べてここは都会という違いがはっきりしているはずで、一方日本は、超大都会から地方都市までの街の込み具合の変化がなだらかで線引きが難しいでしょう。

 元のグラフに戻りましょう。全体的な傾向を見るために、直線を入れてみます。
8ce2d450c40d6358cad6f1fa0449e0c02cdbb712

 アメリカでは右端を除くと、とても直線的で傾きも急です。これは、いわゆるべき乗則と呼ばれる分布にかなり近い形です。
 一方日本の方は、傾きが鈍いだけでなく、さらに全体的にたわんだ曲線です。

 これは、大きな違いをもたらしますが、このまま説明するのは難しいので、新しいグラフを導入します。

順位規模ごとの合計値を集計する

 今例題として、次のような状況を考えます。
 ミラフツ県には、
 一人あたり面積 10,000m2 のところに   1人住んでいる。
 一人あたり面積  1,000m2 のところに  10人住んでいる。
 一人あたり面積   100m2 のところに  100人住んでいる。
 このとき、各面積の人が住んでいる総面積はどれも、10000×1 = 1000×10 = 100×100 =  10,000m2 になります。広いところに住んでいる人もいれば、狭いところに住んでいる人もいるのが満遍なく起こっている状況です。

 グラフにするとこんな感じになります。
e09e9f2930fe59928c14130c2aa66c9a055b2f2f
 つまり、ミラフツ県には人口密度の高いところ中くらいのところ低いところが面積にして3分の1ずつあるということです。
 
 このように、この集計が満遍ないとき、元の分布はロングテールになっています。ロングテール分布としてまず最初に取り上げられる「べき乗則」では、この集計は上記のグラフのように真っ平らになります。

 (注:このことは逆に「べき乗則」はロングテール分布としては、現実にはあり得ない理論上の分布であることを示しています。なぜなら、これが必ず成り立つなら、100,000m2 のところも  0.1人住んでないといけないし、1m2 のところに  10,000人住んでいないといけないしと、両端に終わりがありません。現実は必ず両端は下がります。そのためにより現実のロングテール分布に近いものとして、たとえば DPLN分布といったものがあります。残念ながら、日本のウェブサイトにDPLN分布の情報はほとんどありません。たとえば The Double Pareto-Lognormal Distribution – A New Parametric Model for Size Distributions. といった論文を参照する必要があります。)

 さて、手元にある日本とアメリカのデータで、順位規模ごとの合計面積を集計すると次のようになります。
500b490d929f49f3c889583f2f56019b5f63f84b
 二国を比べるため正規化してしまっているので目盛りが小数点ばかりですが、左の方は広いところに住んでいる人の面積の合計、右の人は狭いところに住んでいる人の面積の合計になっています。

 このグラフから分かることは、アメリカの方が一人あたり面積が多様であるということです。グラフ曲線が比較的平らだからです。人がまばらなところも、密なところもそこそこ同じくらいあるということです。

 逆に日本は、人がまばらなところはあまりありません。日本の国土のほとんどは中くらいかそれより大きめの人口密度のところということになります。

 言い換えると、アメリカの人は、住む場所として、人口密度が高いところから低いところまでより自由に選べますが、日本では人口密度が低い場所に住もうとしても、そういう場所は限られていることになります。

順位規模ごとの合計値は簡単に計算できる

 さて、順位規模ごとの合計値について集計しようとすると、結構手間です。エクセルなんかだと、規模ごとの区間を設定してそれに合うデータを合計して、とかなり時間がかかります。また、区間の区切りをあまり細かくするとデータがない箇所ができてなにかと面倒です。

 しかし、素晴らしいことに、このグラフは簡単な計算で作ることができます。冒頭の方の一人あたり面積のグラフで、横軸を x、縦軸を f(x) とすると、新たに横軸はそのまま xで、縦軸を x・f(x) に置き換えるだけです。そうやって作ったのがこちら。
f07976203d317961198b028f0fd4d6499f013e38
 見事に同じ形になります(縦軸の数値が微妙に違うのは目をつむってください)。

 この計算版は極めて強力です。この例ではデータの数が1700とか3100とかあるので同じ形がでますが、データの数が10個程度になると集計ではどうしようもありません。しかし、計算ならきちんと形が出るのです。

順位規模ごとの合計値でロングテールを手なずけよう

 このように、順位規模ごとの合計値のグラフを作ることで、ロングテールの全体的な傾向を把握することができるようになります。

 なお、この順位規模ごとの合計値というグラフで解析する方法は他で見たことがありません。7年前くらいに考えて、ちょっと調べたり人に聞いたりしましたが、海外を含めてありませんでした。ましてや、 x・f(x)で、同じグラフが得られるというのも見たことありません。論文にしようかという話もあったのですが、専門分野でもなくて面倒なのでしてません。

 ということで、この件はググっても他でもなかなか出てきませんが、7年間大変便利使っていますので、ロングテール扱う人には超お薦めです。ぜひこの方法を使ってロングテールを手なずけてください。

 さて、このグラフについて何が起こっているか解説を加えておきます。前半にグラフに直線引いて立てたフラグの回収です。