ジニ係数についてのちょっとした計算。
ある集団について、ある所得以下の人員(または世帯)の割合を横軸に、集団の総所得に対してそれらの人員の所得が占める割合を縦軸にプロットしたものをローレンツ曲線という。所得の分布が均等な場合のローレンツ曲線を均等分配線と言い、原点(0,0)を通り傾き1の直線になる。ジニ係数とは、ローレンツ曲線と均等分配線に囲まれた面積に2を掛けたものと定義されるが、これは言い換えれば、当該面積(ローレンツ曲線と均等分配線に囲まれた面積)の、y=x, y=0, x=1で囲まれた三角形の面積に対する割合である。この定義から、0 <= ≪ジニ係数≫ <=1となる。人員の所得が均等で格差が全くないとき、ローレンツ曲線は均等分配線に一致するから、≪ジニ係数≫ = 0となる。集団の総所得を、一人の人員が独占しているとき、ローレンツ曲線は0 <= x < 1の範囲でy = 0、x = 1でy=1になるから、当該面積は三角形の面積に一致して、≪ジニ係数≫ = 1となる。つまり、ジニ係数は集団内の所得の不均衡を、0から1の範囲で示す尺度になる。Wikipediaによると、「社会騒乱多発の警戒ラインは、0.4」とされる。
これでジニ係数の定義と計算方法は分かったが、ジニ係数の値そのものに、不均衡の尺度以上の意味を見いだせないだろうか。実は、ジニ係数は、集団内から任意に取り出した二人の人員の所得の差の絶対値の期待値を、集団の平均所得の2倍で割ったものになっている。この結果自体は(英語版Wikipediaの"Gini coefficient"の項にもあるように)比較的広く知られたものと思われるが、計算過程を追ったものが見当たらなかったので、ここに示してみたい。
集団の数をn、昇順に並べた各人員の所得をx_i (1 <= i <= n かつ x_1 <= x_2 <= ... <= x_i <= ... <= x_n)、その平均をとしよう。
横軸の各点 (1/n, 2/n, ... , i/n, ... , n/n) 上での、均等分配線上の値とローレンツ曲線上の値を考える。
均等分配線上の値は、(1/n, 2/n, ... , i/n, ... , n/n)。
ローレンツ曲線上の値は、(x_1/n, (x_1 + x_2)/n, ... , (x_1 + x_2 + ... + x_i)/n, ... (x_1 + x_2 + ... + x_i + ... + x_n)/n)。
したがって、ローレンツ曲線と均等分配線に囲まれた面積を、幅 1/nのn個の矩形の総和として計算すると、
(1/n) * [(1/n - x_1/n) + {2/n - (x_1 + x_2)/n} + ... + {i/n - (x_1 + x_2 + ... + x_i)/n} + ... + {n/n - (x_1 + x_2 + ... + x_i + ... + x_n)/n}]
ジニ係数はこれに2を掛ければよいから、
ジニ係数≫ = (2/n) * [(1/n - x_1/n) + {2/n - (x_1 + x_2)/n} + ... + {i/n - (x_1 + x_2 + ... + x_i)/n} + ... + {n/n - (x_1 + x_2 + ... + x_i + ... + x_n)/n}] ... (1)
(1)式の内の1/nを外に出し、()をほどくと、
≪ジニ係数≫ = (2/n^2) * [1 + 2 + ... + i + ... + n - {x_1 + ( x_1 + x_2) + ... + (x_1 + x_2 + ... + x_i) + ... + (x_1 + x_2 + ... + x_i + ... + x_n)}/] ... (2)
さらに1/を外に出し、1 + 2 + ... + i + ... + n = n(n+1)/2 の等式を用いると、
≪ジニ係数≫ = {(2/n^2)/} * [n(n+1)/2 - {x_1 + ( x_1 + x_2) + ... + (x_1 + x_2 + ... + x_i) + ... + (x_1 + x_2 + ... + x_i + ... + x_n)}]
= {(1/n^2)/} * [n(n+1) - 2{x_1 + ( x_1 + x_2) + ... + (x_1 + x_2 + ... + x_i) + ... + (x_1 + x_2 + ... + x_i + ... + x_n)}]
= {(1/n^2)/} * [(n+1)(x_1 + x_2 + ... + x_i + ... + x_n) - 2{x_1 + ( x_1 + x_2) + ... + (x_1 + x_2 + ... + x_i) + ... + (x_1 + x_2 + ... + x_i + ... + x_n)}] ... (3)
内をx_iについて整理すると、
≪ジニ係数≫ = {(1/n^2)/} * [(-n+1)x_1 + (-n+3)x_2 + ... + (-n+2i-1)x_i + ... + (-n+2n-1)x_n] ... (4)
で、x_iの係数が-n+2i-1となることが分かる。
この係数の意味を考えよう。x_i (1 <= i <= n)は昇順だったから、x_i以下の項はi個、x_iより大きい項はn-i個存在する。1 <= j, k <= nとして、ΣΣ|x_j - x_k|を考えると、x_iの項は2n個存在し、このうち正の項はjが1からi-1を走るi-1個と、kが1からi-1を走るi-1個、それに|x_i - x_i| (= 0)を加えると2i-1個になるから、負の項は、全体の項の数から正の項の数を引いて2n - (2i-1)となる。よって、x_iの係数は(2i-1) - {2n - (2i-1)} = -2n + 4i -2 = 2(-n+2i-1)で、上の係数の2倍になっている。すなわち、
ΣΣ|x_j - x_k| = 2[(-n+1)x_1 + (-n+3)x_2 + ... + (-n+2i-1)x_i + ... + (-n+2n-1)x_n] ... (5)
であるから、(5)式を(4)式に代入すると、
≪ジニ係数≫ = {(1/n^2)/} * ΣΣ|x_j - x_k| / 2
= (ΣΣ|x_j - x_k|/n^2) / 2
で、「集団内から任意に取り出した二人の人員の所得の差の絶対値の期待値を、集団の平均所得の2倍で割ったもの」になっている。
この表式を使うと、0.4というジニ係数が社会騒乱多発の警戒ラインとされるいう意味も、より具体的につかめるようになる。0.4というジニ係数は、平均的な格差が集団の平均所得の0.8倍であるということを意味している。世帯の平均所得が500万円であれば、ランダムに二つの世帯を選んだとき、その格差が400万円であることが(確率的に)推測されるということになる。