感覚がヘタレならとりあえずは理屈から、ということで音階について自分なりにまとめてみる。ただ、これは自分なりのニュアンスでざっと書き上げた素描なので、言葉の使い方にも話の展開にも音楽学的・数学的に細かいアラはあると思う。
まず人間の音に対する感覚に関して二つの前提から始める。
(a)人間の感覚には、ある音とその倍の周波数(振動数)をもつ音を「同等」、「同カテゴリー」と捉える認識形式が備わっている。ここで「同等」と捉えられたものを「音」と呼ぶ。同じ「音」には同じ「音名」が与えられる。
(b)人間の感覚にはまた、同時に鳴らされた簡単な整数比で表わされる周波数をもつ二つの音の間に、ある種の美的な調和を見出す能力が備わっている。その調和を「ハーモニー」と呼ぶ。
たとえば光における色彩の感覚において、二つの異なる波長をもつ色を「同等」と感じる形式が備わっていないことを考えると、(a)は音楽にとって著しい特徴であるといえる。この性質によって、音楽においては、20〜20000Hzにわたる可聴な振動数空間がオクターブという対数的に等間隔の領域(realm)によって構造化される。
(b)には、「簡単な整数比で表わされる二つの音波は、重ね合わせによって二つの簡単な整数比の振動数をもつ波動の積であらわされる」という物理的根拠がある。二つの振動数をn,mとするとcos(nt)+cos(mt)=2cos(1/2(n+m)t)cos(1/2(n-m)t)。n,mが整数比で表わされるとき、n+m:n-mも整数比。人間がハーモニーとして感じる美的感覚のおおもとには、この波動の形の規則性がある。
(a)で与えられたオクターブという構造の中に、(b)の性質を利用して更に細かい構造を見出していくことを当面の目標とする。そのために(a)で使われた1:2の次に簡単な整数比として1:3を想定して次の操作を考える。
(操作1)ある振動数1に任意の回数だけ3を掛ける。
(操作2)その数を適当な回数だけ2で割って[1,2]のオクターブ範囲に抑える。
最も簡単な例は、(操作1)で1回3を掛け、(操作2)で1回2で割るというもの。この操作から得られる3/2という振動数によってオクターブの中に1:3/2:2=2:3:4という比の音の配列が得られる。次の例は(操作1)で2回3を掛け、(操作2)で3回2で割るというもの。この結果は9/8となり、音の配列は1:9/8:3/2:2=8:9:12:16となる。さてこの操作を繰り返していくとどうなるだろう。厳密には2と3は互いに素であるので、作業は回帰することなく永遠に続いていく。オクターブは3^n/2^mの形で表わされる無限個の有理数振動数の音で埋められていくことになる。有理数であるので任意の二音は(人間が感知できるかは別として)厳密にはハーモニーの関係にあるが、これらの音の配列を用いて音楽を奏でようとすると鍵盤楽器なら1オクターブ内に無限個のキーが必要になってしまう(弦楽器なら問題ない)。そこで具体的に操作を進めていきながら妥協の道を探っていこう。すると12回目の作業によって得られる振動数に好都合な特徴があることに気づく。3^12/2^19=1.013643となり、最初の振動数にきわめて(?)近い値に帰ってくるのである。ここで3^12/2^19≒1とする近似を考える(これは変形すると(3/2^1.5)^12≒2)。この式を使うと最初に操作によって得られた振動数3/2は近似的に3/2≒(3/2^1.5)^7に、二回目の操作によって得られた9/8≒(3/2^1.5)^2となることが分かる。つまり一回の操作は、(3/2^1.5)を7回乗することに相当し、それを12回繰り返すことで振り出しに戻る。これは整数論で見慣れた問題である。つまり7と12が互いに素であることにより、7の整数倍していった数を12で割った余りは、7,2,9,4,11,6,1,8,3,10,5,0と12回目で元に戻る。これによってオクターブの中に対数的に等差な12の音を配置することに成功した。以後この比を正確に2^(1/12)としよう。こうして均等に配置された12個の音の列を平均律と呼ぶ。これでピアノの鍵盤のキーが12種類あり隣り合うキーの音程がすべて等しい理由がわかった。
次に12音の中に(近似的に)見出される整数比について見ていこう。これまでの話から第1音と第8音の比は約2:3。次に第1音と第3音の比が約8:9。次は第1音と第10音で16:27…。おそらくここまでくるとほとんどハーモニーとしては感じられない。ピアノのドとレのキーを押して8:9の調和を感じられる人も稀だろう。それではピアノの鍵盤上で実現できるのは高々1:2(完全8度)と2:3(完全5度)のハーモニーにすぎないのだろうか。平均律を構成する過程で利用した3^12≒2^19の近似は(自分の知る限り)整数のあや、ただの偶然だった。実はこの他にもう一つ音楽にとって幸福な偶然がある。それは先のものよりもっと容易に見いだせる5^3≒2^7という近似である(ただしその度はより粗い)。ここから(5/2^2)^3≒2。これは(操作1)で掛ける数を5としたケースに相当し、この場合3回分の操作で振り出しに戻ることになる。3は12の約数なので、この操作によって得られる音はすでに我々が手にしている平均律の上に完全に乗る!つまり第1音と第5音の比は約4:5となる。このことから、長3和音(第1音・第5音・第8音)の4:5:6が得られる。短3和音(第1音・第4音・第8音)の比が10:12:15、増3和音(第1音・第5音・第9音)の比が16:20:25、減3和音(第1音・第4音・第7音)の比が25:30:36、サスフォー(第1音・第6音・第8音)の比が6:8:9となるのは簡単な応用である。