どうも、みなさんこんにちは!イヤホン・ヘッドホン専門店「e☆イヤホン」の、ののです!

 

先週までの記事では音楽プレイヤー(DAP)に搭載されている心臓部のパーツの話をしていましたが、今日は話題を変えて、弊社の新人スタッフさんからもよくいただく質問について改めて解説をしたいと思っています。

 

何の話かというと、

 

 

CD規格には「44.1kHz」って書いてあるけど、実際には20kHzをちょっと超えたところまでしか再生されないって聞きました。どうして?

 

 

という疑問ですね。

 

 

これはイヤホンやヘッドホンのスペックを見るときにも関係するお話で、

 


 

①イヤホンやヘッドホンのスペックは「20000Hzまで」再生できると記載されているものが多い。これは「44100HzまでサンプリングしてあるCD音源を概ねカバーできる性能」である。

 

②「ハイレゾ対応」のイヤホンは40000Hz以上の帯域まで再生できることが第1条件となっている(日本オーディオ協会)。日本オーディオ協会が定める音楽プレイヤー(DAP)の「ハイレゾ音源対応」の条件は「96kHz(96000Hz/24bit以上の音源の再生」に対応していることである。

 


 

というようなことを聞きませんか?(数字の意味はのちほど説明します)

 

 

これを見ると、

 

いやいや、イヤホン・ヘッドホンは音源の半分しか再生できなくていいっておかしくない?

 

という疑問を持ってしまいますよね。でもこれにはちゃーんと理由(ワケ)があるのです。

 

 

で、本題に入っていく前に、まずはCDの規格を表す用語について説明を進めていきます。既にご存知の方は次々節の『なぜイヤホン・ヘッドホンは規格の半分まで再生できればよい?』まで読み飛ばしていただいて構いません。

 

 

CD規格と「Hz」の意味

 

CD規格は1980年にソニー社とフィリップス社によって定められました。どちらも昔から電子機器で有名なメーカーですね。「CD」のスペックについて、今回の話に関係がありそうなのは「サンプリング周波数」です。

 

 

サンプリング周波数

 

単位:Hzヘルツ

CD規格:44.1kHz

 

意味を端的に言えば、「1秒間に何回音を記録するか」ということになるでしょうか。「サンプリングレート」という言い方も使われます。

 

音は空気や物体を通して伝わる「波」なので、連続して変化する波形、つまり”アナログの信号”です。CDは”デジタルの信号”を記録する媒体なので、音の波をたくさんの回数記録しておいて、それをもとに後で「音」に復元するという手法がとられています。(その復元するという作業を担っているのが先週までブログで解説させていただいていた「DAC」というパーツです。)

 

 

「アナログ」の音の波形。

「デジタル」の音の波形。記録する回数が多ければ多いほど、画像の点が多くなり、より元の波形に忠実なデータとなる。

 

 

 

CDの規格では「44.1kHz」と記載があります。

 

k(キロ)というのは、1kgが「1000g」であるように、単位あたりの数値を1000倍する記号なので、44.1kHzというのは「1秒間に44100回、音の波を記録する」という意味になりますね。

 

上の画像の赤い点が1秒当たり44100個ある、というイメージで大丈夫です。

 

ちなみにこの「振動を測定してデジタル信号として記録すること」を「標本化サンプリング)」といいます。必要な部分のサンプルを採っているのです。この標本化(サンプリング)という言葉、今回の話に大きく関わっているので言葉だけでも覚えていただけると嬉しいです。

 

 

また、この「Hz(ヘルツ)」という単位、時と場合によりその意味合いが異なります。

 

もともとは「周期的な現象(振動など)の頻度」を表す単位です。音の高さを表す単位としても捉えたりしますね。音というのは空気などの振動であり、高い音になるほど1秒間に振動する回数が多くなっていきます。お寺の鐘の「ボーーン…」という低い音は振動回数は少なく、黒板を引っ掻いたときの「キキキキキッ!」という物凄く甲高い音は空気がめちゃくちゃ振動しています。男性の低い声(バスなど)よりも女性の高い声(ソプラノなど)のほうがたくさん振動しています。1秒間にたくさんの回数の音を記録できるということは、「高い音まで記録できる」という見方もできますね。

 

イヤホンやヘッドホンの再生能力を表す単位としての「Hz」のときは「イヤホン・ヘッドホンがどれぐらいの高さまでの音を出せるか」という指標です。

 

 

なぜヘッドホンは規格の半分まで再生できればよい?

 

さて、ここからがようやく本題です。

 

 

CDは44100回の振動(=44.1Hz)を記録できるんですよね?ならばイヤホンやヘッドホンも44100回の振動(=44.1Hz)を再生できなければダメなんじゃないでしょうか?

 

ところが実際には、この記事の最初で述べたように、イヤホンなどの「スピーカー側」は音源データの半分あたりのHzまで再生できればよいということになっています。この点から読み取れるのは「結局はイヤホンだけでなくCDそのものも20kHzぐらいまでしか実は再生してないんじゃないか?」ということですね。

 

実をいうと、現実にCDは20kHzあたりまでしか再生していません

 

これがどうしてかということを紐解くのにまた新たに用語が登場します。それが「標本化定理」です。

 

 


 

 

「標本化定理(サンプリング定理、ナイキストの定理)」とは

 

「標本化定理」とは「アナログ信号をデジタル信号に変換する際、どの程度の間隔でサンプリングするべきか」ということを示す定理です。もっとわかりやすい言い方をすると

 

どのぐらいの間隔でサンプリングすれば元の波形を忠実に再現することができるか

 

という意味です。

 

「標本化」は訳すと「サンプリング」のことなので「サンプリング定理」とも呼ばれます。ハリー・ナイキストという物理学者が提唱したので「ナイキストの定理」という言い方もされます。また、このナイキストの定理の正しさを、アメリカのクロード・エルウッド・シャノンという学者が証明したので、「シャノンの定理」とも呼ばれたりします。このように名前にはいろいろあって混乱するかもしれませんが、全て標本化定理のことです

 

 

で、この定理にしたがって結論から言います。元の波形を忠実に再現するためには、

 

 

再現したい周波数(音の高さ)2倍の周波数

 

 

までサンプリングする必要があります。

 

つまり、イヤホンやヘッドホンで20kHzあたりまでを再生したいのであれば、その2倍である40kHz以上の周波数までサンプリングしなければならないということです。

 

再現したい周波数は、標本化定理によって定められている周波数の1/2の部分であるという見方もできます。サンプリング周波数の1/2(半分)の周波数を「ナイキスト周波数」といいます。

 

 

ちなみに「ナイキスト周波数」以外に「ナイキストレート」という言葉もあります。ナイキストレートは再現したい信号がしっかりと再現されるようなサンプリング周波数の下限、要は再現したい周波数の2倍です。観点が逆なんですね。もともとは使い分けられていましたが、近年ではしばしば混同して使われているようですし、よほど専門的に突き詰めない限りは気にしなくてもいいかと思います。

 

 

で、今度はこの「標本化定理」を守らなかった場合にどうなるか、見てみましょう。

 

 

標本化定理を守らなかった場合…

 

標本化定理を守らないというのは、再現したい波形の2倍の周波数をサンプリングしないということです。20kHzまで再生したいからといって20kHzまでしかサンプリングしないとどうなるのか…。

 

これを図で説明したいと思います。(※厳密にはスペクトルで説明すべきですが、問題の本質をより多くの方がイメージしやすいように正弦波で説明します。)

 

たとえば今、ここに再現したい波形(赤線)が1つあります。

 

 

このままではアナログの波形なので、CDに記録できるように「標本化(サンプリング)」をしていきましょう。

 

図の「★」のマークがサンプリングした部分です。★の数がサンプリング周波数だと思ってください。

 

正弦波なので波形のそれぞれの頂点の部分をサンプリングしていきます。

 

 

こんな感じです。CDの中にはデジタルデータとして★の部分が記録され、イヤホンやヘッドホンで再生する時には赤線で表した波形がとりあえず元通り再現されるはず…なのですが

 

このデータ、実際に処理する側からみると実質このように見えています。

 

 

波形を再現するために必要なサンプルが5つある状態ですね。

 

このデータ、あとは普通に先程の赤線の波形を復元するだけかと思いきや、ここで1つ問題が生じます。実はこの状態だと下の図のように全く違う波形がもう一つ入り混じっているんです。

 

 

こんな感じです。先ほどの赤色の波形の3倍の振幅を持つ別物の波形が表れてしまいました。つまり今の★の数(標本数)だけだと実際には以下のようになってしまいます。

 

サンプル(★)に該当しそうな波形が本来の「赤色の波形」以外にも存在することになってしまう。

 

なぜこうなるかというと、処理する側は「与えられたサンプル(上の図では★マーク)に該当しそうな波形」を再現するようになっているので、本来の波形以外にも該当する候補となる波形があればそれを区別できないのです。

 

つまり再現したい音である「赤線の波形」に、全く別の信号である「青線の波形」が混じってきてしまうので、正しい音を復元できないことになってしまいます。低い音に高い音が混ざってくるイメージです。

 

たとえば「1000Hzという帯域の信号」を「1500Hzでサンプリング」した場合、サンプリング周波数の半分である750Hzを境目にして、800Hzの信号は700Hzの信号と混ざり、900Hzの信号は600Hzの信号と混ざって区別ができなくなります。これは「900Hzの信号は900Hzとも600Hzとも見ることができる」のと同義です。このまま実際に音として出力して聴くと、2つの音が混ざったような変な音が聞こえます。

 

この現象をエイリアシングまたは折り返し雑音と言います。サンプリング周波数の半分を境目にして高音域側が折り返してくるという意味に由来します。

 

これは離散信号(デジタル信号)にしかない概念で、離散信号そのものの弱点なので、AD変換(録音)とDA変換(復元)両方で関わってくる問題です(デジタルとアナログの違いについてはこちらの記事をご覧ください)。このエイリアスノイズは、その名の通りノイズそのものなので、除去する必要があります。

 

 

最後の図は★の数を2倍にし、青線の波形を識別したうえで、青線の波形をカットしている様子です(イメージ図では破線化によって表現しました)。図の追加された★マークを見ていくと、赤線には該当する一方で青線には被っていないですよね。つまりこれらのサンプルがあれば青線の波形は「再現したい波形ではない」ということが識別できるので、エイリアシングノイズを防止することができます。ここまでやってようやく赤線の波形を再現できるのです。

 

そしてエイリアスノイズとして現れる邪魔な帯域は、再現したい周波数の2倍の周波数までサンプリングすれば識別・除去することが可能で、これにより本来の波形を取り戻すことができる、というのが標本化定理の要点です。

 

 

「折り返し雑音」を視覚的に表現した事例

 

次に、これらの「折り返し雑音」を、もっと視覚的な例にしてみたいと思います。

 

折り返し雑音というのは「周期的な変化を繰り返す情報を離散的なデジタルデータにするとき、サンプリング周波数が必要な数より少ないと起きる現象」でした。これを画像や映像で置き換えてみると、ストロボを使った事例が代表的です。ストロボの「撮影」を「サンプリング」のようなものとして考えていきます。

 

たとえば、蛇口からポタポタと落ちる水滴を、ストロボを使って撮影するとします(この事例は日本音響学会の「音響学入門ペディア」に掲載されています)。蛇口から落ちる水は地面に到達すると同時に次の水滴が蛇口から落ちるようになっています(つまり蛇口から離れて空中を落ちていく水滴は同時に1つしかないとします)。これを繰り返すので「周期的な変化」の様子です。そしてストロボで撮影する回数ですが、合計で4回撮影するものとします。

 

まずは、水滴が地面に落ちるまでに素早く4回撮影します。落ちるまでに4回撮影するので、水滴が蛇口から離れて最後地面に落ちる直前までの様子が動画になりますね。図のようなイメージです。

 

①や②の数字がストロボで撮影されるタイミングを示している。水滴が地面に落ちるまでに4回撮影するので、その写真を順番に見ていくと図の①~④までのような順番で水滴が落ちる様子を観察できる。

 

次に、ストロボをパシャッと照射する間隔を、1つ目の事例の「3倍」という中途半端なサンプリングの周期にしてみます。撮影する間隔を3倍に伸ばしたのでサンプリング周波数は下がっています。すると以下のようになります。

 

2つ目の、ストロボの撮影間隔を「3倍」に伸ばした例。①から②までは最初に落ちた水滴を捉えているが、③は最初の水滴が落ちてから出現した2つ目の水滴、④は③で捉えた水滴が落ちた後に出現した水滴を撮影している。

 

3倍の周期で4回撮影した結果、何が起きたかというと、図に表した数字の順番のように落ちているはずの水滴が蛇口に向かって逆戻りしていく様子が写ってしまいます。

 

 

2つ目の例において①から②までに捉えた水滴は、その後地面に落ちます。地面に落ちると2番目の水滴が蛇口から出てきますよね。撮影と撮影の間隔は3倍ですから、③で示したタイミングで水滴を捉えることになります。

 

つまりこれは「蛇口から落ちる水が地面に到達すると同時に次の水滴が蛇口から落ちる」という周期的な現象をサンプリングする際、サンプリング周波数が少なすぎる(=撮影と撮影の間隔が長すぎる)ために、2つ目や3つ目の水滴がまるで1つ目の水滴の動きであるかのように折り返してきているのです。本来あるべき水滴の動きからかけ離れています。

 

これをストロボ効果、あるいは時間折り返し雑音といいます。ネットで検索してみると時計の針の動きで同様の事例(時計の針が逆戻りする)が出てきたりしますが、同じことです。撮影する周期が長すぎる(=サンプリング周波数が少なすぎる)のです。

 

 

こういう見分けがつかなくなってしまう、という厄介な現象に似たことが、音の信号をサンプリングするときにも発生しているのですね。

 


 

 

ここまでの様々な説明から、CDの「44.1kHz」という数字は「22.05kHzまでの音を再現したいが、標本化定理に従って音を記録した結果の数字」である、ということが伝わりましたでしょうか。人間の基本的な可聴範囲はおおよそ20kHzなので、CD規格のこの数値は「人間の可聴範囲である20kHz以上まで再生できるように44.1kHzにしている」という理論に基づいているのだと推測されます。

 

 

ですので、「イヤホン・ヘッドホンは音源の半分しか再生できなくていいっておかしくない?」という疑問に対しては、

 

CDに「サンプリング周波数」と書いてあるのは、実際に再生される周波数の2倍の数値を表しているので再生される周波数帯域そのものではない

 

という答えになります。

 

 

イヤホン・ヘッドホンの「再生周波数帯域」のスペックと、CDの「サンプリング周波数」のスペック。同じ”Hz”という単位になっているからこそややこしいですが、実際には同じものではないということがご理解いただけたのではないかなと思います。

 

 

余談

 

ここでもう一つおまけの話を。

 

「どうしてCDが”サンプリング周波数”の半分である20kHzぐらいまでしか出力しないかはわかった。でも、なんで44.1kHz?」

 

そう思われた方がいらっしゃるのではないでしょうか?

 

 

これについて、一般的にいわれているのは、NTSC規格におけるテレビと映像信号の原理をもとにした”15.75kHz ×(6サンプル / 2ch)×(14/15)”※1であるという説です。ビデオテープに映像を記録する原理を音源を記録するプロセスに応用したということになります。

 

また、NTSCはアメリカで始まったモノクロ・カラー両対応の規格で、これとは別にヨーロッパ側では「PAL」という映像信号の規格も使われていました。この「44.1kHz」という数値であれば、NTSC規格だけでなくPAL規格とも互換性のある規格にすることができたようです。NTSCが「(490 / 2)ライン × 60Hz ×(6サンプル / 2ch)」、PALが「(588 / 2)ライン × 50Hz ×(6サンプル / 2ch)」という計算であれば、両方ともぴったり44100という数字になります。※2

 

つまり、人間の基本的な可聴範囲を参照したうえで、当時既にあった機器や規格との互換性を重視した数字だったという説ですね。色々計算式が出てきましたが、本質的に一番大事なのはこの部分でしょうか。

 

 

さらに、エイリアスノイズを除去するための「フィルター」を適用するにあたって、20kHzを「少し超えている」ことも好都合かもしれません。ある特定の帯域までは完璧に通過させ、それ以上の帯域を完璧に阻止するというようなフィルターは現実には存在しませんので、たとえば20kHz以下の再現を目標とする場合に2.05kHz分の余裕があることはオーディオ機器の設計者にとってはありがたいことかと思われます。

 

 

※1…15.75kHzはNTSCにおける水平走査周波数のこと。たとえば、ブラウン管テレビの画面は横一列に走る「ライン(垂直走査線)」が上から下まで敷き詰められており、上から順に描画していき、下まで到達するとまた上から描画して…を繰り返すようになっている。このとき、1秒あたりに描画できるラインの数を「水平走査周波数」、1秒あたりに画面を書き換える回数を「垂直同期周波数(リフレッシュレート)」という。ただし、厳密には「1秒あたり」ではなく「単位時間あたり」と言うのが正しい。また、ビデオテープ(録画媒体の一つ)においては、ヘッドが1回転する間にラインが525回記録されるが、ヘッドの両端付近は記録が不安定になるため、1/15は記録に使用していない(=記録領域は14/15)。また、このビデオテープの仕組みを応用したPCMプロセッサーは水平走査線1ラインあたりにリニアPCMデータを3サンプル×2チャンネル記録する方式だった。

 

※2…PALの水平走査線は625ラインあり、記録に使用できるのは588ラインである。ここでの「Hz」とは水平走査周波数ではなく、リフレッシュレートのこと。NTSCおよびPALではインターレーススキャンにより、実際には偶数ラインと奇数ラインを交互に使用する。NTSCは60Hz=30フレーム、PALは50Hz=25フレーム。

 

 

最後に

 

今回はCDを中心に据えて説明しましたが、CDを超える情報量を持った規格であるハイレゾ音源などにも同じことが言えます。PCMデータで「96kHz」以上となっていることが多いハイレゾ音源も、再生周波数はその半分ですから「ハイレゾ対応」と謳われているイヤホンが40000Hz以上出力できるスペックになっているのも頷けるのではないでしょうか。

 

余談で少しだけ触れた「フィルター」に関しては、また今後のDAPの解説の連載で突っ込んでいければなと思います。

 

 

それでは、皆様よきミュージックライフを!

 

e☆イヤホンの、ののがお送りしました!