【結局、何がどう違うの？】「PCM音源」と「DSD音源」の違いとは？【しっかり解説！】

どうも、皆さんこんにちは！イヤホン・ヘッドホン専門店「e☆イヤホン」の、ののです！

ミュージックラヴァーの皆さん、音源の質にはこだわっていますか？

近年では「ハイレゾ音源」というCDを超える規格も広く普及してきたこともあり、音源にこだわる方が増えてきているようですね。僕も好きなアーティストのハイレゾ音源が配信されていたりしたら、ついつい買っちゃうタチです。ハイレゾはあくまでも規格であって録音の良し悪しなどを直接表したものではありませんが、この規格を用いればCDよりも原音に忠実な再生を可能にできますので、リスナーにとってもやはり気になる存在なのではないでしょうか。

ただ、そうしたハイレゾ音源の特集を見ていると、いくつか気になる単語が出てきます。その中でも特に「これ、なんだろう？」となりやすいのが、

PCM と DSD

という2つの規格です。

国内のハイレゾ音源配信サイトで大手の「e-onkyo」や、ウォークマンの公式ミュージックストア「mora※」などでも、「DSD音源特集」のようなものが展開されていたりしますので、目にした方もいらっしゃるのではないでしょうか。ちょっと探してみただけでも以下のようなページが見つかりました。

空間までも描ききる異次元の高音質！ネイティヴDSDセレクション！（e-onkyo）

DSD音源配信一覧（mora）

また、DAPのスペックを見るときには「DSD音源を再生できます。」といったような文言も見られます。例として、Lotooの高性能DAP『PAW GOLD TOUCH』のスペックを見ると、

PAW GOLD TOUCH

DSD512/PCM768ネイティブ再生

というようなことが商品説明に書いてあります。DSDの512という規格と、PCMの768という規格に、それぞれ対応しているDAPだ、ということがここからわかります。

つまりDSD音源とやらに対応していることが、再生機器にとってのステータスでもあるわけですね。今回はそのDSD、ならびに音源として一般的に用いられているPCMについて説明いたします。

PCMとDSDの違いに関しては少しネットを検索すればやんわり説明したものがそれなりには出てきますし、既に調べているという方も少なくはないかと思います。ただ、「自分で調べて、結局何が違うのかわからなかった」という声もいただきます。今回は、社内のスタッフ向けに行うことがある「とりあえずココが根本的に違う」というポイントがわかるように丁寧に解説していきます。全体を通すとちょっと長いですが、皆さんの「わからない。」を解決する最後の砦にもなれたらなぁと思います。

導入のための予備知識

説明するのにはちょっと難度の高いお題なので、いくつかの予備知識があると理解がしやすいかと思います。まずは「記録にどんな値を用いているか」というところからだいぶザックリめに、説明を行っていきます。

これらの内容は過去のブログ『【なぜ？】CDは規格上「44.1kHz」あるのに実際には20kHzぐらいまでしか再生されない理由』と多少は内容が重複しますが、大事な要素なのでここでおさらいしておきましょう。また、余裕があればDAC編①の『DAPのスペックにある「DAC」って何？』の記事にてデジタルとアナログの違いを解説しているので、こちらも併せて読んでいただけるとなお理解しやすいのではないでしょうか。

サンプリング周波数

単位：Hz（ヘルツ）

CD規格：44.1kHz

※「1kHz（キロヘルツ）」は「1,000Hz」と同義。「1MHz（メガヘルツ）」は「1,000,000Hz」と同義。

意味を端的に言えば、「1秒間に何回音を記録するか」ということになります。「サンプリングレート」という言い方も使われます。

音は空気や物体を通して伝わる「波」なので、連続して変化する波形、つまり”アナログの信号”です。CDは”デジタルの信号”を記録する媒体なので、音の波をたくさんの回数記録しておいて、それをもとに後で「音」に復元するという手法がとられています。（その復元するという作業を担っているのが「DAC」というパーツです。詳細はこちら）

アナログの波形。「音」をそのまま正弦波として捉えた形。図の線は端から端までずっと繋がり、連続的に変化している。「アナログ（連続量）」の本質。

デジタルの波形。アナログ波形と異なり、値が「離散」している。つまり、見かけ上は点が集まって「波」を描いている”ように見える”が、実際には点と点の間に「線」は存在しない。これにちゃんと「線」を加えてアナログの波形に復元するのが「DAC」という回路。

CDの規格では「44.1kHz」と記載があります。

k（キロ）というのは、1kgが「1,000g」であるように、単位あたりの数値を1000倍する記号なので、44.1kHzというのは「1秒間に44,100回、音の波を記録する」という意味になりますね。

上の画像の赤い点が1秒あたり44,100個ある、というイメージで大丈夫です。つまりこれがハイレゾ音源で「96kHz」になったりすると、点の数がもっと増えます。より本来のアナログの波形に忠実なデータになるわけですね。

量子化ビット数

単位：bit（ビット）

CD規格：16bit

こちらはデジタル信号を何段階の数値で表すかという単位で、簡単に言うと今回の場合は「音の大小をどれぐらい細かく記録できるか」という意味です。

コンピュータにおけるデジタル信号は、全て「0」か「1」かで処理されています。「1bit」は0と1で表す1つの数値で、これは0か1なので2段階（2進数）ですよね。

2bitの場合はどうなるかというと、0か1かが2つ、つまり「00」「11」「01」「10」の4つのパターンで表すことができるので、4段階です。

CDの「16bit」の場合は、0か1かが16個続いているので、65536通りの数を表すことができます。つまり音がどれぐらい大きい（小さい）という度合いを65536段階で表していることになります。

先ほどのサンプリング周波数はデジタルで表された波形の「点の数」を表していましたが、それに対して量子化ビット数の場合は「点の位置」を表しています。

先ほどのサンプリング周波数の説明と同じ画像。それぞれの点がアナログの波形に近いように並んでいるのは、量子化ビット数という数値が「点の位置」を表現しているためである。

CDなどに入っている音声は、こういった数値によって音が高いとか音が大きいといった違いを記録されているんですね。

そして、ここで予備知識をもう一つ。

一旦、本題からちょっと離れて、「音（音波）」ってそもそも何だろう？っていう物理学の話に寄り道していきます。「ブツリガク」といってもそんなに堅苦しく難しいものではなくて、皆さんにも身近な事柄ですよ。

急に話が脱線したように見えるかもしれませんが、これから述べる「波」に関する予備知識があると、この後説明するPCMとDSDの違いについて府に落ちやすくなるかと思います。興味がある方は是非目を通してみてください。

カギは「横波」と「縦波」？

早速なんですが、我々が実際に聴く「音」というのは、空気中などを伝わる「波」の一種ですよね。

そもそも、「波」という現象には主に2つの種類があります。「横波（よこなみ）」と「縦波（たてなみ）」です。波のエネルギーが媒質（空気や物体などのことです）を伝わるとき、それに影響されて媒質が振動しますが、縦波と横波はその媒質の振動の方向が違います。

言葉では伝わりにくいと思いますので、この違いを、スリンキーというおもちゃで表現してみたいと思います。階段を独りでに降りていくバネみたいな遊具です。

横波　→　波動を伝える媒質が波の進行方向に対して垂直に振動する。

「横波」をスリンキースプリングを使って視覚的に表現すると以下のようになります。

横波。向かって左側に持った手がスプリングを大きく揺らしており、それによって起きた波のエネルギーが反対側（向かって右側）へ伝わっている。このとき、媒体であるスプリングは波の進行方向に対して垂直に振動しているため、結果として「山」と「谷」を作る動きが発生する。

横波においては必ず「山」と「谷」の動きができます。「山」にされた部分が戻ろうとする力で今度は「谷」になり、「谷」にされた部分も同じく戻ろうとする力で「山」になります。

横波が発生するためには、媒体である原子同士が隣接している必要があります。このため、原子がバラバラの状態で存在している「空気中」などは原則的に横波が発生しない状態だと言えます（ただし光などの電磁波は横波です）。GIF画像のスリンキースプリングの場合は「固体」なので、原子同士が繋がっており、横波を起こすことができる環境です。地震の「S波」もこの横波のことですね。

縦波　→　波動を伝える媒質が波の進行方向に対して同じ方向へ振動する。

「縦波」をスリンキースプリングを使って視覚的に表現すると以下のようになります。

縦波。波のエネルギーを伝える媒体であるスプリングの動きも、波の進行方向に対して同じ向き（平行）に進んでいる。このため、波が起きている部分はスプリングが「密」に重なっている。逆に波が無い部分は隙間が大きいので「密」に対して「疎」になっていると言える。

物質が持つ動かされたら元に戻ろうとする性質から、縮んだ部分は伸びようとし、伸びた部分は縮もうとするので、これを繰り返して進んでいきます。横波のように原子が完全に隣接している必要があるなど特殊な条件は要りません。固体でも液体でも気体でも発生しうる波です。

「横波は気体中で発生せず、気体で発生する波は縦波」というところからも、空気中を伝う波の一種である「音（音波）」は縦波だということがわかります。

また、横波の表現では「山」と「谷」が現れていましたが、この縦波においては「密（みつ）」の部分と「疎（そ）」の部分に大きく分かれます。密集しているか空いているかという違いです。音を出した時も、空気中に密の部分と疎の部分ができています。振動によって空気中に圧力の差が生じ、圧力が高いところから低いところへ向かって空気が波のように動きます。その動きが「音波」ですね。

であれば、物理学において音波は原理通りに「縦波の図」として描かれそうな気がします、が、実は縦波が伝播する様子を厳密に図にするのは横波に比べて困難です。図に書いたときに縦波のままだと密集している部分と隙間の部分を描くことしかできないので、波の「動き」を細かくは捉えにくいようになっています。このため、媒質に振動が起きていないときを基準に、波の進行方向への媒質の振動を「山」の部分に、進行方向と逆向きへの媒質の振動を「谷」と考えて、縦波を横波に変換して考えることが多いんですね。このように、「縦波」は「横波」と仮定して考えることができる。これも一つポイントです。

これらの「横波」「縦波」の話は後程もう一度出てきますので、少し頭に留めていただけるといいかもしれません。

（それにしてもスリンキー、懐かしいですね。この後スタッフが楽しくスリンキーで階段遊びをする…時間はさすがにありませんでした。）

PCMとDSDの違い

さて、話を本題に戻しまして。ここから、タイトルにもある「PCM」と「DSD」の違いについて踏み込んでいきます。

PCMとDSDの違いをまず規格上の面で挙げると、先の項で説明した「サンプリング周波数」と「量子化ビット数」の違いで区別することが可能です。

この2つの形式は、

PCM → DSDよりもサンプリング周波数が低いが、量子化ビット数は高い

（「音を1秒間に記録する回数」と「音の大きさ」の2つの値で記録する）

DSD → PCMよりもサンプリング周波数が高いが、量子化ビット数が1bitしかない

（「音を1秒間に記録する回数」と「音があるか」の2つの値で記録する）

このようなアナログ入力信号の特性を記録するとき、PCMとDSDで記録の仕方が全く異なる。

という違いになっています。

PCMとDSDのどちらが多いかというと、皆様が使っている音楽データは基本的にPCMです。

なぜそう言えるかといいますと、まずCD音源をはじめとして、SpotifyやApple Musicなどのストリーミングなどで配信されている音楽データなど一般的に出回っている音源のほとんどがPCMであるためです。DSDはSACD（スーパーオーディオCD）などをはじめとした特殊な規格なので、一般的に音源として広まっている数だと圧倒的に少ないです。

では一つずつ見ていきましょう。

PCM（Pulse code modulation）

PCMは「Pulse code modulation」の略称で、「パルス符号変調」とも言います。

そのイメージを図で表すと以下のような形になります。

「1秒間に記録する回数（横軸）」と「音の大きさ（縦軸）の2つを細かく採り、「山」と「谷」で表現して波形を記録する方式。厳密には波形に沿って「点」を1つ1つとるもので、この図はその点同士を直線で繋げた表現になっている。

この場合、横軸の細かさが「1秒間に音を記録する回数」、縦軸の細かさが「音の大きさ」を表しています。それぞれ「サンプリング周波数」、「量子化ビット数」に対応します。この2つの値を細かく採って疑似的に波を描いているわけですね。これが一般的に音源として出回っているほとんどの音楽データの記録方式です。

そして、PCMでの記録方式では「山」と「谷」が表れるという点から察せられたかもしれませんが、このPCMというのは本来空気中では縦波の現象である「音波」を最終的に「横波」という形で解釈しなおしているのに近い方式、と言うこともできます。

横波の様子。

この方式では「記録する回数（≒音の高さ）」と「音の大きさの具合」を分けて考えているので、縦波のままでは表しにくい「音波」の細かな変化などを記録できます。再生するデバイスの対応サンプリング周波数（時間をどれぐらい細かく刻めるかの性能）が極端に高すぎなくても再生できますし、原理的にイコライザーや圧縮などの編集が容易であるというメリットもあります。

DSD（Direct Stream Digital）

もう1つの「DSD」は「Direct Stream Digital」の略称で、この規格はソニーとフィリップスによって定められました。

1999年に登場したSACD（スーパーオーディオCD）はこの「DSD」という方式で音源が記録されています。

PCMに対して、DSDの記録方式のイメージを図に表したのが以下のものです。

DSDの場合、「1秒間に記録する回数」はPCM方式よりも遥かに細かいが、「音の大きさ」に関しては有るのか無いのかの2パターンでしか識別しない。図の青い線が太くなるほど「音が有る」と判別された部分が密集している状態。

このDSD音源最大の特徴は、量子化ビット数が1bitであるということです。先の説明で、コンピュータにおける1bitは「0」と「1」の2パターンを表すとしていましたが、「音の大きさ」が0か1のどちらかなので、「音が有るか無いか」のみを区別している、といっても間違いではないでしょう。より正しい表現をすると、オンオフの切り替えで音の濃淡を描いている、という言い方になりますね。

また、DSD音源のサンプリング周波数はPCMと比較してべらぼうに高く設定されているのも特徴です。たとえばPCM方式のハイレゾ音源のサンプリング周波数が「96kHz（96,000Hz）」だったりするのに対して、DSDの場合は「2.8MHz（2,822,400Hz※）」などです。桁が圧倒的に違うのが一目瞭然ですね。つまりDSDというのは「音の濃淡を物凄く精細に記録している」方式だと見ることができます。

※単位が「MHz」の場合、小数点2位以下は省略されることが多い。

で、ここで再び思い出すのが、波の話。

図を見ればわかりますが、音が有るか無いかを並べていくと、音が「密」な部分と「疎」な部分に分かれていきますよね。上のDSDをイメージした図で、元の波形のうち波が高くなっている部分は信号が「密」になり、逆に谷の部分は信号が「疎」のような状態で記録されています。つまりPCMが疎密波を横波に一旦置き換えたものなのに対して、DSDとは疎密波を記録しているのであり、入力された音の信号を「音波」本来の縦波として捉えているのだと言い換えることが可能です。

縦波（たてなみ）。疎密波（そみつは）ともいう。

音の記録の仕方がPCMと異なっているので、DSD音源は音質の面でもPCM音源と少し違います。音の質感がPCMよりも生っぽく、よりアナログ録音に近い滑らかな音の傾向があります。つまりデジタル信号のメリットである「忠実な再現性」と、アナログ録音の音質の魅力が融合されています。

デジタルデータをアナログの信号に変換するときには「量子化ノイズ」という、デジタルとアナログの差に由来する誤差のようなノイズが多かれ少なかれ必ず発生するのですが、DSDの場合はそれが高音域側に集中して発生します。しかも、サンプリング周波数を高くすればするほどノイズの領域がどんどん高域になっていくので、最終的に大部分のノイズを人間の可聴範囲から相当かけ離れたところまで追いやることが原理上可能です。「ノイズシェーピング」とも呼ばれるこの性質自体は現在広く普及しているDACの仕組みにも、ノイズ軽減の手法として応用されています。

ただし、そんなDSD音源もPCM音源とはまた違ったデメリットを持ち合わせているのも注意点。

まず、DSD音源はサンプリング周波数が極端に高すぎるので再生可能な機器（DAPなど）が限られるという側面があります。この記事の最初でちょろっと触れましたが、「DSD音源を直接（ネイティブで）再生できます！」というのはDAPの売り文句にもなるほどになっています。ネイティブで再生できない場合は、PCM方式に音の情報を置き換えて再生するという手法をとるDAPが多く、DAPのスペックではDSD音源を「ネイティブで再生できる」ことと「PCM変換して再生する」ことは分けて表記している場合が大半です。記録された情報がDSD形式に準拠しているので（当然ながら忠実性の点で再生機器の変換システムを通さないネイティブ再生に分がありますが）PCM変換での再生でもDSD音源らしさを味わうことはできます。

他にも、音を直に疎密波として捉えているので、このDSD形式で記録（録音）された状態のまま音を編集するのが困難です。DSDで録音したうえでPCMに変換して編集するという手法が現実的です。このため、DSD音源の商品として流通しているのはクラシックなどの生で録音したデータを（ほぼ手を加えずに）そのまま音源として商品化するようなジャンルのものばかりになっています。DSD音源がネイティブ処理である限り原則的にイコライザが使用できないので、制作現場だけでなくリスナーにとっても影響があります。DAPの通常のイコライザ機能がPCM音源には使えるのにDSD音源に対しては使えないことがあるのはなんで？と疑問に感じた方もいらっしゃることでしょう。