Music×Tech #04「Tom’s Diner」――The Mother of the MP3

廊下で鳴った声

1989年、ドイツ・エアランゲンのフラウンホーファー研究所。博士論文の最終段階にあったKarlheinz Brandenburgは、音声圧縮アルゴリズムの微調整に取り組んでいました。廊下のどこかでラジオが鳴っていました。流れてきたのは、Suzanne Vegaの「Tom’s Diner」です。

「電撃を受けた」とBrandenburgは後に振り返ります。「この温かいアカペラの声を圧縮するのはほぼ不可能だと思った」。ちょうど彼が探していたもの——最も難しい音——が、偶然にも廊下から聞こえてきたのです。

この瞬間から、一人の女性が朝のダイナーで見た光景を歌った2分9秒の曲が、デジタル音楽革命の試金石となりました。

ダイナーの朝、アカペラの声

Suzanne Vegaは1981年か1982年にこの曲を書きました。場所はマンハッタン、ブロードウェイと112丁目の角にあるTom’s Restaurant。当時バーナード大学の学生だったVegaが、友人を待つ間に目にした朝の風景です。

雨、コーヒー、新聞を読む女性、外に立つ女性。近くの大聖堂から鐘の音。曲は何気ない観察の連続で、メロディは「doo doo doo doo」という口ずさみだけ。楽器は一切ありません。声だけです。

1987年のアルバム「Solitude Standing」には2つのバージョンが収録されました——冒頭のアカペラ版と、最後の楽器版です。オーディオファンたちは、前者をスピーカーのテストに使い始めました。人間の声の温かさ、微妙な抑揚、子音の鋭さ。すべてが露わになる録音だったからです。

不可能な声

Brandenburgが取り組んでいたのは、音楽データを約12分の1に圧縮する技術でした。彼の指導教授Dieter Seitzerは「デジタルジュークボックス」を夢見ていました——ISDN回線を通じて、好きな音楽をオンデマンドで聴ける未来です。しかし当時の帯域幅では、CD音質の音楽を送るなど不可能に思えました。

Brandenburgは「Tom’s Diner」を圧縮してみました。結果は「ひどい」ものでした。低いビットレートで他の曲は問題なく聞こえるのに、Vegaの声だけが歪みました。アカペラは隠れる場所がありません。楽器の音に紛れることができず、声の微細なニュアンス、サイビラント（s音）、息遣い、すべてが試されます。

Brandenburgは数千回、この曲を聴きました。アルゴリズムを調整し、再生し、また調整する。Vegaの声が「温かく」聞こえるまで。人間の耳が何を聞き、何を聞かないのか。どの音が消えても許され、どの音が消えてはいけないのか。2分9秒の中に、すべての答えがありました。

標準という名の革命

1991年、MPEG-1 Audio Layer I、II、IIIのアルゴリズムが承認されました。1992年に最終化され、1993年にISO/IEC 11172-3として公開されました。Layer III——後にMP3と呼ばれる技術——の誕生です。

1995年7月14日、内部調査で「.mp3」という拡張子が決まりました。誰も予想していませんでした。この小さなファイルが、音楽の聴き方、配布の仕方、所有の仕方を変えることになるとは。

「Tom’s Diner」はMP3専用に調整されたわけではありません。開発には複数の音源が使われました。しかし、この曲がなければ、人間の声——最も複雑で、最も大切な音——を正確に圧縮する術を、彼らは見出せなかったかもしれません。

Suzanne Vegaは「The Mother of the MP3」という非公式な称号を得ました。2001年になって初めて、自分の声が果たした役割を知ったと言います。

失われた音、残った声

2015年、作曲家Ryan Maguireは「moDernisT」という曲を発表しました。これは「Tom’s Diner」をMP3に圧縮する際に削除された音だけで構成されています。Vegaの声は「ほとんど聞き取れない囁き」に変わり、「幽霊のような粒子感」を持っていました。

技術は音楽を小さくしました。ポケットに入れられるほど小さく。でもBrandenburgが廊下で聞いたあの「温かさ」は、圧縮されても残りました。数千回の調整の果てに。

今日、SpotifyでもYouTubeでも、「Tom’s Diner」は聴けます。皆さんが聴くその声の中に、1989年のドイツの研究所で一人の技術者が追い求めた「不可能」の痕跡があります。

【Information】

参考リンク

用語解説

MP3 (MPEG-1 Audio Layer III)
音声データを約12分の1に圧縮するロッシー（非可逆）圧縮技術です。人間の聴覚の特性を利用し、聞こえにくい音を削除することでファイルサイズを縮小します。1993年に国際標準として公開されました。

アカペラ (A cappella)
楽器伴奏なしで声だけで演奏される音楽です。語源はイタリア語で「礼拝堂風に」を意味します。

サイビラント (Sibilant)
「s」「sh」「z」などの子音で、歯と舌で作られる高周波の摩擦音です。音声圧縮技術にとって再現が難しい音の一つです。

ビットレート
1秒あたりのデータ量を示す単位（kbps）です。MP3では通常128〜320kbpsが使用され、数値が高いほど音質が良くなりますがファイルサイズも大きくなります。

Fraunhofer Institute (フラウンホーファー研究所)
ドイツの応用研究機関です。MP3の開発を主導したFraunhofer IIS（集積回路研究所）は、現在も音声技術の研究開発を続けています。