やってみようSoundVQ

 
おもちゃ箱に戻る
 
SoundVQとは? MP3との技術的比較
MP3との数値的比較 聞き比べ 結論?
 
1.SoundVQとは?
 「SoundVQ」は、音声データを圧縮/再生するソフトです。「SoundVQエンコーダ」でデータを圧縮し、「SoundVQプレイヤーで」再生します。これらのソフトはまだ開発中ですが、β版をここからダウンロードすることができます。プレイヤーは単独のソフトとしてのほか、Internet ExprolerやNetscape Navigatorのプラグインとしても動作します。

 「SoundVQ」の音声圧縮技術は、NTTで開発されたTwinVQの技術を採用し、音質をほとんど損なわずに最大1/20程度の圧縮率を実現しています。最近話題となっているMP3の圧縮率が1/10程度ですから、さらに半分のサイズにできるわけです。

 また、ホームページに簡単にファイルを埋め込むことができます。受信側にデータを残さないストリーム再生に対応しているので、著作権に配慮した配信が可能です。もちろん、受信側にデータを残すように配信することも可能です。著作権への配慮では、PCM形式(CDの録音方式)へのデコードをサポートしないということもあります。

 さらに、ページシンク機能により、ストリーム再生で音声を流しながら、指定したタイミングでブラウザに新しいページを表示させることができます。これにより、ナレーションつきのプレゼンテーションや、オンライン絵本といったコンテンツが可能になります。

 
2.MP3との技術的比較  興味無い人は飛ばして結構です…って言うか飛ばして…
 MP3の音声圧縮技術は、

 1.32バンド・サブバンド・コーディング(帯域分割符号化)
 2.MDCT(Modified Discrete Cosine Transform)
 3.聴覚心理特性

 を利用しているといわれます。

 1は特定のデータパターンを応用し、周波数帯域に応じて必要な部分のみを抽出し、圧縮します。2は変形離散コサイン変換というものらしいです。私はよく分かりません。詳しいことはそれ関係の本を読んでください。
 3は人間の聴覚の特性を利用しています。一般的な人間の耳は、1kHzから18kHzまでの周波数しか聞き取れないといわれます。また、パソコンのサウンドカードも安いものでは13kHz程度までしかまともに再生できないものがあります。ひとつはこれを利用して、聞き取れないところをカットします。もうひとつ、「マスキング」を利用しています。「マスキング」とは、複数の音がなっているとき、特定の音で別の音が隠れてしまうことを利用しています。

 TwinVQは

 Transform-domain Weighted Interleave Vector Quantization(変換領域重み付けインターリーブベクトル量子化)の略です。

 何のことやらさっぱりですね

 少し分かりやすく言うと、複数のデータをまとめてパターン化し、あらかじめ用意した標準パターンと比較して類似したパターンを選び、そのコードを圧縮符号とするということです。

 まだ分からない……。すいません、自分でもよく分かってないんです…。
 
3.MP3との数値的比較
 まず、数値的に比較できる部分から。

 ・エンコードにかかる時間
 ・再生時のCPU使用率
 の2項目です。

 エンコードするWAVEファイル:44kHz/16bit/Stereo/35秒/6,174kB
 (Railway Story オリジナルサウンドトラック Track 1をCD2WAVで吸い出したもの)

 使用したパソコン環境
 CPU:AMD K6-2 400MHz   Memory:128MB   OS:Windows98
 サウンドカード:ONKYO WAVIO SE-70   ヘッドホン:SONY MDR-AV35

 MP3のエンコード/デコードソフト
 ・MP3 Studio Unreal
 ・SCMPX
 なぜ2つのエンコードソフトを使ったかというと、MP3 Studio Encorderが22kHzのエンコードに対応していなかったからです。その他にも、本来の趣旨とは違いますが、AMDの3D Now!テクノロジに対応してるか否かで、どれくらい差が出るか確かめたかったという理由もあります。(MP3 Studioは3D Now!に対応しています)

 時間はストップウォッチによる手動計測です、また、すべてステレオでの圧縮です。
・エンコードにかかる時間 サンプ
リング
周波数
ビットレート エンコード
時間
ファイルサイズ
元のファイル 44kHz 1200kbps -------- 6,174,044byte
SCMPX Nomal Mode 44kHz 128kbps 22秒 559,938byte
44kHz 80kbps 29秒 349,982byte
44kHz 40kbps 29秒 174,985byte
22kHz 40kbps ※22秒 174,987byte
MP3 Studio Encorder 44kHz 128kbps 16秒 560,066byte
44kHz 80kbps 20秒 350,132byte
44kHz 40kbps 18秒 175,140byte
SoundVQ Encorder 44kHz 40kbps/ch 86秒 350,253byte
22kHz 20kbps/ch 47秒 175,137byte
16kHz 16kbps/ch 36秒 143,360byte
11kHz 10kbps/ch 27秒 87,578byte
8kHz 8kbps/ch 19秒 70,130byte
kbps/chとは1チャンネルあたりの容量です。モノラルなら1倍,ステレオなら2倍が実際のビットレートになります
※ リサンプリングの時間+エンコード時間

 MP3では、圧縮率を高くするとエンコード時間が伸びる傾向があるのに対し、VQでは圧縮率を高くするとエンコード時間が短くなっていくのがわかります。この辺は圧縮技術の差ですね、MP3がいらない所を削っていくのに対し、VQでは必要なところを拾っていくという感じです。
 高音質のVQではかなり時間がかかります(実演奏時間の3倍弱)。このあたりは、VQのエンコーダがまだβ版であり、MMXテクノロジまでしか対応していないこと、OSがWindows98であること(推奨環境はWindowsNTらしい)などが原因として考えられます。
 また、ここには書かれていませんが、VQの圧縮はCPU占有率が100%になる(High Priorityの時)のに対し、MP3の圧縮では30〜40%程度の占有率ですんでいます。
 また、MP3の圧縮では3D Now!による高速化がわかります。

・再生時のCPU使用率 CPU
使用率
SCMPX 18%
MP3 Studio Player 17%
SoundVQ Player 32%
 CPU使用率は、起動直後の状態からシステムモニタを立ち上げて最大化し、その後に各プレイヤーを起動し、3曲再生させた時点での平均値を見ています(目測ですが)。再生データはMP3が44kHz/128kbps/Stereo 、VQが44kHz/80kbps/Stereoです。ほぼ同等の音質のもので比較しました。
 さすがに圧縮率が高いだけあって、VQの再生にはそれなりのパワーが必要なのがわかります。
 
4.聞き比べ
 次に、実際に聴いてみて音質がどれくらい変化するかを見てみます。

同じサンプリング周波数&ビットレートでMP3と比較する
 3.でエンコードしたファイルの中で比較できたのは
 ・44kHz/80kbps/Stereo
 ・22kHz/40kbps/Stereo
 の2つでした

44kHz/80kbps/Stereo
 なにしろVQのエンコーダに44kHz/96kbpsまでしか用意されてないので、80kbpsでの比較となりました。結果はVQの勝利です。MP3では高音部で少し音が「チリチリ」という、音のゆがみ感じられました。その点VQではほとんど元のWAVEファイルと変わらない音が再生されました。

22kHz/40kbps/Stereo
 ストリーミングをする場合、80kbpsはきついです。40kbpsでも重いんですが……
 もうVQの圧勝です。MP3では電話の向こう側から聞こえてくるような、くぐもった音になってしまっていますが、VQではまだほとんど劣化は感じられません。サンプリング周波数 が低くなったとはいっても、高音部のカットを行っただけなので、少しメリハリがなくなっただけです。WAVEファイルをそのまま22kHzリサンプリングした場合とほぼ同じ音でした。

クオリティを落とすと……
 今度はクオリティを落としていった時、どの辺までなら耐えられるかという比較です。
 VQの下限は16kHz-16kbps/chだと思います。ここまでならほとんど違和感なく聞けます。  11kHz/20kbpsまで落とした時、聞いた感じではmp3の44kHz/80kbpsくらいの音になりました。さすがに高音部が出てないのが利いてきます。
 さらに落としてVQの最低のビットレートの8kHz/16kbpsでは、さすがに音がへたっていました。高音をカットしまくりですから、当然といえば当然なんですが。

 
5.結論?
結論としては…
 CDレベルの音質を保つには、mp3では44kHz/ 128kbps/ Stereo、VQでは44kHz/ 80kbps/ Stereoくらいが限度だと思います。それでもVQがmp3の2/3のファイルサイズになる点は重要です。HDDジュークボックスをやる場合、同じ容量で1.5倍の曲が保存できるということです。

 インターネットでの音楽配信をする場合、デモ曲は16kHz /16kbps /MonoくらいでのVQ配信ならば、楽にストリーミングが可能だと思います。デモとしてそのような軽いものをを使い、実際にダウンロードさせるのは、もっと音質のいいmp3なりVQなりを用意しておくのも手でしょう。

 今はまだβ版ですが、VQが実際に製品として出回るようになれば、インターネット上での音楽配信の主流となっていくであろうことは間違いないと思います。

 誉めてばかりですが、欠点もあります。それはベルやチャイムのような余韻の残る音の場合、余韻の音がゆがむこと、人の声(ナレーションのようなもの。歌の場合は気にならない)のエンコードでは、普通にやるとハモリが入ってしまいますので、少々テクニックが必要なことです。製品版ではこのあたりが改善されることを期待しています。

 
おもちゃ箱に戻る
 
「SoundVQ」はYAMAHAの商標です
「TwinVQ」はNTTの商標です
「Netscape Navigator」「Internet Exproler」「Windows」「AMD K6-2」「3D Now!」「MMX」「MP3 Studio Unreal」などの商品名等は各社の登録商標です