東京藝術大学 大学院 音楽音響創造

要旨

森永 実季
3次元音響再生システムにおける異なるパンニング手法の知覚印象評価 ―ベクトル・ベース振幅パンニング(VBAP)とアンビソニックスを比較して―

3 次元音響再生におけるパンニング手法には、2ch ステレオで使われている従来の振幅パンニング(左右のスピーカに振幅差を与えてスピーカ間に音源を配置する)を 3 次元に拡張したベクトルベース振幅パンニング(VBAP: Vector Based Amplitude Panning)がよく用いられている。一方で、近年のコンピュータ処理能力向上に伴い、アンビソニックパンニングが 3 次元音響制作に使用されるようになってきた。アンビソニックスはある一点における音場の励振を球面調和関数によって表現する記録・再生方式であり、アンビソニックパンニングはその考え方を用いた一種の振幅パンニング手法である。

そのような比較的新しい技術であるアンビソニックパンニングと、3 次元音響でよく用いられるベクトルベース振幅パンニング(VBAP)を比較した印象評価研究が既にいくつか行われている。しかし、これらの先行研究はサラウンド再生や 3 次元音響再生において代表的な評価属性について評価しており、アンビソニックパンニングを十分に評価するための評価属性についての検討はほとんどなされていない。そこで本研究では、アンビソニックパンニングを評価するための評価語抽出と 2 つの主観評価実験を行った。

まず、レパートリーグリッド法を用いた評価語抽出を行った。その結果、6 名の実験参加者から 123 個の評価語対が抽出され、その評価語対は 9 つのクラスターに分けられた。そして 5 つのパンニング手法(実音源・ステレオ仮想音源・アンビソニックス 1 次・3 次・4 次・5 次)に、3 つの音素材(男性スピーチ・ギター・トランペット)と 2 つのパンニング角度(0°・−30°)を組み合わせた刺激を用いて、類似度についての実験と評定尺度法による実験を行った。

類似度については、どの音素材・パンニング角度においてもアンビソニックスの 3~5 次の類似度が高く、実音源、ステレオ仮想音源、1 次アンビソニックスはそれぞれ印象が異なっていたことが分かった。評定尺度法による主観評価実験では、レパートリーグリッド法によって抽出された評価語から選定した 13 個の評価語と、「好み」について評価を行った。その結果、アンビソニックパンニングと相関が高いと考えられる評価語として「包まれ感がある」「広がりがある」「輪郭がにじむ」「奥行き感がある」「鈍い」「厚みのある」「豊か」「上方向に定位」が挙げられた。一方で、実音源やステレオ仮想音源と相関が高いと考えられる評価語として「定位が明瞭」「音像幅が狭い」「クリアな」「芯がある」が挙げられた。そして特に 1 次アンビソニックスと「包まれ感がある」の相関が高いことが伺えた。

また各刺激と音響特徴量との関係を調べた結果、初期(0~50ms)の両耳間相関度(IACC)が定位の明瞭度や音像幅、クリアさに関係していることが示唆された。そしてラテラルフラクション(側方エネルギー率)の計算を元に算出した、前後・左右・上下方向のエネルギー率 (Fx・Fy・ Fz) については IACC ほど顕著な傾向は見られなかったものの、アンビソニックパンニングの評価において、Fx は定位の明瞭度、Fy は音像の広がり、Fz は包まれ感や音像の広がりに影響している可能性が示唆された。


MORINAGA Miki
Impression Evaluation of Different Panning Techniques in Multichannel Audio System: Comparison of Vector-Based and Ambisonic Amplitude Panning

Vector-based amplitude panning (VBAP) is an extension of the conventional amplitude panning used in two-channel stereo (locating sound sources between loudspeakers by apply- ing amplitude differences to the left and right loudspeakers) to three dimensions, is often used as a panning method in 3D audio reproduction. On the other hand, as computer processing capacity has improved in recent years, Ambisonic panning has been increasingly used in 3D audio reproduction. Ambisonics is a recording and reproduction method in which spheri- cal harmonic functions represent the excitation of the sound field at one point. Ambisonic panning is a kind of amplitude panning method using Ambisonic calculations.

Some impression evaluation studies are already comparing such a relatively new technique, Ambisonic panning, with vector-based amplitude panning (VBAP) commonly used in 3D audio. However, these previous studies evaluated typical evaluation attributes in surround and 3D audio reproduction, and there have been few studies on evaluation attributes to suffi- ciently consider Ambisonic panning. Therefore, in this study, extraction of evaluation terms and two subjective evaluation experiments were conducted to evaluate Ambisonic panning.

First, the RGT (repertoire grid technique) was used to extract evaluation terms. As a result, 123 evaluation term pairs were extracted from six experimental participants, and these pairs were divided into nine clusters. Then, the experiment of similarity evaluation and rating scale method was conducted. For these experimental stimuli, five panning methods (real sound source, stereo phantom source, first-, third-, fourth-, and fifth-order Ambisonics) were combined with three sound materials (male speech, guitar, and trumpet) and two panning angles (0° and −30°).

Regarding the similarity, it was found that the third-, fourth- and fifth-order Ambisonics stimuli were highly similar for all sound materials and panning angles. In contrast, the real sound sources, stereo phantom sources, and 1st-order Ambisonics were not identical in their impressions. The rating scale method experiment evaluated 13 evaluation terms (extracted from the repertory grid technique) and “preferences.” As a result, the evaluation terms that seemed to correlate well with Ambisonic panning were “envelopment,” “spread,” “blur,” “depth,” “dull,” “thick,” “rich,” and “upward localization.” On the other hand, “clear localization,”“narrow width,”“clear,”and“focus”were the evaluation terms that seemed to correlate well with the real sound source and stereo phantom source. And the correlation between first-order Ambisonics and “envelopment” was exceptionally high.

In addition, the relationship between each stimulus and acoustic features was analyzed. The results suggested that the early (0∼50ms) interaural cross-correlation coefficient (IACC) is related to the clarity of localization, sound image width, and sound clarity. The reflection energy in the front-back (Fx), left-right (Fy), and up-down (Fz) directions were calculated based on the lateral fractions. The results showed that the Fx, Fy, and Fz trend was not as apparent as IACC. But it was suggested that Fx might affect the clarity of localization, Fy the spread of the sound image, and Fz the envelopment and spread of the sound image.