東京藝術大学 大学院 音楽音響創造

修士論文:関連記事

要旨

張 涛
スピーカ再生における垂直音像定位と周波数帯域の関係について

モノ信号の位相や周波数成分に差を付けることで作成したチャネル間相関が低い二つの信号を左右のスピーカに振り分けると音像幅が広がるという非相関化手法がある。この手法が水平方向によく使用されたが、垂直方向に適用するための検証はまだ不十分である。

本研究では主観実験とダミーヘッドの測定の二部に分かれて、主観実験の回答の傾向と測定された高域にあるノッチを合わせて非相関化の効果を検討した。主観実験では前方縦一列に配置された下層、中層、上層の3 つのスピーカーからドラムループを提示し、非相関化なし1 チャネル再生の場合と2 チャネル再生、または8 種類の非相関化の2 チャネル再生といった条件で被験者にキック、スネア、ハイハットの垂直到来方向と音像幅を答えてもらった。回答の上限値と下限値を分析し、キック、スネア、ハイハットそれぞれに関する音像の広がりを調べた結果、非相関化による個別の音像幅の広がりの変化は示されなかった。1 チャネル再生の場合は上層提示されたキックの定位が下方向へのずれが生じる以外、剌激が再生位置に定位される。2 チャネル再生の場合は垂直方向のファンタム音像定位が上方のスピーカに寄せる傾向が見られて、ハイハット、スネア、キックの間の定位の差がl チャネル再生と一致した。さらに、2 チャネル信号を非相関化した場合は、音像幅の変化が見られなかった。垂直方向の定位の手がかりである高域にあるノッチの有無とVIS (垂直方向の音像幅)との関係が見えなかった。一方、周波数帯域の定位の差が生じることにより、全体をまとめて聞くと音像が広がる可能性がある。ダミーヘッドの測定の結果から見ると、処理なしの1 チャネル再生と2 チャネル再生の比較において、千渉による新たなノッチが生じると共に、一部のHRTF によるノッチがなくなることが示された。そして、非相関化においで相関信号の干渉で生じたノッチが埋められる様子が見られた。そのようなノッチの平滑化がHRTF による個人差の違いを縮められるかを検討する必要がある。


ZHANG Tao

Intercharinel decorrelation created by adding differences in the phase and frequency components of the mono signal. The perceptual effects of interchannel decorrelation have been investigated subjectively and objectively using complementary filter.In the subjective experiment, drum loops are presented from three speakers, the lower layer, middle layer, and upper layer, arranged in a single vertical line, with 1 channel reproduction without decorrelation and 2 channels reproduction, or 8 channels with 2 types of decorrelation. Under the conditions such as decorrelation, the subjects answered the vertical direction and sound image width of the kick, snare, and hi-hat. As a result of the subjective test, decorrelation seem no effective to the vertical sound image width.

From the result of the measurement of the dummy head, it was shown that a new notch due to interference was generated and notches due to some HRTFs were lost in the comparison between 1-channel reproduction and 2-channel reproduction without processing. Then, it was observed that notches caused by correlation signal interference were filled in the decorrelation. It is necessary to consider whether such notch smoothing can reduce differences in individual differences due to HRTF.

要旨

笠原 眞由
フルート演奏音のフルート演奏者および非フルート演奏者による音色評価

フルートを演奏するときに音色を変化させる手段として、倍音量(基音に対する倍音のエネルギー)を増減させる方法がよく用いられる。筆者が以前に行った研究では、倍音量を変化させたフルート演奏音の明るさについての印象がフルート演奏者と非フルート演奏者で異なることがあった。この研究では、「明るい」というただ1つの言葉を用いて調べる手法と、言葉を使わずに刺激同士の非類似度を評価させ、そこから音色空間を構成する手法を用いた。そこで本研究では、同じ刺激について複数の言葉を用いて多次元的に検討する方法を採用した。また、フルート演奏者の意図する明るさはいかなるものか調べるため、明るさおよびシャープさが変化するように吹き分けを行ったフルート演奏音を刺激とし、2つの実験を行った。

倍音量を変化させたフルート演奏音を複数の言葉で評価する実験では、因子分析の結果、明るさ・柔らかさ因子と、美的・叙情的および量的・空間的因子の2因子が見出された。9つの評価尺度がどちらの因子と関係しているかについては、フルート演奏者と非フルート演奏者の間でいくつかの違いが見られた。因子1には倍音量を表す音響特徴量であるHFRが、因子2にはノイズ成分のレベルが対応することがわかった。しかし、筆者の以前の研究で求めた非類似度判断による空間布置と比べてノイズレベルとの対応は弱いものであった。

明るさおよびシャープさを変化させたフルート演奏者については、まず、シェッフェの一対比較法により明るさ、シャープさおよび非類似度を判断させる実験を行った。明るさを変化させた刺激(刺激群b)は、刺激のスペクトル重心が高い値であるほど明るく、シャープであると評価された。シャープさを変化させた刺激(刺激群)では、刺激の立ち上がりの時間(RiseTime)が短いほど明るく、シャープであるとされた。この実験では、グループ平均の結果ではフルート演奏者と非フルート演奏者で差異は見られなかった。得られた非類似度から2次元の布置を求めたところ、この音色空間の各次元は、刺激群bではHFRとエネルギーの中央値に、刺激群sではHFRとノイズレベルに対応した。これについても、フルート演奏者と非フルート演奏者に違いはなかった。

次に、明るさおよびシャープさを変化させたフルート演奏音についても複数の言葉で評価させる実験を行った。倍音量を変化させたフルート演奏音を用いた実験と同様に、明るさ・柔らかさ因子と美的・叙情的および量的・空間的因子の2因子が見出された。この実験においても、各尺度と因子の関係についてはフルート演奏者と非フルート演奏者でいくつかの違いがあった。各因子は、刺激群bでHFRとノイズレベルに、刺激群sではRiseTimeとノイズレベルに対応した。ただし、因子2とノイズレベルの関係は、非フルート演奏者のグループによる刺激群sの評価を除いて、これらの相関は中程度であった。

これらの結果により、明るさおよびシャープさを変化させた刺激についての明るさ、シャープさの評価および刺激同士の差異はスペクトル重心やHFRで表される倍音の量と、刺激の立ち上がり時間(RiseTime)に影響されると言える。倍音の量とRiseTimeは関連のある音響特徴量だが、これらの相関が低いときにはRiseTimeが重視された。

本研究ではフルート演奏者による明るさの評価と物理量の関係が以前の研究とは異なる結果となったが、フルート演奏者がスペクトル重心やRiseTime以外の音響特徴を聞いて評価しているためであることが示唆された。


KASAHARA Mayu
Evaluation of Flute Timbres by Flute Players and Non-Flute Players

Flute players often increase or decrease the harmonics energy level (the total energy of the harmonics over the fundamental) in order to vary the timbre. In the author’s former study, the evaluation of “brightness” of the flute timbres of which harmonics energy level was controlled by players sometimes differed between flute players and non-flute players. In the above research, a method of pairwise comparison of,stimuli on the “brightness” attribute and a method that constructs a timbre space from dissimilarity between stimuli evaluated without using any verbal attributes were adopted. Therefore, in this study, the author took the method that constructs a timbre space from examining the same stimuli as the above study in multiple verbal attributes. In addition, in order to investigate what the flute player’s intended brightness is, two experiments were carried out with the flute timbres which had been played to vary their brightness and sharpness as stimuli.

In the experiment that had participants evaluate the flute timbres of which harmonics energy level was controlled in multiple verbal attributes, the factor analysis revealed two factors that were interpreted as the “brightness and softness” factor and “aesthetic/lyrical and mass/spatial” factor. There were some differences between flute players and non-flute players regarding which factors the attributes are loaded from. Factor 1 corresponds to HFR, which is an acoustic feature that represents harmonics energy level, and factor 2 corresponds to the level of noise components. However, the correspondence with the noise level was weaker than that at timbre space based on the dissimilarity judgment obtained in the author’s former research.

With the flute timbres of which brightness and sharpness were controlled, first, an exper- iment conducted that had participants evaluate the brightness, sharpness, and dissimilarity using the Scheffe’s pairwise comparison method. As a result, the stimuli of which bright- ness was controlled (stimuli group b) were evaluated as brighter and sharper as the spectral centroid of the stimulus was higher. The stimuli of which sharpness was controlled (stimuli groups) were evaluated as brighter and sharper as the RiseTime of the stimulus was shorter. In this experiment, the participant-group average results showed no difference between flute players and non-flute players.

A two-dimensional configurations were obtained from the dissimilarities. The dimensions of the timbre space corresponded to the HFR and median value of energy in stimuli group b, and to HFR and the noise level in stimuli groups. There was no difference between flute players and non-flute players.

The experiment using multiple verbal attributes was also carried on the stimuli of which brightness and sharpness were controlled. Similar to the experiment using the flute timbre of which harmonics energy level controlled, two factors were found: “brightness and softness” factor and “aesthetic/lyrical and mass/spatial” factor. Also in this experiment, there were some differences between flute players and non-flute players regarding the relationship be- tween factors and attributes. Factor 1 corresponds to HFR for stimuli group b and RiseTime for stimuli groups and factor 2 corresponds to the level of noise components. However, the relationship between factor 2 and the noise level was moderate, except for the evaluation on stimuli group s by a group of non-flute players.

It is revealed from these results that the evaluation on brightness, sharpness, and dissim- ilarity of flute timbre of which brightness and sharpness were controlled are influenced by the spectral centroid and HFR, which represent harmonics energy level, and RiseTime of the stimuli. However, when the correlation between harmonics energy level and RiseTime is low, participants have seemed to emphasis RiseTime.

In this study, the relationship between the evaluation of brightness by the flute players and acoustic features was different from the previous study. The possibility is suggested that the flute players evaluated stimuli based on acoustic features other than the spectral centroid and RiseTime.

要旨

長島 千尋
頭部伝達関数の個人差の考慮の有無が音色の知覚に与える影響について

「バイノーラル再生方式」は、聴取者の耳に入る音の音響的特徴を捉え、聴取者の耳の入り口で再生することによって、ヘッドフォン再生であっても立体的、臨場感のある音を再現することができる再生方式の一つである。過去の研究によって、頭部伝達関数(HRTF)の個人差の考慮の有無が、音像定位の知覚に影響を及ぼすことが明らかにされてきた。本論は、聴取者本人のHRTFと、本人のものでないHRTFを畳み込んだトランペット、ヴァイオリン、声楽(ソプラノ)、シロフォンの4種類の楽器の、残響など空間情報を含んだ音源を刺激として用いた2つの主観評価実験を9人の被験者に対して行ない、HRTFの個人差の考慮の有無が音色にどのような影響を与えているのかについて明らかにすることを目的とする。

主観評価実験(1)は、被験者本人のHRTFを含む9種類のHRTFを反映させた音源の非類似度を楽器ごとに11段階で回答し、また質問紙調査を通して、音色の類似点、または相違点に対してどのような評価語が用いられているのかについての調査を行なった。主観評価実験(1)の結果、HRTFの個人差によって生じる音色の違いを被験者は様々な評価尺度、評価語を用いて認識していることがわかった。また、複数の評価尺度に基づいた総合的な判断によって音色の違いを認識しているということが明らかになった。

主観評価実験(1)では被験者それぞれが別の評価語を用いて評価を行なっていたため、被験者間の結果の比較を行うことができない。そこで、主観評価実験(1)の実験を元に音色の比較によく使用されていた評価語を評価尺度ごとに抽出し、主観評価実験(2)では被験者全員が同じ11種類の評価語を用いて、7段階の評価を行なった。主観評価実験(2)の結果、トランペットの音色は、金属因子がHRTFの個人化の有無における音色の違いの評価の基準となっている被験者が多い傾向にあり、トランペットの音色は、本人のHRTFを使用した音源は鈍く、広い音であると判断される傾向がみられた。また、HRTFの個人化の有無はトランペットの音色の好ましさには影響を与えないことが示唆された。ヴァイオリンの音色は、金属因子がHRTFの個人化の有無における音色の違いの評価の基準となっている被験者が多い傾向にあり、本人のHRTFを使用した音源は固く、ぼんやりとした音であると判断される傾向がみられた。また、HRTFの個人差の有無はヴァイオリンの音色の滑らかさには影響を与えないことが示唆された。ソプラノの音色は、本人のHRTFを使用した音源は自然な音であると評価される傾向があった。また、HRTFの個人化の有無はソプラノの音色の鋭さには影響を与えないことがわかった。シロフォンの音色は、評価の基準となっている因子にはばらつきがあり、本人のHRTFを使用した音源は鈍く、軽い音であると判断される傾向がみられた。また、HRTFの個人化の有無はシロフォンの音色の明るさには影響を与えないことがわかった。

また、分散分析を行なった結果、HRTFの個人差の考慮の有無が、楽器の種類によらず「滑らかさ」「好ましさ」に影響を与えることがわかった。しかし、音色の非類似度の判断に寄与している音響特徴量を見つけることはできなかった。

実験の結果、HRTFの個人差の考慮の有無が「滑らかさ」「好ましさ」に影響を与えていることが明らかになった。今回は従来のHRTF測定方法に比べて、無響室ではなく響きのある音響スタジオで測定を行ない、また測定した再生音源方向の数も少ない簡易的な測定方法であったが、音の「滑らかさ」「好ましさ」において個人化HRTFの個人差の考慮が必要であることが示唆された。また、主観評価実験(1)の結果より、音色の判断の基準となっている評価語や評価尺度は人それぞれ異なり、また複数の評価語、評価尺度を用いた複雑かつ総合的な分析の元に音色の判断が行われていることが明らかになったことから、それぞれの音色の評価において判断の基準となっていた物理特徴量は異なる可能性があり、HRTFの個人差によって生じた物理特徴量の違いの中でも、具体的にどの部分の違いを聴いて音色の違いを判断していたかについては、個人差を考慮したより詳しい調査が必要であることが明らかになった。


NAGASHIMA Chihiro

Binaural reproduction is a technique that captures the acoustic characteristics of the sound at the entrance of the listener’s ears and reproduces them to reproduce three-dimensional and realistic sounds. Previous studies have shown that individual differences in head-related transfer functions (HRTF) influence of sound localization.

In this paper, two subjective evaluation experiments were conducted on 9 subjects. Four types of instruments sound were used as stimuli: trumpet, violin, vocal (soprano), and xylophone. They were convolved with individualized and non-individualized HRTF and included spatial information such as the reverberation. The purpose of this experiment is to clarify how the individual differences in HRTFs influence the timbre.

In experiment (1), participants were asked to answer the similarity in an 11-point scale between stimuli which reflected 9 types of HRTFs, including their own HRTF. In addition, through a questionnaire, I investigated what evaluation words were used to describe timbre similarities.

As a result of the experiment (1), it was found that the subjects could recognize the timbre differences caused by individual differences in HRTF using various evaluation scales and evaluation terms. Moreover, it became clear that the difference of a timbre was recognized by the overall judgment based on multiple evaluation scales. In the subjective evaluation experiment (1), each subject performed an evaluation using different evaluation terms, so the results cannot be compared between subjects. Therefore, based on the experiment (1), I extracted the 11 evaluation terms that were which were used frequently for timbre comparison.

In the subjective evaluation experiment (2), all the subjects evaluated on a 7-point scale using the same evaluation terms. With 9 HRTFs and 4 types of instrument sounds, a total of 36 sound stimuli were used.

As a result of the experiment (2), the timbre of trumpet tends to be evaluated based on the luminance factor. It seems that the sound stimuli using the individualized HRTF is “dull,” and “wide.” The timbre of violin tends to be evaluated based on the luminance factors. It seems that the sound stimuli using the individualized HRTF are “hard,” and “vague.” It was suggested that individualized or non-individualized HRTFs did not influence the smoothness of the timbre of violin. The timbre of soprano tended to be judged as a natural sound using the individualized HRTFs. It was also found that the individualization of HRTF does not influence the sharpness of soprano timbre. The timbre of xylophone tended to be evaluated based on many factors. It seems that the sound stimuli using the individualized HRTF are “dull,” and “light.” It was also found that the individualization of HRTF does not influence the brightness of xylophone timbre.

In addition, as a result of the analysis of variance, it was found that whether or not to consider individual differences in HRTF influence “smoothness” and “preference” regardless of the type of instrument. However, the acoustic feature quantity related to the determination of the timbre similarity cannot be found.

As a result of experiments, whether or not to consider individual differences in the HRTF has an effect on “smoothness” and “preference.” Therefore, it was suggested that even with a simple measurement method, it is necessary to consider individual differences in the HRTF. In addition, from the results of the experiment, It became clear that the evaluation terms and scales that are the criteria for timbre are different for each person, and multiple terms and scales are used based on complex and overall analysis. Therefore, the audio parameter that was used as a criterion in the evaluation of each timbre may differ. More specific investigations are needed to determine which acoustic feature quantity was used to determine differences in timbre, taking into account individual differences.

要旨

朴 寿焄
ミキシング作業におけるモニターヘッドホンの影響に関する調査 -5種類のモニターヘッドホンと高音域・低音域のEQ調整を用いて-

本研究はモニターヘッドホンの違いがミキシング作業に及ぼす影響に関する調査である。そのため高音域、低音域のイコライザー調整(以下 EQ 調整と称す)の実験を行った。実験の内容は 5 種類のヘッドホンで 3 パターンのイコライザーをかけたジャンルの違う 3 種類の刺激音源 ( POP , COUNTRY , CLASSIC ) を元どおりに戻すように EQ 調整を行う内容であった。 EQ 調整はヘッドホン 1 つにつき 45 回行なう。ヘッドホンの順番が固定されることによるバイアスを避けるため、ラテン方格で決めた順番で総 2 回実験を行った。実験 1 は与えられた刺激音源をヘッドホンことに EQ 調整をする。実験 2 は実験参加者から提供されたリファレンス音源を各刺激音源の間に配置し、ヘッドホンの周波数特性を確認しながら EQ 調整をする。リファレンス音源を持ち込むことによって、ヘッドホンが変わってもその特性を掴むことができ実験 1 との結果は違うことが望まれる。その 2 つの実験結果を比較する。

実験参加者は全員 1 年以上音響教育を受けている学生であった。実験結果を教育現場に適用するためイヤートレーニングの有無で実験参加者グループを二つに分けた。この二つのグループ間に違いがあった場合、実験結果を参考にし、教育方法の提案ができる。

実験データは複数の応答変数と共通な一連の予測変数との間の関係を同時に分析するため多変数分散分析 ( MANOVA ) で分析をした。その結果, ヘッドホンの違いで EQ 調整の結果に有意差があり、刺激音源間にも有意差があった。それはヘッドホンの周波数特性は EQ 調整に影響すると言える。そして音楽のジャンルによって EQ 調整の仕方に違いがあることになる。

イヤートレーニングの有無で分けられた二つの実験参加者グループ間で有意差が認められた原因が二つ挙げられる。 1 つ目は音楽聴取経験の偏りによる EQ 調整結果の差で、 2 つ目はイヤートレーニングによる差であると推測される。

高音域ではリファレンス音源の有無で有意差が認められた。高音域で有意差が認められた理由はヘッドホンの構造上、低音域より高音域の特徴が確認しやすいことである。リファレンス音源の如何によっては高音域の違いは認知できるとかんがえられる。

以上の実験結果からヘッドホンの周波数特性はミキシング作業の一つである EQ 調整に影響を及ぼすことがわかった。リファレンス音源とイヤートレーニングが影響されていることから教育現場にこの二つの内容を教育方法が適用されることを主張していきたい。


PARK Soo Hoon

This thesis reports investigations of the effect on mixing task due to differences of monitor headphones.
Experiments of equalization(EQ) in high and low frequency region were conducted. In the experiments, participants were asked to adjust the EQ of stimuli back to its origins using five types of headphones. The stimuli were from 3 genres of music (pop, country, classic) which had been equalized in three pattern previously. There were 45 adjustments of EQ for each headphone. To avoid the bias due to the fixed order of headphones, the latin square design was used.

In the experiment 1, adjustments of stimuli from given sound source were performed for each headphone. In the experiment 2, the reference sound source provided by participants was presented between stimuli, thus participants could check the headphone characteristic while adjusting EQ. By bringing their own reference, the characteristic could be grasped even though the headphone was changed, thus a different result was expected when comparing the results of experiment 2 to 1.

All participants had at least one year experince of acoustic education. To apply the result of experiment to education, participants were divided into two groups based on whether they have experiments of ear training or not. If there were differences between two group, proposals to education methods could be provided based on results.

Multivariate analysis ofvariance (MANOVA) was performed to analyze the relationship between multiple response variables and predictor variables. According to the result, there was a significant difference of EQ adjustment among different headphone types. This suggest that the headphone characteristic had effects on EQ adjustment. In addition, the way to adjust EQ also varied according to the genre of sound source.

There was significant difference between two groups which were divided based on experiments of ear training. One interpretation could be the bias of music listening experience, another could be the difference of ear training.

According to whether the reference was provided or not, a significant difference was observed for the result of EQ adjustment in high frequency region. The reason could be that the characteristic of high frequency region is easier to check than in low frequency region. According to the reference, the difference in high frequency region could be acknowledged.

Based on experimental results described above, it was found that the frequency characteristic of the headphone have effects the EQ adjustment, which is one of mixing tasks. Since it suggested the influence of reference sound source and ear training, to include these two contents in the educational method is recommended.

要旨

蓮尾 美沙希
音源の特徴がマルチチャンネル音響方式の知覚にもたらす影響

近年、高さ方向にスピーカをもつマルチチャンネル音響方式が興隆を見せており、映画や放送コンテンツに積極的に用いられている。チャンネル数が増えたことで印象が変わりやすい音源を制作に効果的に使用すれば、マルチチャンネル音響方式時代の強みを生かしたコンテンツ制作が可能になると考えられる。本研究では、音源のもつ特徴がマルチチャンネル音響再生方式の印象知覚にどう影響するのか検討するための実験及び分析を行った。

実験1では、楽器や音の長さの違いが、チャンネル数判別に影響するかを確かめる聴取実験を行った。音源はシロフォンとチェロそれぞれの単音、フレーズの計4種類を用意した。マルチチャンネル音響方式は、5、7、9、13、22チャンネルの5種類を用意した。ABX法を用いて、同じ音源で異なるチャンネル数を判別できるか実験した。得られた回答は二項検定を行い、音源ごとにチャンネル数判別の正答率に変化があるかを比較した。チャンネル数の組み合わせごとにみると、どの組み合わせでも有意にチャンネル数を判別できていた。一方音源ごとに正答率をみると、チャンネル数を有意に判別できていない組み合わせがみられ、シロフォン単音の場合に最も多かった。しかしチェロのフレーズの時には全ての組み合わせで有意に判別できていた。楽器別にみるとシロフォンの方がチェロよりもチャンネル数の変化に気づきづらい傾向があることがわかった。フィッシャーの正確確率検定およびボンフェローニの多重比較の結果、シロフォン単音時はチェロのフレーズに対してチャンネル数判別の正答率が低いということが有意に示された。

実験2では音源の倍音構造に着目し、倍音数の違いがチャンネル数判別に影響するかを確かめる実験を行った。音源は250Hzを気音とし、第2、4、8、16、32倍音までの倍音をもつ鋸歯波(以下倍音刺激と称する)と、250Hz以下をカットしたピンクノイズの7種類を用意した。マルチチャンネル音響方式は、5、9、22チャンネルの3種類を用いた。さらに座席位置は中央位置と中央から50cm後方位置の2種類で行った。実験1と同じくABX法と二項検定をを用いて、同じ音源でチャンネル数が異なるものを判別できるかを実験した。結果は、座席が中央位置の場合には2、4倍音刺激で、後方位置の場合は4倍音刺激で、5チャンネルと9チャンネルの組み合わせが有意に判別できていなかった。理由を検討するため、実験2に用いた刺激音の物理特徴を調べた。まず側方・上方反射音エネルギー率の時間変動の再生方式間の創刊を比較し、さらにそれをオクターブバンドごとにも比較した。加えて、IACCの時間変動の再生方式間相関値も比較した。まず基音刺激とノイズ刺激では、上記のいずれの場合でも他の倍音刺激と異なる傾向を示した。つまり、他の倍音刺激と異なる部分を手掛かりにしていたと考えられる。さらに再生方式間の相関値が他刺激より低い場合が多く、チャンネル数の違いで差が生まれやすかったのだと考えられる。2倍音刺激は、5と9チャンネルの組み合わせでの再生方式間の相関値がいずれも高いため、チャンネル数の違いによる差が少なく、チャンネル数判別がしづらかったと考えられる。4、8、16、32倍音刺激では、周波数ごとの側方・上方反射音エネルギーの変動の差がチャンネル数判別に影響している可能性がみられた。さらに倍音数が増えると変動する周波数も増え、チャンネル数判別の手掛かりが増えるという可能性が示された。


HASUO Misaki
The effect of sound source characteristics on spatial impression of multichannel sound reproduction system

In recent years, multichannel sound systems with height direction speakers have been used for movies and broadcasted content. If one effectively uses sound sources that are easy to determine that the number of channels have increased, it will be possible to produce content that makes full use of the strengths of these systems. In this research, I examined how the the sound source characteristics affect the impression of multichannel sound systems through 2 experiments.

In Experiment 1, I tested whether the difference in the number of channels can be significantly perceived, depending on certain musical instruments and the length of the sound. Four sound sources were prepared: a single tone from xylophone and cello, and a short musical phrase played by xylophone and cello. For the multichannel sound systems, 5, 7, 9, 13, and 22 channels were prepared. Using the ABX method, I tested whether it was possible to distinguish between different channels within the same sound source. The binomial test was conducted on the answers, which compares whether there is a change in the correct answer rate for each sound source. The results concluded that the number of channel combinations with a low percentage of correct answers was the largest in a xylophone single tone, and the smallest in a cello phrase. There was also a tendency showing that it is more difficult to distinguish the number of channels when listening to the xylophone, rather than cello. In addition, the results showed a tendency indicating that the number of channels was harder to distinguish from a single tone, rather than a musical phrase.

In Experiment 2, I focused on the harmonic structure of the sound source, and experimented using sawwaves with a different number of overtones and pink noise cut at 250 Hz or under. Three multichannel sound systems – 5, 9 and 22 channels – were used. In addition, 2 seat positions were prepared: one from the center, and one 50 centimeters back from the center. As in Experiment 1, the experiment was conducted using the ABX method, and the correct answer rate was analyzed using a binomial test. As a result, in the center position, the combination of 5 and 9 channels could not be significantly distinguished within the sound sources up until the second and fourth overtone. In the rear position, it was the same with the sound source, up to the fourth overtone. It was found that the temporal change of reflected sound energy on the lateral and above affects the channel number discrimination. In addition, time variation of IACC between channel combinations are also related.

要旨

刘 洁莹
歌声の感情を感じられる音響特徴の調査

本研究では、歌声に含まれる感情における音響特性と各感情が感知される方法を明らかにすることを最終的な目的として、実験を三つ行った。

実験一では 24 の感情音刺激(異なる感情で録音された音階)を聴取して印象評価実験と感情評価実験を実施した 。 まず、SD 法による印象評価実験では、歌声の感情が被験者に与える印象を調べた。2つ目の実験は感情を表す歌声の類似性とどのよう な印象を与えているのかについて調査を行った。実験の結果、音階の歌声により感情 を区別することができるということが示された。音刺激の音響特徴量に対する分析において、各感情のビブラート値に大きな差が見られた。このことから、ビブラートと いう音響特徴量に注目した。

実験二では、合成歌声 (Vocaloid) を用いて、また実験三では人の歌声を用いて、 ビブラートのスピードとビブラートの振幅の起伏が感情に与える影響について調査を行った。実験の結果、ビブラートの起伏の大きさ、スピードの速さが「怒り」、「恐れ」の感情に結びつきがあると考えられた。


LIU Jieying
A research about the mostly affected acoustic features of perceived the emotion of the voice

In this research, three experiments were conducted to investigate the influence of the vibrato in the perception of emotion. Through these experiments, this research find out the measures of emotion perception and clarify acoustic feature value.

The first experiment was conducted to clarify the similarity with 24 different kind of emotions and the impression of them. As the result, the perception of emotion influenced by the vibrato parameter “Extent” and “Rate”.

In the second experiment, the voice stimulus which made by “Vocaloid” were used for evaluating the influence of the vibrato “Extent” and “Rate” in the perception of emotion. From this experiment, this research proved that “angry” and “horror” had the strongest correlation with “large extent” and “high speed”.

In the final experiment, this research uses the voice from tenor and soprano to evaluate the emotion of “angry”, “happy”, “sad”, “horror”. With the result, changing the parameter of vibrato will influence the emotion of the voice. So we can prove that “Extent” and “Rate” play an important role in the perception of emotion.

要旨

朱 墨丹青
Reality-based Interfacesの使用とビデオゲームサウンドの表現 -ビデオゲームの現実感を拡張するため-

本論はreality-based interfacesを使用するビデオゲームの現実感を高めるための、「ビデオゲームサウンドの表現によって、ゲーム中に生み出される現実感のあり方を検証する」を新しい分析方法として、reality-based interfacesの使用とビデオゲームサウンドの表現を分析した。分析の結果から、reality-based interfacesの使用より、高められたビデオゲームサウンドの特質は、「感覚的現実感」のみを表現することができる、という結論を得た。

現在、ビデオゲームサウンドのインタラクションについての研究は、主にコリンスが2007年に提示した研究方法を使用する。しかし、この理論は伝統的なヒューマンコンピュータインタラクション(以下HCI)に基づいて提出されたため、近年の新たなインタラクションやインタフェースを使うビデオゲームのサウンドに、適合しない問題が生じた。また、reality-based interfacesを使用するビデオゲームにおける現実感とゲームサウンドを関連づけて研究する方法はまだ充分に確立されていない。故に、新しい研究方法の開拓が望まれる。

第1章ではビデオゲームサウンドが誕生した時から2000年まで、その進化の歴史について論述した。また、ビデオゲームサウンドの研究の現状を文献資料からまとめ、現実感についての研究方法はまだ確立されていないという現状を明らかにした。

第2章ではサウンドとHCIについて論述した。第1節では、HCIの発展の歴史と、reality-based interactionについて論じた。Reality-based interactionは2006年に、Robert JacobがHCI領域の研究と新しいインタフェースのために提出したフレームワークである。彼は新しいインタラクションの相違点を見出し、Reality-based interactionを定義した。それは「現実でのインタラクションと、現実のインタラクションを模倣するHCI」というものである。Reality-based interactionを実現するには、例えばバーチャル・リアリティで使用するヘッドセット、眼球運動に基づくインタラクションで使用するメガネなど、各種のインタフェースが必要になる。これらのインタフェースは、reality-based interfacesと呼ばれる。第2節では、(ゲーム)サウンドの制作とHCIの歴史と現状を考察した。HCIの発展に、もっとも影響されたのは音楽の制作と考える。そのため、本節では音楽とHCIの関係に着目して考察した。

第3章では、ビデオゲームサウンドとReality-Based Interfaceについて論述した。第1節ではActive Video Gameとゲームコントローラの方面から、ビデオゲームとReality-Based Interfacesの使用について分析した。第2節では、ビデオゲームサウンドとReality-Based Interfacesの使用法を分析し、新しい研究方法の有効性を検証した。その新しい表現方法とはビデオゲームサウンドそのものの表現と、ビデオゲームサウンドが拡張する現実感の表現である。ビデオゲームサウンドの表現には3つの要素がある。それは音量、方向、テンポである。また、ビデオゲームサウンドが拡張する現実感の表現については、reality-based interactionにとっての4つの現実から分析した。すなわち、単純な物理的感知、身体的な知覚と技能、環境的な知覚と技能、社会的な知覚と技能である。

第4章の事例研究では、上述の新しい研究方法を用い、reality-based interfacesを使用する4つのビデオゲームを実例として、そのサウンドが作り出す現実感について考察した。研究結果を振り返ると、現段階では、ビデオゲームサウンドにおいてreality-based interfacesの使用より、高められるのは「感覚的現実感」の表現のみ、ということが明らかになった。

本論には、新しい研究方法を提出するだけでなく、副次的な目的もある。それは、ビデオゲームサウンドとHCIの関係についての注意を喚起し、HCIとビデオゲームサウンドの研究方法を確立することである。加えて、将来のビデオゲームサウンドとreality-based interaction、及びゲームサウンドとHCIの研究領域の研究者に、基礎的資料を提供することも目的としている。


ZHU Modanqing
The using of Reality-based Interfaces and the expression of video game sound: for enhancing the reality experience for users in the video games

In this thesis, a new approach is proposed for researching the sense of reality produced by sound in the video games using the reality-based interfaces. The method is, to verify the reality that is created during the game through the expression of the video game sound. As concluded, it could be seen that the game sound can only enhance the  expression of  “reality for feeling”, but not the “reality for emotion”.

Currently, video game sound interaction research is still mainly using the research method proposed by Karen Collins in 2007. However, since this theory was originated based on traditional human-computer interaction (HCI for short). It is found today that theory and techniques do not quite fit in the sound of video games using new interactions and interfaces in recent years. Also, the methodology of studying the reality of video games using reality-based interfaces and game sound has not been well established. Therefore, the need for a newer research methodology becomes very necessary.

The intention of this research is not only to propose a new research method but also serves a secondary purpose, that is, to draw the attention to, and to purport the establishment of, the relationship between video game sound and HCI. Besides, it also aims to provide basic materials for future researches on video game sound and Reality-based Interaction as well as in the field of video game sound and HCI.

要旨

魯 璇
非線形歪みの検知限向上するためのイヤートレーニングについて

音響電気設備や、電気回路から生じる信号の非線形歪みは、音響特徴量の一つであり、元信号に 新たな周波数成分を増加することに伴い、音質やラウドネスなどに影響を与える。また、全高調 波歪み(Total Harmonic Distortion)や相互変調歪み(Intermodulation Distortion)などは非 線形歪みの程度を表す値であり、オーディオ機器や電子部品の性能を表すための指標として使わ れる。オーディオシステムでは、歪みが小さいということは、スピーカーやアンプなどのコンポ ネートが録音をより正確に再現することを示し、入力信号の振幅過大化や、スピーカーの振動が 不十分など原因による非線形歪みは再生の忠実度を損なう。非線形歪みが発生した時、VU メー ターで観測することなど単純な物理手段だけではとらえられない可能性があるため、瞬時的な信 号歪みに対する聴覚検知も必要だと考えられる。 

非線形歪みはノイズとして扱われる一方、非線形歪みは音質に悪い影響を与えるだけではない。 元信号に高調波が生じるゆえ、豊かな音色をもたらすことができる。このような非線形歪みはア ナログオーディオ設備の重要な特徴の一つであり、音楽創造の場合には、エレキギターや、シン セサイザーなどにエフェクターとしてもよく使用されている。このような非線形歪みに対する感 知能力や、パラメーターの変化によって音質の変化との対応する聴覚訓練も重要だと考えられる。 そのため、非線形歪みが発生した時、発生の理由や歪みの種類がいずれであっても、それらに対 する検知はとても重要だと考えられている。 

現在、数多のオーディオ企業や、音響専門の大学、専門学校でイヤートレーニング(聴能訓練) が行われている。イヤートレーニングは、音響技術専門者に音の物理特性と関連づける知識や、特 定の音響特徴量に対する感知に集中し、表現する能力を向上するために、体系的に習得する訓練 方法である。現存の様々なイヤートレーニングの中に、周波数帯域 (Hz) や再生レベル (dB) につ いての訓練は数多いが、「非線形歪み」についての訓練はまだ不十分だと考えられている。 

本研究では、非線形歪みの検知限を向上するイヤートレーニング(聴能訓練)を検討するため、 非線形歪みの知覚理論と聴能形成を研究した上で、非線形歪みを測定するための実験を行なった。 実験には非線形歪みの一種であるソフトクリッピングのアルゴリズムに基づき非線形歪みをシ ミュレートした。適応法の一種であるパラメーター推定法(PEST 法)を使用して非線形歪みの 検知限の測定を試みた。実験参加者は音楽音響知識の有無によって、三つのグループに分けられ た。実験の結果、音楽音響知識を持っている二つのグループの間には有意差が見られなかったが、それらと音楽音響知識を持っていないグループとの間には有意差が見られた。

実験で非線形歪みの検知限を測定した上で、音楽音響知識を持っていないグループでの聴能訓 練を行なった。測定から 5 ヶ月後、実験参加者は 10 日間、難易度によって 3 セクションの訓練を 受けた。訓練後、18 人の訓練参加者の非線形歪みの検知限を再び測定した。その結果、 聴能訓練 によって、参加者の非線形歪みに対する検知限が向上することが明らかにした。また、非線形歪 みの検知限は非線形アルゴリズムと刺激(音源)に影響されることがわかった。


LU Xuan
Ear-training for Improving the Perception of Non-linear Distortion

Non-linear distortion generated by the acoustical-electronic devices or channels might derive new frequency components that were not present in the original signal. Those additional components would affect perceptions of sound such as timbre and loudness, and it can be treated as one of the characteristics of the sound. Typical non-linear distortion measures, such as Total Harmonic distortion (THD) and Intermodulation Distortion (IMD) are used for representing the performance of audio equipment and electronic components. In audio systems, lower distortion means the components in a loudspeaker, amplifier, microphone, or other equipments produce a more accurate reproduction of an audio recording, but it has been proved that these physical factors have a low correlation with the perception of distortion.

Nonlinear distortion in the signal paths is always unexpected in the same way as noise, thus it must be eliminated or minimized. However, for music production, it is commonly used as an effect processor for electric guitars or synthesizers. Therefore, the ability to detect non-linear distortion is considered to be important to some extent. Furthermore, with some kind of ear-training, the detection of non-linear distortion of the subjects is expected to be improved.

In this study, to implement an ear-training program of non-linear distortion, the perception threshold (detection limen in this study) of non-linear distortion should be known at first. For that purpose, based on several different digital soft clipping algorithms, we simulated seven non-linear distortions that can be detected. Attempts were made to determinate the detection threshold of non-linear distortion of subjects, using these algorithms of non-linear distortion which were added to different kinds of input signals. The experimental procedure was following the description of Parameter Estimation by Sequential Testing (PEST).

Subjects were from three different groups, based on their experience of acoustic and music studies, two of them were experienced groups and one was a group of naive listeners. The statistical significance was found between the experienced groups and the naive listener group.

Five months after the experiment, we considered an ear-training process within ten days for the naive listener group. The ear-training had three sections from easy to hard levels, following a retest of the threshold detection of non-linear distortion. The result shows that with the ear-training, the participants improved their detection threshold of non-linear distortion. Also, the data has shown that the performance of the distortion algorithm affects the detection threshold of non-linear distortion.

要旨

野川 菜つみ
一柳慧における音のデザイン
-1960年代〜70年代初頭の領域横断的表現-

本研究は、戦後日本の音楽界を牽引してきた音楽家の一人である一柳慧が、1960年代から70年代初頭に行った「音のデザイン」について、実践とその背景となる思想の両側面から明らかにし、同時代の諸芸術分野との領域横断性を踏まえた上で意義付けるものである。

彼は19歳に渡米し、青年時代をニューヨークで過ごす間、アメリカ実験音楽の中心的な人物であるジョン・ケージに師事し、アラン・カプロ―やロバート・ラウシェンバーグ、ジャスパー・ジョーンズ、マース・カニングハムらとも共に活動した。28歳に帰国した後、60年代から70年代にかけ、ケージが提唱した「偶然性・不確定性の音楽」を引き継いだ表現を創作の中心に据え、図形楽譜による作曲や、「行為」を表現形式としたハプニングやイヴェント、電子音楽等の多彩な作品を発表していくが、それと同時に、日常的な音や都市の音環境へと着目した「音のデザイン」や「音の環境デザイン」の概念に焦点を当てる。

1964年頃から1970年代初頭かけて一柳が取り組んだ音のデザイン活動は、既存の音楽を環境に合わせデザイン化する行為ではなく、脱音楽の志向性を起点とした諸芸術との領域横断的な協働を基調とするものであり、音を光や映像、オブジェ、動きなどと一体化させたインターメディアの試みや、観客参加型の音環境の場の創造、環境音楽による空間演出など多岐に渡る。本研究では、一柳による音のデザインの具体的な実践を取り上げ、一柳本人や関係者へのインタビューと当時の文献を元にその活動内容や思想的背景を明らかにすると共に、領域横断的な活動や日常生活と芸術表現を結びつける表現の可能性について考察を行う。

第一章では、まず一柳による音のデザインの概要や、60年代から70年代の思想的背景について扱う。第二章では、事例研究としてインターメディアや環境芸術と親和性のある1966年の〈空間から環境へ〉展や、1970年の日本万国博覧会での活動等を中心に5つの事例を取り上げ、時代背景や前衛芸術運動と一柳の活動内容の関連性を中心に考察する。第3章では、第2章で挙げた事例の総括を行い、一柳による音のデザインをポスト・ケージの芸術表現における日常性への着目に関連付け、彼の新たな音の表現と音環境への視点を提示することで結びとする。

これらにより、一柳の音のデザインにおける領域横断的な活動を意義付けることで、今日の音のデザイン活動が日常と芸術の同化の視点で試みられることの可能性を提示し、今後の領域横断的な表現の実践、またその学術的研究の進展に資することを目的とする。


NOGAWA Natsumi
Sound Design by Toshi Ichiyanagi
- Cross-disciplinary Expression in the 1960s and Early 1970s -

This research concerns “sound design” as explored in the 1960s and 1970s by Toshi Ichiyanagi, one of Japan’s leading post-war musicians. This thesis will endeavor to make clear his practice and the ideas behind it from both sides, and aims to establish its significance with consideration to its position as related to other cross-disciplinary art forms of the same era.

Ichiyanagi relocated to the United States at the age of 19, and during this period of his youth spent in New York, he studied under John Cage – a leading figure in American experimental music – and worked with other artists such as Allan Kaprow, Robert Rauschenberg, Jasper Johns, and Merce Cunningham.After returning to Japan at the age of 28, Ichiyanagi began to utilize concepts advocated by Cage such as “aleatoric music” and “indeterminate music” as the central focus of his musical expression from the 1960s to the 1970s, through a variety of works that included compositions using graphic scores, “happenings” and “events” that used physical acts as forms of expression, and electronic music. At the same time, he turned his attention to what is known as “sound design” or “sound environment design”, which focuses on everyday sounds and urban sound environments.

Ichiyanagi’s work with sound design is based on cross-disciplinary collaboration with various art forms that originate from an intention toward removing music. These “intermedia” works experiment with sound by integrating it with light, video, objects and movement, in addition to a wider variety of projects that encompass creation of a sound environments in which spectators can participate, and spatial production that utilizes environmental music.

Despite the fact that Ichiyanagi’s experiments also provide implications that can be linked to diversified contemporary creation, current research on the topic is not sufficient. I realized an interview with Ichiyanagi. In this study, by gaining a clear understanding of Ichiyanagi’s works of creative expression, examination of cross-disciplinary works and the possibilities of expression that links daily life with artistic expression can be achieved.

In Chapter 1, I will first give an outline of Ichiyanagi’s concepts of sound design and the relevant philosophical context of the 1960s and 1970s. In Chapter 2, five specific examples are given to clarify the relationship between Ichiyanagi’s work, the background of the era, and Japan’s avant-garde art movement. Among these, I will examine the 1966 exhibition “From Space to the Environment”, an event that had an affinity with intermedia and environmental art, and Ichiyanagi’s works at the 1970 World Exposition in Japan. Chapter 3 summarizes the examples given in Chapter 2, and outlines my argument that Ichiyanagi’s sound design can be related to a “post-Cage” form of artistic expression. In conclusion, I will present details concerning his new forms of sound expression and perspective on sound environments.

要旨

羽深 由理
ノーマン・マクラレンのアニメーション作品における音楽 ―《色彩幻想》の分析を通して―

ノーマン・マクラレン(Noeman McLaren, 1914〜1987)は、カナダ国立映画庁(National Film Board of Canada)のアニメーション部門を1939年以降40年あまりに渡って率い、60以上の作品を発表し、映像と音の関係を重視した実験的な作品を多く制作したアニメーション作家である。彼は30年以上台詞やナレーション付きの映画を作らず、音楽を「言語によるコミュニケーションの限界を超越するもの」として位置付けた。また、フィルムの加工による音響生成をしたり、自ら作曲をしたりと、音楽的リズムを表現した作品制作に積極的に関わった。

マクラレンの作品を研究した文献は数多く存在するが、彼がアニメーションにおける音楽を重視していたにも関わらず、その多くは映像表現に重点を置いたものであり、音楽に関する研究は少ない。映像と音楽が絡み合った作品は今後の芸術表現手段として拡大していく可能性が高いため、音楽的観点からのマクラレン作品の分析が必要だと考えた。

マクラレンが監督した作品の一つに《色彩幻想 Begone Dulls Care》(1949)がある。オスカー・ピーターソン(Oscar Emmanuel Peterson, 1925-2007)が作曲したジャズと色彩豊かな映像が融合した傑作だ。筆者自身が映像より先に音楽を制作する方法に興味を持っていたことや、個別研究が乏しく分析の必要性を感じたことなどから、作品分析対象としてこの《色彩幻想》を選び、音楽的観点を重視して分析した。この結果を、今後映像作品における音楽制作に役立てていくことが本論の目的であった。

第一章では序論として、マクラレンの経歴をまとめ、その中からマクラレンと音楽の関係について整理した。マクラレンは幼少期から音楽を学んでいて、アニメーションの音楽で自身の音楽的知識を生かそうとしていたということがわかった。

第2章ではマクラレン作品の音楽制作技法について調べた。そのうえで《隣人》、《Blinkity Blank》、《Canon》の3作品の音楽制作技法について、マクラレン自身の記述を元に簡単に整理した。音響をフィルムに書く、引っ掻くなどして生成したり、自ら作曲したり、作曲を依頼する場合でも細かく指示を出し、話し合いながら音楽を制作したりと、マクラレンはアニメーション音楽に対して様々なこだわりを持ち、試行錯誤をしていたことがわかった。

第三章では、栗原の論文「ノーマン・マクラレンの《シンクロミー》における音楽・画面構成・色彩の相互連関」から《シンクロミー》の音楽分析方法について取り上げた。栗原は、作品内での音楽と映像の連関が顕著な、音域・声部・動機の規模・音響効果・転調・和声進行・ポリリズム、以上7つの観点から分析を行っていた。これは非常に体系的で理解しやすいと筆者は感じ、第四章で行う分析の参考にした。

本論の最終章となる第四章では《色彩幻想》を取り上げ、初めに《色彩幻想》における映像と音楽の制作過程をまとめた。音楽はピーターソンとマクラレンが綿密に話し合ったうえで制作したもので、映像より音楽を先に録音してはいるものの、後で双方向から修正が出来るように事前に工夫がされていたということがわかった。次に《色彩幻想》の楽曲を分析し、さらに音楽と映像の関係性を強弱・音色・音域・旋律とリズム・コード進行という5つの音楽的観点から分析した。その結果、ある要素を同期する時に別の要素の同期を抑えることで、シンプルな同期を実現させているということがわかった。また、「同期をしない場所を作ること」「同期をしすぎない構成を作ること」がこの作品をより良いものにしていた。

以上、本論文は、マクラレン作品の音楽に焦点を当て、音楽そのものや映像と音楽の関係を分析することで、アニメーションの音楽制作における一つの方法論を提示した。


HABUKA Yuri

Norman McLaren (1914~1987) is a great animation artist who led National Film Board of Canada over 40 years after 1939, and produced a lot of experimental works emphasizing the relationship between film and music. This thesis focuses on the music of McLaren’s works, analyses the music, the relationship between film and music and presents a methodology for animation music composition.

There is a wide range of literature on McLaren’s animation, but even though he valued music in his animation works, most of them are focused on visual aspects of his work. It is important to consider analysis from a musical point of view because those works in which film is intertwined with music, are more likely to be spread as an artistic medium in the future.

Among a wide variety of works, “Begone Dulls Care” (1949) has been selected and analysed from a musical perspective. In this animation film McLaren fused jazz music with a colourful picture.

Chapter 1 and 2 introduces McLaren’s career and also investigates about his music production techniques. For example, it studies the way he made sounds by drawing music and scratching directly on the film.

Chapter 3 introduces Kurihara’s method of music analysis. Using her own method Kurihara analysed, from various viewpoints one of McLaren’s creations which is called “ Synchromy ”(1971). Kurihara’s method has been taken as a reference and applied for “Begone Dulls Care” analysis.

Chapter 4, investigates about the production process of film and music in “Begone Dulls Care”. Firstly, through recording the music before capturing the image, the device is performed in advance, enabling further manipulation from both directions. Secondly, through a musical analysis focused on the following five different parameters: the connection between music and image, tone colour, register, chord progressions, melody and rhythm, it has been determined that the results are much more effective when music and image are not in sync or when they are slightly out of sync.