最新 心理学事典 「聴覚」の解説
ちょうかく
聴覚
hearing(英),Gehörsinn(独)
【聴覚の成立と役割】 地球上の環境では,生物の周囲は水や空気などの弾性を備えた媒体で満たされている。これは哺乳類の祖先が水中に棲息していたころから成立していた環境である。このような環境では,ある1点に生じた振動(変異)はそれを取り囲む媒体も変形させ,疎密波としてその周辺に伝播していく。この伝播してきた振動を感知することによって,生物は周辺の変化を検知して,適応的な行動を取る際の情報を得ることができる。聴覚の原型は,まずこのような振動検出器として発生したと考えられており,生物が陸上へ進出した後も水中を伝わる疎密波の検知に使用していた器官を,大気を伝わる疎密波の検知に合うように適応進化させた形態が,ヒトの聴覚として考えられている知覚様相である。
【聴覚刺激auditory stimulus】 聴覚的印象をもつ場合には音波が聴覚に到来しているはずである。この音波は外界に存在する物体になんらかの変形が加わることによって発生する。つまり,物体が存在するだけでは聴覚刺激は生まれず,事象が生起したときに聴覚刺激が生じる。この点が,視覚刺激と好対照をなす。視覚刺激の場合,事象の生起がなくても物体の存在だけで刺激作用は生まれうるからである。伝播過程に介在する物質や空洞の周波数応答特性により,周波数に応じた伝播の効率の違いが生じ,聴覚器に伝わる振動の有効性が異なってくる。この効率が著しく低い周波数領域の音波は聴覚刺激とはならない。聴覚刺激としての有効性をもつ周波数帯域が可聴帯域であり,ヒトの場合はおよそ20㎐から20k㎐であると推定されている。
聴覚刺激はその物理的な性質に応じて,種別分けされて参照されることが多い。まず,周期音periodic sound,非周期音non-periodic sound,過渡音transient soundの種別がよく使われる。周期音は時間波形に明確な繰り返しが観察される音であり,この音のフーリエ変換によって得られるパワースペクトルは基本周波数とその整数倍の周波数をもつ成分(調波成分)から成り立つ調波構造となる。この複数の調波構造をもった正弦成分のみで構成される音が調波複合音であり,これに対して単一の周波数の正弦波で構成される音を純音pure toneとよぶ。さらに複合音で,調波関係にならない正弦成分から構成される場合が非調波複合音ということになる。基本周波数の整数倍にならない成分に対して,上音という用語を用いる場合もある。音刺激としての存在期間が限定されている場合は過渡音といわれる。過渡音は当然ながら周期音ではなく,非周期音の一つと考えることもできる。ただし,非周期音であっても過渡的とは考えにくい場合も存在する。たとえば,過渡音であるパルスはすべての周波数成分を等しい割合で含むが,同じ振幅スペクトルをもつ白色雑音は過渡音とはならない。パルスと白色雑音との間には位相スペクトルの違いがあり,前者はコサイン位相であり,後者はランダム位相であるという。
【知覚的次元】 聴覚刺激の物理的な変化に対して心理量の変化が系統的に生じる場合,それら感覚量の変化は知覚的次元を形成する。まず,第1に考えられ調査されてきた次元はラウドネスloudness,すなわち音の大きさの次元である。ラウドネス(L)は基本的には聴覚刺激の強度に対応して変化する心理量と考えられる。強度(I)は音圧(P)と粒子速度(v)の積であり,粒子速度は音圧を大気の密度(ρ)と音速(c)の積で割った関係が成り立つ



ラウドネスと強度の対応づけをする際には,外耳・中耳などの周波数伝達特性と内耳の基底膜振動や聴神経発火に備わる非線形特性を考慮する必要がある。前者は物理的には同じ強度の純音信号を与えた場合でも,周波数frequency(音圧が周期的に変動するとき,この変動が毎秒繰り返される回数)に依存して内耳に振動を伝える効率が異なってくることの主たる原因を作る。後者は,強度を2倍にしてもラウドネスが2倍とはならず,スティーブンスStevens,S.S.のベキ法則として知られるようにL=kI0.3の関係がほぼ成立する(ただし,kは比例定数)ことの背景となっている。このラウドネスの周波数依存性と非線形性は図1に示す等ラウドネス曲線に表現されている。等ラウドネス曲線は1000㎐の純音をそれぞれの音圧レベルで呈示し,それとラウドネスが主観的に等しくなるように各周波数の純音の音圧レベルをマッチングすることによって求める。たとえば1000㎐,40㏈の純音とラウドネスが等価となる場合,それぞれの音は40ホンphonのラウドネス・レベルをもつと表現する。この等ラウドネス曲線が周波数軸に対して平坦にならないのは,外耳や中耳における周波数伝達特性によっておおよそ説明可能である。また,ラウドネス・レベルが上昇するにつれて曲線の谷は浅くなる傾向が観察されるのは,聴覚系の非線形応答を反映している。ホンの単位で表示されるラウドネス・レベルは,感覚量を表わす尺度ではない。すなわち10ホンの増加が10㏈(10倍)相当のラウドネスの増加を意味するものではない。スティーブンスのベキ法則が成り立つ範囲では,10㏈の強度の増加はラウドネスのおよそ2倍の増加となる。このラウドネスの感覚尺度の単位はソンsoneとなる。ラウドネス・レベルとソン値の関係は図2(横軸の単位はdB SLであるが,これは聴取者ごとの絶対閾を0dBとしたラウドネス・レベル値である)のようになる。なお図2の中のシンボルマークは,さまざまな研究のデータを表わす。
ラウドネスと並んで研究の歴史をもつのがピッチpitch,すなわち音の高さの次元である。ピッチは純音の場合は物理信号の周波数に対応した知覚次元であると言える。しかし,複合音については若干の留保が必要となる。まず,複合音は複数の周波数成分から成り立つのでその中のどの周波数に対応するのかという問題がある。さらに,複合音には調波構造をもつ場合ともたない場合があり,後者は前者に比べて一般にピッチ感は不明瞭になる。自然界に存在する明確なピッチをもつ音の大半は,調波複合音とみなしてかまわない。それは基本周波数とその整数倍の調波成分から構成され,そのピッチは基本周波数の純音のピッチとほぼ一致する。聴覚説の一つである場所説に従うと,複合音のピッチは聴覚系で周波数分析された成分のうちの最低の周波数によって決定されるという予想が導かれる。しかし,実際には基本周波数成分が欠落した場合(ミッシング・ファンダメンタル)にも,その複合音に対するピッチは(欠落している)基本周波数のピッチと等しいと知覚される場合が多いことが知られている。これは聴覚説のうちの時間説にとって有利な証拠とされた。たとえば,800㎐,1000㎐,1200㎐の正弦波成分が存在する場合,それは基本周波数200㎐の調波複合音の第4次,第5次,第6次の高調波だけが出ていることになるが,その場合に知覚されるピッチは200㎐に相当するものとなり,800㎐相当とはならない。現時点での信頼度が高い聴覚モデルの大半が採用している考え方に従うと,このような知覚が生じる基本は蝸牛の基底膜における周波数分解と,それを中枢に送る神経信号が基底膜振動の位相に固定した活動の時間パターンを示すことにより,信号に備わる5ミリ秒(200㎐の逆数)の周期性の存在を手がかりにしているということになる。このようなピッチの明確さは,刺激の周波数が3~4k㎐を超える辺りから低下することが知られており,その一方で位相固定性の周波数の上限も3~4k㎐辺りであることが哺乳類を用いた生理実験により確認されている。
【ピッチの尺度と音楽的なピッチ】 ラウドネスのソン尺度と同様に,ピッチについての感覚尺度としてメルmel尺度が推定されており,周波数との対応は図3に示すようになっている。ピッチについては音楽的な音階も存在しており,音楽家は半音や全音などの音程pitch intervalの感覚をもっていると考えられる。半音や全音は周波数が等比的になる関係であり,周波数を対数尺度で表現したときにその上で等幅となる。ただし,音階自体は主観的に等幅のピッチの移動を保証するために作られたものとは必ずしもいえない。音楽家のもつ音程感とは学習性のものである可能性があるため,メル尺度の構成にあたっては,あえて音楽的な音程を使わないような配慮がなされた。その結果として,メル尺度は音階とは異なる関係となった。仮にメル尺度が音階と一致するものならば,図3は直線状になるはずである。メル尺度が具体的にどのような感覚を反映しているのかについては議論の余地が残る。
音楽的なピッチ,すなわち旋律を奏でることのできるピッチについてはオクターブ等価性が成り立ち,さらには移調可能性が成り立つ。この音楽的なピッチが成立するのは可聴帯域(20㎐~20k㎐)の一部に限定され,およそ30㎐~4k㎐である。オクターブ等価性とは,周波数が2倍になった音は音楽的には同じ音名で参照されることに対応する。このような構造の成立は,基底膜における周波数分解にその根拠を求めることは難しく,周期性を反映した神経活動の位相固定性が起因となっていると考えられる。周期性のうえでは1オクターブ上の音は半分の周期を与える一方で,基の音と共通の周期性も備えているからである。このような周期性を反映した循環構造は,図4に示すようなピッチの二重らせん構造モデルとして提案され,多次元尺度法を用いたピッチの知覚空間へも出現することが確認されている。つまり,ピッチは基本周波数に対応した単純な1次元の知覚属性ではなく,それ自体が多次元性を備えているとも考えられる。
【音色timbre】 ラウドネスとピッチの違いが音の違いでないことは,それほど熟慮を労することなくわかる。われわれはピッチとラウドネスがほとんど等しいけれども明らかに異なる音が存在することを日常でも体験しており,その違いについては音色の違いであるということにしている。ISO(国際標準化機構)やJIS(日本工業規格)の音色の定義もそのようなものとなっているが,実際には音色がラウドネス,ピッチに並ぶ知覚的な属性であるというには留保が必要である。その理由は,音色の違いの存在が疑わしいというからではなく,音色の違いとして参照される概念が多義的であるからである。実際に音色に関する先駆的な研究は因子分析や多次元尺度法を用いて音色が多次元的なものであることを示している反面で,推定された各次元については共通性があるのかないのか判然としていない。聴覚刺激が与えられた場合,ラウドネスはその刺激に対する興奮の総量に対応し,ピッチは支配的な周期性に対応するといえるのに対して,音色は聴覚的なスペクトル・パターンに対応しているということしかいえない。パターンという概念は1次元の量では決してなく,したがって音色をラウドネス,ピッチと同列の知覚属性として扱うことは概念規定上も破綻している。その中で,スペクトル・パターンの違いを生む一要因として共鳴体のスケールがあることが示唆されている。共鳴体のスケール,すなわち空洞の寸法は聴覚的な情報から外界に存在する物体を推定するにあたって重要なものであり,ラウドネス,ピッチ以外にこのような次元が存在していても不思議はない。
【周波数分解能とマスキング】 聴覚器の機能は,振動を神経信号へ変換するものである。その際に振動の周波数の違いを精度よく符号化するために,受容細胞である内有毛細胞が乗っている基底膜の物理的な共振特性を変えて基底膜上の場所に応じて異なる周波数に反応するようなしくみが,哺乳類へと進化する段階で生まれていく。ベケシーBékésy,G.vonによる観察で実証されたこの基底膜による機械的周波数分析機能は,バンドパスフィルタ(特定の範囲の周波数のみを通すフィルタ回路)の集合として基底膜の機能を考えることへ十分な根拠を与えている。このフィルタの特性を推定するため人間の屍体を用いたり,実験動物を用いるなどする一方で,心理物理学的な実験によって生きている人間の特性を推定する手法がいろいろと提案され,それらは聴覚的な検出マスキング実験として知られている。聴覚マスキングauditory maskingとは,一般的には一つの音の存在が別の音を聞こえにくくする現象である。マスキング実験ではある特定の対象音をマスキーとして,妨害音すなわちマスカーが存在する状態での検出閾(マスキング閾)を測定する。
一連の研究の発端はフレッチャーFletcher,H.による矩形フィルタ・モデルの提案と臨界帯域の概念の提唱であった。このモデルでは,基底膜のある場所の機械特性はほぼ矩形の通過幅をもつバンドパスフィルタとして模擬できると仮定し,そのバンド幅はマスキング効果の臨界点によって推定できるとした。たとえば,ある周波数を中心として純音のマスキングを帯域ノイズによって行なう場合,帯域ノイズのバンド幅が臨界帯域よりも小さいうちはノイズのバンド幅を広げるにつれてマスキング効果は上昇していくはずである。しかし,ノイズのバンド幅が臨界帯域を超えると臨界帯域外に落ちるノイズのパワーはマスキングには関係しないため,マスキング効果の上昇はそこで頭打ちとなるはずである。当初のマスキング実験はこのような論理のもとに行なわれた。
しかし,そもそもマスキング実験を行なう目的は基底膜の各場所の周波数応答特性を推定するということにあるため,異なった手法のマスキング実験が次々と考案されていく。その過程でまず周波数応答特性が矩形であるという仮定自体についても批判的に検討がされていく。最初から周波数応答特性の形状を仮定することなく,実験結果に従って応答特性を求めるタイプの実験は,心理物理学的同調曲線を求める実験として知られている。典型的な実験では目標とする周波数(つまり聴覚フィルタの中心周波数)を一つ定め,その周波数の純音を閾上10㏈で呈示したものをマスキングするために要する純音マスカーのレベルを調べる。より少ないレベルでマスキングが生じるほどそのフィルタでのゲインが大きいと考えることができ,何点かのマスカー周波数で得たマスキングに必要なレベルを補完することによって,目標とした中心周波数のフィルタの周波数応答特性が推定できるという論理である。
この手法には主に二つの問題点が存在している。一つは,純音を純音によってマスクするために同時に2種類の周波数をもつ純音を呈示することでうなりが聞こえてしまい,マスキング効果が純粋に測定できないというものである。うなりは時間的に入力に変動感を感じる感覚であり,聴取者は刺激音に時間変動感があるときにはマスキーが呈示されていると判断できてしまう。二つ目の問題点は,離調聴取とよばれる聴取方略の可能性である。実験を実施する側としては,目標音として設定した純音の周波数を中心周波数とするフィルタの特性を推定したい。しかし,聴取者側にすれば,自分の聴覚系のどのフィルタの出力を参照して解答するなどという意識的な制御ができるわけではなく,最もS/N比が高くなるフィルタの状態を参照するのが最適方略である。この時,目標周波数の周辺にはいくつかの周波数を中心周波数にもつフィルタが平行して多数存在しており,S/N比という観点では目標周波数とは若干ずれた周波数を中心周波数とするフィルタの方が良好なS/N比となる可能性がある。
これら二つの問題点を解消するためにノッチ・ノイズ・マスキング手法が考案された。この手法では,心理物理学的同調曲線を求める場合と同様に,フィルタ形状を推定しようとする周波数の純音をマスキーとする。マスカーとしてはこの周波数を避けて,その位置にノッチが来るようなノイズを両側に呈示する(図5)。これによって最良のS/N比となるのはつねにこの目標周波数を中心とするフィルタであることが担保され,さらにマスカーがノイズであることによってうなりを手がかりとしたマスキーの検出はできなくなる。検出されたときのマスキーのパワーは注目したフィルタの山の裾野にかかるマスカー・パワーに比例すると考えられるので,その値から基底膜フィルタ形状の推定が可能となる。このようなモデルで推定されたフィルタの形状は図6に示すようなものとなり,生理学的な実験が示唆していたように矩形ということはなく,知覚現象のうえでも矩形フィルタを前提とするような不連続点を見いだすことは難しいため,現在では臨界帯域は一つのフィルタの実効的なバンド幅を指す概念として取り扱われている。
【聴覚情景分析auditory scene analysis】 聴覚という知覚様相の有利な点は,その有効範囲が視覚に次いで長いということにある。視覚の場合は,網膜上の1点は外界の1点に対応しており,2ヵ所から到来する光線が同一の感覚細胞を同時に刺激するということは透明視の事態を例外とする,まれな事例と考えてよい。対して,聴覚では疎密波をもたらす大気の圧力の変動には加算性が成り立ち,1ヵ所の観測点(たとえば鼓膜)には複数の音源から到来する音波の影響が足し込まれている。このような混入は味覚,嗅覚,触覚でも生じうるものの,それらについては有効距離が聴覚に比べて短いために,基本的にはつねに一つの刺激源を処理していると前提してかまわない。以上からわかることは,聴覚を通して周囲の状況を正しく推定するには,混信して与えられる圧力を適切にそれぞれの音源由来のものへと分析する必要があるということである。聴覚情景分析というキーワードを核とする一連の研究は,この問題に取り組んでいる。
聴覚情景分析の中でも中心的な話題は音脈分凝auditory stream segregationの現象であり,知覚的体制化の問題の一つである。二つの周波数をもつ純音が交替して呈示される場合を考えると,これを旋律の最も原始的な状態であるというとらえ方がまず存在する。旋律の場合は二つの音の高さがどのような順であるかは大きな意味をもち,その二つの音の間には密接な関係を通常知覚する。つまり2音は同じ音源から到来したものとして一連の流れとしてつなげて聴かれる。ところがこの2音の高さの距離が大きくなると2音の間の知覚的なつながり感は希薄となり,それぞれ独立に断続する高い音と低い音の二つの流れが並行しているような印象に変化する。音脈auditory streamとは,この時に一つの流れに相当する知覚像に言及する概念である。音脈分凝には原始的分凝とスキーマ依存的分凝の2種類がある。原始的分凝とはボトム・アップな過程の結果として分凝が生じる場合で,たとえば聴取者が2音の交替をなるべく一連の音脈として聴こうとしているにもかかわらず,2音間の高さの違いが大きいことにより自然に二つの音脈に分凝するような場合を指す。反対にスキーマ的な分凝とは,なるべくどちらか一方を聴き出そうとして成功する場合を指す。原始的な分凝の場合は,2音間の高さの距離だけでなく,2音の交替速度も分凝の仕方に影響を与える重要な要因であることが報告されている。
以上のような二つの純音を想定した単純な場合だけでなく,複数の成分音間の知覚的体制化がどのようなものになるかを規定する要因の主要なものはいくつかわかっている。調波性,同期性などがそれである。聴覚刺激についてその物理的な特性を記述するにあたり,フーリエ分析の概念に触れたときの素朴な当惑は,これまで知覚的には一つの音として取り扱っていたものが複数の周波数をもつ正弦波であることである。同じ複数の周波数成分が存在している場合でも,それらの間に調波構造が成立しなければ,一つの音にまとめて知覚する傾向は低くなる。たとえば調波構造から約4%の逸脱が生じると,その成分は他の正弦成分とは異なる音脈として「飛び出て」知覚されるようになる。一方,正弦波成分の同期が約30ミリ秒程度ずれることにより,それは異なる音源から到来するように知覚される。物理的な振動体を考えると,周期的な振動をする音源からは調波構造に従った複数の正弦波成分がほぼ同時に出現するという自然界の制約が存在しており,われわれの聴覚系はそれらの物理モデルを内在化するような方向で進化したと考えることができる。 →聴覚説 →聴覚領野 →聴空間
〔津﨑 実〕
図6 ノッチ・ノイズ法によって推定され…
図5 ノッチ・ノイズ・マスカーと聴覚フ…
図4 ピッチの二重らせん構造モデル
図3 純音の周波数とメル値
図2 ラウドネス・レベルとソン値との関…
図1 等ラウドネス曲線
出典 最新 心理学事典最新 心理学事典について 情報