聴覚説(読み)ちょうかくせつ(英語表記)theory of hearing

最新 心理学事典 「聴覚説」の解説

ちょうかくせつ
聴覚説
theory of hearing

音波が耳に伝えられてから,われわれがそれを知覚するまでの過程を説明する仮説。聴覚理論,聴覚モデルauditory modelともいう。

 聴覚刺激が大気の振動であることについては,紀元前5世紀ごろには知られていたようであり,またその当時の解剖学的な知見によって中耳腔の存在までは確かめられていた。当時人びとの知覚に関する基本的な考え方は「類似の原理」であり,外界に生じた現象と類似した現象が体内で生じるということによって知覚現象が生まれると考えていた。したがって,中耳腔を満たす特殊な空気(体内大気implanted air)に,外界の空気の振動が作用することによって聴覚が生じるという考え方が原初的な聴覚説であると位置づけてよいであろう。紀元後1世紀代となると,解剖学,生理学の近代につながる祖といわれるガレノスGalēnosは,内耳道として今日知られる頭蓋の解剖を通して蝸牛の存在とそこと中枢とを連結する神経支配があることを突き止めており,振動を神経信号へ変換するというしくみが聴覚の基盤であるという考え方を採用していた。ただし,ガレノスは蝸牛にその機能があるとはしていなかった。

 16世紀を迎え,人体の解剖が盛んに行なわれるようになると,今日の聴覚の基礎となるさまざまな発見がなされるようになった。1543年にはベサリウスVesalius,A.によって耳小骨が,1563年にはエウスタキオEustachio,B.により中耳腔と咽頭とを結ぶ管(エウスタキオ管)の存在が発見されていく。1566年にコイターCoiter,V.は外耳道,中耳,蝸牛,聴神経という経路で聴覚情報が変換されて伝達するという,今日採用されている科学的知見とほぼ同じ考え方を記しているが,体内大気という考えを排斥するには至らなかった。体内大気の考えが完全に捨て去られるのは,1761年にコトゥーニョCotugno,D.によって内耳がリンパ液で満たされていることが明らかにされてからである。

 19世紀に入って体内大気の考えは,ミュラーMüller,J.P.によって提唱された特殊神経エネルギー説に取って代わられる。この説では外界が神経系によって表現されるという今日的な考え方が採用される。ミュラーの特殊神経エネルギー説では,仮に眼を聴神経につなぎ,耳を視神経につなぐことができれば,われわれは「稲妻を聞き,雷を見る」ことになると説く。このように神経にそれぞれの特殊性が存在するとする仮説は紀元前からも存在していたのであるが,1830年代以降に顕微鏡の発達による観察が盛んになることによって現実性を増してくる。1851年にコルチCorti,A.は蝸牛の基底膜上に精密な構造があることを発見し,今日ではコルチ桿状体として知られる構造の変形が神経を興奮させる引き金となると想定した。17世紀にガリレイGalilei,G.によって見いだされていた共鳴現象の原理が,このコルチの仮説と結びつき,その後の聴覚理論の雛形となっていった。

 これから後の聴覚理論の大半は,聴覚刺激の周波数frequencyの違いを,どのように聴覚系が取り扱うかということを中心に展開される。周波数の違いは多くの場合,主観的にはピッチの違いに対応するため,聴覚説(モデル)が説明する知覚現象の核にはピッチ知覚がおかれる。この傾向を招いた一つの理由は,録音技術や電機音響的な技術が未発達だったころに,統制した聴覚刺激を出すためには,弦,管,音叉などの周期的な音を出す機材に頼らざるをえなかったことにある。そして,これらの機材が含む音は,純音を代表格とする単純で要素的な音であったので,複雑な現象についても要素的な音に対する現象を調べることを通して将来的には解明されるはずであるという前提が存在していた。ゲシュタルト心理学はこのような要素主義的な発想では説明しきれない現象があることを指摘していたし,また今日では正弦信号の加算では説明できない非線形現象が,聴覚系のごく初期である蝸牛基底膜の振動レベルで観察されることがわかってきている。

共鳴説resonance theory(場所説place theory)】 ヘルムホルツHelmholtz,H.L.F.von(1857)は,近代聴覚研究を先導する考え方として共鳴説を提唱する。彼は蝸牛の基底膜の幅が基底部から蝸牛頂に向かうに従って増加している点に注目し,周波数に依存した共鳴の違いはコルチ桿状体ではなく基底膜にあると考えた。基底膜の横方向に向かって何本もの弦が張られたような状態が成立していると仮定すれば,それぞれの弦は異なる周波数に対する共振特性をもつことになる。これによって基底膜のどの場所が振動するかによって聴覚刺激の周波数(聴覚刺激にどのような周波数成分が含まれるか)が表現され,その場所からつながっている神経にはその周波数の音の存在を中枢に伝達する神経エネルギーが通り,そのエネルギーの量が音の強度を反映するという近代的な聴覚説が共有している発想法が定着していく。ちなみにヘルムホルツの説では,複合音が与えられた場合にはそれを構成する正弦成分の周波数と振幅のみが聴覚系で表現されることになる。つまり,フーリエ変換の用語を借りれば,刺激の振幅スペクトルのみが表現され,位相スペクトルは表現されない。実際に彼は実験によって聴覚上は刺激の位相スペクトルの違いは知覚されないことを示し,位相聾phase deafという観念を定着させた。これ以降20世紀の終盤まで人間が位相聾であるとの固定観念は一般的にも根づき,音響機材の開発にあたっても振幅応答特性に多大の注意が払われてきた一方で,位相スペクトルについての配慮はほとんどされてこないという事態を作っている。

【波形構造時間説temporal pattern theory(時間説time theory)】 ラザフォードRutherford,W.(1886)はすべての聴神経の活動パターンには聴覚刺激の周波数,強度,複雑さのすべての情報が表現されているという説を提唱した。彼は神経発火の頻度が刺激の周波数を表現していると考えた。今日では,神経発火の頻度はどの感覚系であっても刺激の強度を表現していることが生理学的に解明されているが,彼がこの説を唱えた当時は神経発火の大きさが一律であるという生理学的な発見はされておらず,彼は刺激の強度については発火の大きさで表現されると考えていた。ちなみに,この点に関してはヘルムホルツも同様であったが,ラザフォードの説は局所的な共鳴の違いを認めないという点でヘルムホルツの共鳴説とはまったく相容れないものであった。ラザフォードの説は,その後の電気生理学的な発見として,活動電位の強度が一律であること,その活動電位には刺激波形の複雑さはまったく表現されていないこと,相対としての神経の発火頻度には刺激強度のみが表現されており,単位時間当たりの頻度は刺激周波数に依存しないことなどが見いだされるにつれ,信憑性を失っていった。

【基底膜の進行波による場所的符号化】 ベケシーBékésy,G.V.(1928)は,基底膜上に進行波traveling waveが生じ,その進行波のピークが周波数の違いを場所的に表現するという説を提唱する。ヘルムホルツの共鳴説では基底膜を構成する繊維のうちの横方向に走るものだけに大きな張力がかかり,縦方向(アブミ骨から蝸牛頂の方向)へ走る繊維には張力がかからないという仮定をしないと,必要とされるような共鳴特性を起こすことができず,それは基底膜の実物の物理特性としては考えにくいものであった。ベケシーはその難点を克服すべく,基底膜を含む蝸牛の流体力学的なモデルを検討し,さらにヒトの屍体を用いた実物の蝸牛における基底膜振動の振幅を実測することによってその学説の正しさを証明した。この彼の研究功績により,基底膜における周波数の場所的な符号化という機能を否定する科学者はいなくなる。議論の焦点は場所的な符号化が存在するか否かではなく,それがピッチに関連する現象をすべて説明できるか否か,という方向へ移っていく。

【場所-時間の折衷説】 ウェーバーWever,E.G.(1949)は種々の動物の聴覚系の動作原理に関する学説を唱え,その中には今日的な時間的符号化と場所的符号化の折衷もしくは統合的な視点が述べられている。彼の説では,単純な聴覚系は神経活動の時間的な分布によって刺激の周波数(周期)を表現し,複雑に進化した聴覚系においては場所的な符号化が備わってくるとする。彼はまず,20~400㎐の周波数に対する単一聴神経の発火頻度が刺激周波数の上昇に伴って上昇することから,この範囲においては少なくとも刺激周波数を神経発火の頻度に置き換えうるとした。さらにそれよりも上の周波数についても,5k㎐までならば刺激の振動に同期した反応を集団として示すことができることを示した(斉射説volley theory)。単一聴神経の場合の上限は神経発火に不応期が存在することによるわけであるが,基底膜の一つの場所(もしくは一つの受容細胞)に複数の聴神経が交絡していれば,ある一つの聴神経が不応期で発火できない時点でも別の聴神経が発火をできることとなり,それらの集団の聴神経の活動が観察可能であれば,刺激の周期性がその活動の周期性となって現われることになる。実際に,両生類の聴覚系において基底膜に相当する内耳の乳頭突起は,哺乳類の基底膜のような場所に応じた振動特性の違いを示していないことが知られている。そのような種では,聴神経の時間的パターンのみによって刺激周波数の違いが中枢へ伝えられていると考えられる。人間(哺乳類)の場合は,基底膜を発達させその機械的な特性の変化によって場所による周波数選択性をもつに至るが,その場合でも,もともと存在していた聴神経の時間パターン上の情報を捨てる必要はなく,情報として使えるものは使っていると考えるわけである。近年の聴覚説のほとんどはこのような構成を備えたものである。

自己相関説auto-correlation theory】 聴覚刺激に含まれる成分,もしくは基底膜のある場所における振動の周期性が聴神経発火の時間パターンとして表現されることはわかるが,それは時間に沿った現象を別の時間に沿った現象として伝えているだけであり,たとえばピッチの違いに相当するような特徴をこの時間現象からどう抽出するかについては言及されていない。実はこのような情報表現がされているという前提に立った場合,取れる方略には3通りが考えられる。第1の方略は単位時間当たりの発火頻度を数えるというものであり,第2の方略は発火頻度の時間パターンから,そのピークとピークの時間間隔を計測するという方略,第3は発火活動の時間間隔ヒストグラムを算出するという方略である。第1の方略は,発火の頻度には刺激強度も影響する(感覚神経の一般的な方略としては強度を頻度に変換しているわけである)ので,適切に振動の周期性を表現できない。リックライダLicklider,J.C.R.(1951)の自己相関説は,このうちの第3の方略を提唱した先駆的な仮説である。第3の方略は,ことばで記述すると第2の方略との違いがわかりにくいかもしれない。しかし,神経系で実装される可能性を考えると,その間には歴然とした差がある。第2の方略では神経発火のピークによってゲートが開き,隣接するゲートが閉じるようなタイマー(時間計測機能)を必要とする。時間知覚についてはこのような機能の存在を前提としたモデルも存在しているが,そのような時間計測機能がピッチを知覚するような時間のレベルにおいても機能しうると仮定することには困難がある。自己相関説では遅延回路と共起検出器を組み合わせて,自己相関に相当する演算を実施するしくみを構築する。共起分析器には現時点での聴神経の活性化と,過去のそれを遅延したものとが入力される。遅延の量が異なる種々の遅延線と共起検出器を併存させておけば,神経発火のピークの周期が遅延量と近い関係となる共起分析器の興奮の度合いが高くなり,どの共起分析器の興奮が高いかによって中枢は周期性を判断可能となる。

【パターン認識モデルpattern recognition model】 聴覚説の中心的な争点の一つの柱になってきたピッチ知覚については,ミッシング・ファンダメンタルに関連する諸現象がある。ミッシング・ファンダメンタルmissing fundamentalとは,周期的な波形をフーリエ分析した場合にその基本周波数成分の振幅がゼロになる場合を指す。場所説の立場に立つとピッチ知覚の物理的な背景は正弦波成分とするため,ミッシング・ファンダメンタルの状態で知覚されるピッチは基本周波数に対応したものではなく,存在する最低の周波数のものとならなければならない。なお,物理的に基本周波数が存在していなくても,基本周波数を知覚的に補完すると考えるのは間違いである。基本周波数とは存在する周波数成分の最大公約数として物理的に定義される概念である。

 しかし,実際に知覚されるピッチは欠落している基本周波数に対応することがわかって以来,その由来を説明すべくいくつかのモデルが提案されてきている。ミッシング・ファンダメンタル現象は場所説にとっては不利な証拠を呈示するものとして取り扱われることが多いが,パターン認識モデルと総称されるモデルは時間的な符号化に依存せずにミッシング・ファンダメンタル・ピッチを説明する説である。

 ゴールドシュタインGoldstein,J.L.(1973)の最適処理器モデル,ワイトマンWightman,F.L.(1973)のパターン変換モデル,テルハルトTerhardt,E.(1974)の仮想ピッチモデルなどがその代表である。これらのモデルの共通点は,まず基底膜で周波数分析がなされ,その結果として得られた周波数成分のピーク(基底膜の振動が活発に生じる場所)の分布パターンに対するより高次の認識機構の働きによってピッチが抽出されるとする考え方である(正確を期すならば,ゴールドシュタインのモデルの場合は必ずしも場所的なピークの必要性までは規定していない。なんらかの意味で,周波数成分に対応する情報が後続する処理部に送られればかまわない)。後続する処理としては,ゴールドシュタインは高調波の次数と基本周波数に対する最尤解を求めるような確率推定器を,ワイトマンは基底膜の軸に沿って表現される振幅(つまり振幅スペクトル相当)に対してさらにフーリエ分析的な処理を,テルハルトはヘッブの細胞集成体に基づいた知覚学習装置を想定している。

 これらのモデルが後続処理部として仮定している機構の生理学的実現可能性ならびに生理学的対応については未解明のままであり,近年の多くのモデルはむしろ生理学的な発見が盛んな時間的符号化をモデル化する傾向が強い。しかし,これらのパターン認識モデルを現在でも捨てきれないのは,観察される知覚現象についての一定の説明力をこれらのモデルが有しているからである。対峙する時間説の初期の代表格であるスカウテンSchouten,J.F.(1940)の残差ピッチresidue pitchのモデルでは,複合音のピッチには分解された高調波のそれぞれがもつピッチ以外に,分解されない高調波が基底膜の振動の上で干渉し合うことによって生じる時間パターンに依存したピッチがあることを主張している。残差ピッチという概念は,この時間パターンに依存したピッチについては分解された周波数成分を取り除いた後でも残るということからきたものである。基底膜における周波数分解能は,低周波領域の方が高いため分解されるのは低周波数領域であり,分解された成分を取り除くということはミッシング・ファンダメンタルの状態にほかならず,スカウテンの説に従えばミッシング・ファンダメンタル・ピッチは基底膜では分解されない成分が支配することになる。しかし,実験による観察ではミッシング・ファンダメンタル・ピッチを支配する周波数は分解された周波数の方であることが知られている。また,高調波を両耳に分けて呈示した場合でも,それらの間の共通基本周波数成分に対応したピッチが聞こえることもわかっている(両耳性ピッチbinaural pitch)。この場合,基底膜の振動の上には基本周波数に対応する(正確にはその逆数に相当する周期性)変調やうなりは存在しないことになる。これらの現象との相性という面においてパターン認識モデルは優位性がある。

 パターン認識モデル自体はモデルとしてとくに不自然な仮定をしているとはいえないものの,聴覚系で音の周期性を反映した神経発火の時間パターンが存在しているにもかかわらず,それをほとんど使わずにいるという面がある。実際の聴覚系では,下丘においてこの位相固定した活動パターンに備わっている振幅変調の周期性に対してのバンドパスの特性を示す神経核が見つかっており,その存在は位相固定した神経発火の時間パターン情報を聴覚系が活用している可能性を示唆する。リックライダの自己相関モデルの発展型として,メディスMeddis,R.とヒューイットHewitt,M.J.(1991)は計算機上で稼働する聴覚初期過程の信号処理モデルを提供した。その構成は,⑴基底膜の特性を反映したフィルタ・バンク処理による周波数分析,⑵有毛細胞モデルによる非線形圧縮型半波整流,⑶多チャンネル自己相関演算,⑷総括自己相関関数summary auto-correlation function(SACF)となっている。これら各段階の信号処理の概念については,リックライダが提案したものと本質的には変わらないが,メディスとヒューイットはその各段階について聴覚的な現実性を反映した精密な信号処理法を提供しており,これによってピッチに関連した諸現象の定量的な予測可能性が与えられた。

 自己相関演算は神経発火の時間間隔ヒストグラムを取る演算と基本的に等価となる。この系列に属する別のモデルとして,パターソンPatterson,R.D.(1995)はストローブ時間積分strobed temporal integration(STI)による独自手法を提案している。パターソンのモデルは,自己相関モデルと比較して刺激の位相スペクトルの違いを反映するという特性を備えている。自己相関演算であっても時間波形上の非対称性を反映した出力パターンの違いはある程度出るものの,その出方はパターソンのモデルの方が明瞭である。位相スペクトルの違いが聴覚的には検出できないとするヘルムホルツ以来の位相聾の教義に対しては,20世紀の後半からさまざま反証が加えられてきている。聴覚系が振幅スペクトルの差に比較して位相スペクトルの差には鈍感であるということは事実であるが,位相スペクトルの差のすべてが検知できないわけではなく,モデルに求められる大切な特性は,位相スペクトルの差のどのようなものが検知可能でどのようなものは不可能であるかを予測することである。パターソンのモデルはその点を強く意識したものとなっている。

【ピッチ以外の特性に関するモデル化】 伝統的な聴覚説は,刺激の備わる周期性をどのように聴覚が取り扱うかを中心に展開されてきた。しかし,音がもつ情報としてピッチだけが重要なものとは限らない。周期現象に研究の対象が絞られた一つの要因が,実験刺激として再現可能な音を出すための音響的機材の多くが周期音を出すものであったことはすでに述べた。近年ではデジタル技術の発展により,より複雑な聴覚刺激が再現性を伴いながら呈示可能な環境も整い,聴覚モデルも完全な周期音以外のより現実の聴覚刺激に近いものを入力対象として取り扱うものが出現してきている。入野俊夫とパターソンによるメリン・イメージ・モデルは,聴覚系によるスケール変換問題を取り扱ったモデルである。たとえば,共鳴体が形を変えずにその寸法(スケール)が変わる場合,物理音響法則は形の違いによって生じている複数の共鳴周波数の間の比が一定のまま,その絶対的な位置が移動することを予測する。たとえば,子どもとおとなでは,音声を発する際に身体の大きさが異なることにより声道の寸法が異なり,その共振周波数は,同じ口の形をして同じ母音を発しているにもかかわらず異なってくる。われわれはこの場合に,同じ母音であることをわかりつつ,子どもの方がおとなよりも声道が小さいと知覚している。つまり,声道の形が同一で寸法が異なることを,得られた聴覚情報から抽出していることになる。メリン・イメージ・モデルとはこの形状と寸法の情報の分離を実装化したものである。

【聴覚皮質の受容野モデル】 歴史的な聴覚モデルが聴覚の末梢系に焦点を当てていることに対して,聴覚皮質における受容野をモデル化する試みも始まっている。シャンマShamma,S.A.(2001)による時間周波数受容野spectro temporal receptive field(STRF)モデルがその代表格である。このモデルでは聴覚皮質においては,中心周波数,スケール,時間的非対称性の三つの直交する軸をもつ多層解像度の受容野が存在すると仮定している。彼とそのグループは,このような構造をもっている聴覚皮質の反応特性を測定するための検査刺激として,時間周波数領域で段階的な解像度と時間変化の勾配の違いをもつリプル刺激音を提唱し,フェレットを被験体とした微小電極法による測定を実施した。その実測値に基づいた応答特性をもつ計算モデルが提供されており,そのうえで計算される時間周波数変調指数を用いることによって周期性の変動(ジッタ)や反響音の存在に伴う音声明瞭度の劣化の度合いを予測可能であることが示されている。 →聴覚
〔津﨑 実〕

出典 最新 心理学事典最新 心理学事典について 情報

今日のキーワード

焦土作戦

敵対的買収に対する防衛策のひとつ。買収対象となった企業が、重要な資産や事業部門を手放し、買収者にとっての成果を事前に減じ、魅力を失わせる方法である。侵入してきた外敵に武器や食料を与えないように、事前に...

焦土作戦の用語解説を読む

コトバンク for iPhone

コトバンク for Android