感覺系統/聽覺系統
簡介
編輯對於聽覺的感官系統就是聽覺系統。這個wikibook涵蓋了聽覺系統的生理學,以及它在最成功的神經感覺假體-人工耳蝸植入術中的應用。聲學的物理和工程學在另一本名為聲學的wikibook中有所涉及。一部關於圖像與動畫的參考資料是「進入聽覺世界的旅程」(Journey into the world of hearing) [1].
聽覺的能力在動物世界中並不像觸覺、味覺和嗅覺等其他感官那樣廣泛存在,它主要限於脊椎動物和昆蟲。其中,哺乳動物和鳥類具有最發達的聽覺。下表顯示了人類和一些動物的聽覺頻率範圍:
人類 | 20-20'000 Hz |
---|---|
鯨魚 | 20-100'000 Hz |
蝙蝠 | 1'500-100'000 Hz |
魚類 | 20-3'000 Hz |
偵測聲音的器官是耳朵,它在收集聲學訊息並將其通過神經系統傳遞到大腦的過程中作為接收器。耳朵包括聽覺和平衡感的結構,它在負責接收聲音的聽覺系統以及平衡和體態上皆扮演重要角色。
人類的耳朵位於頭部兩側對稱位置,用以定位聲源,大腦提取並處理不同形式的數據以便定位聲音,例如:
- 鼓膜的聲譜形狀
- 左耳和右耳之間的聲音強度差異
- 左耳和右耳之間聲音的到達時間差異
- 耳朵自身反射之間的到達時間差異(換句話說,耳廓的形狀(褶皺和脊的圖案)以有助於定位聲源的方式捕獲聲波,特別是在垂直軸上。)
健康的年輕人能夠在20赫茲至20千赫的頻率範圍內聽到聲音。我們對2000到4000赫茲之間的頻率最敏銳,這是說話的頻率範圍。頻率解析度為0.2%,這意味著可以區分1000赫茲和1002赫茲的音調。如果鼓膜偏轉小於1埃,則可以檢測到1千赫的聲音,這小於氫原子的直徑。耳朵的這種極端敏感性可以解釋為什麼它包含人體內存在的最小骨骼:鐙骨,它的長度為0.25~0.33公分,重量為1.9~4.3毫克。
以下影片概述了將在下一節中更詳細介紹的概念。
聽覺系統剖析
編輯本節的目的是解釋人類聽覺系統的解剖學。 本章說明了聲音信息在聲音感知過程中進行的序列中聽覺器官的組成。
請注意,「感覺器官組件」的核心信息也可以在維基百科頁面「聽覺系統」(Auditory system)中找到,不包括本文中的延伸和格式等一些更改。 (另見:維基百科 聽覺系統)
聽覺系統感測聲波,即氣壓的變化,並將這些變化轉換成電訊號。然後大腦可以處理、分析和解釋這些訊號。現在,讓我們聚焦在聽覺系統的結構和組成部分。而聽覺系統主要由以下兩部分組成:
- 耳朵
- 聽覺神經系統(中樞聽覺系統)
耳朵
編輯耳朵是聲音第一次處理以及感覺受器的所在地。他由三部分組成:
- 外耳
- 中耳
- 內耳
外耳
編輯功能: 收集聲音能量和放大聲壓。
耳道周圍的軟骨褶皺(外耳道)稱為耳廓,它是耳朵的可見部分。聲波在撞擊耳廓時會被反射和衰減,這些變化提供了額外的信息,有助於大腦確定聲音來自的方向。聲波進入耳道這個簡易管道後,耳道可放大3至12千赫之間的聲音,而在耳道的遠端是鼓膜,它標誌著中耳的開始。
中耳
編輯功能: 將聲能從空氣傳輸到耳蝸。
穿過耳道的聲波將撞擊鼓膜,這種波動通過一系列骨頭穿過充滿空氣的鼓室(中耳腔):錘骨、砧骨和鐙骨。這些小骨充當控制桿和打字機,將較低壓的鼓膜聲音振動轉換為另一個較小的膜上的高壓聲音振動,這個膜稱為橢圓窗(oval window),它是進入內耳耳蝸的兩個開口之一。而第二個開口稱為圓窗(round window),它允許耳蝸中的液體移動。
錘骨通過柄部與鼓膜連接,而鐙骨通過其足板(footplate)與橢圓窗連接。更高的壓力是必須的,因為橢圓窗之外的內耳包含液體而不是空氣。聲音不會在聽骨鏈上均勻放大,中耳肌肉的鐙骨肌反射有助於保護內耳免受損傷。
中耳仍然包含波形的聲音信息,它在耳蝸中轉化為神經衝動。
內耳
編輯耳蝸的結構圖 | 耳蝸的橫截面 | MRI掃描的耳蝸和前庭系統 |
---|---|---|
功能: 將機械波(聲音)轉換為電訊號(神經訊號)。
內耳由耳蝸和幾個非聽覺結構組成,耳蝸是內耳的蝸牛狀部分,它有三個充滿液體的部分:前庭階/前庭管(Scala vestibuli)、蝸管/中管(Scala media)、鼓階/鼓管(Scala tympani)。耳蝸支持由跨越基底膜的壓力驅動的流體波,分離兩個部分(鼓階和蝸管)。基底膜長約3公分,寬0.5至0.04毫米。賴斯納氏膜(前庭膜, Reissner’s membrane)分離前庭階以及蝸管。
引人注目的是蝸管,它含有與內淋巴相似的細胞外液,通常在細胞內部發現。柯蒂氏器位於該通道,並在神經元轉換機械波為電信號。其他兩個部分,鼓階和前庭階,位於其填充有流體稱為外淋巴骨迷宮內。內淋巴(蝸管)和外淋巴(在鼓階和前庭階中)之間的化學差異對於內耳的功能是重要的。
柯蒂氏器
編輯柯蒂氏器形成一條感覺上皮帶,沿著整個耳蝸縱向延伸。柯蒂氏器的毛細胞將流體波轉換成神經信號。十億個神經的旅程從此開始; 從這裡進一步處理導致一系列聽覺反應和感覺。
從耳朵到聽神經系統的過渡
編輯毛細胞
編輯毛細胞是柱狀細胞,每個細胞頂部有一束100-200個特化纖毛。這些纖毛是聽覺的機械傳感器。較短的那些被稱為毛細胞靜纖毛,而每個毛細胞束末端最長的一個則是動纖毛。動纖毛的位置決定了方向,即引起最大毛細胞激發的偏轉方向。輕輕地放在最長的纖毛頂上的是覆膜,它隨著聲音的每個循環來回移動,使纖毛傾斜並允許電流進入毛細胞。
到目前為止,毛細胞的功能尚未完全建立。目前,毛細胞功能的知識允許在聽力喪失的情況下通過耳蝸植入物替換細胞。然而,對毛細胞功能的更多研究有一天甚至可能使細胞得以修復。目前的模型是纖毛通過「尖端連接」彼此連接,「尖端連接」是將一個纖毛的尖端連接到另一個纖毛的結構。拉伸和壓縮,尖端連接然後打開離子通道並在毛細胞中產生受體電位。請注意,100奈米的偏差已經引發了90%的完整受體電位。
神經元
編輯神經系統區分攜帶朝向中樞神經系統的信息的神經纖維和攜帶信息離開中樞神經系統的神經纖維:
- 傳入神經元 (也是感覺神經元或受體神經元) 攜帶從受體(感覺器官)朝向中樞神經系統的神經衝動
- 傳出神經元 (也是運動神經元或效應神經元) 將神經衝動從中樞神經系統帶到效應器,如肌肉或腺體(以及內耳的纖毛細胞)
傳入神經元支配耳蝸內毛細胞,在突觸處神經遞質穀氨酸將來自毛細胞的信號傳遞給初級聽覺神經元的樹突。
耳蝸中的內毛細胞遠少於傳入神經纖維。 神經樹突屬於聽神經的神經元,後者又與前庭神經結合形成前庭神經,或第八腦神經。
從大腦到耳蝸的傳出投射也在聲音的感知中起作用。 傳出的突觸發生在外毛細胞和內傳發細胞下的傳入(朝向大腦)樹突。
聽覺神經系統
編輯現在以電信號的形式重新編碼的聲音信息沿著聽覺神經(聽神經,前庭神經,第八腦神經)傳播,通過諸如耳蝸核和腦幹的上橄欖複合體和下丘的中間站。 中腦,在每個航路點進一步處理。 信息最終到達丘腦,並從那裡傳遞到皮層。 在人腦中,初級聽覺皮層位於顳葉。
初級聽覺皮層
編輯初級聽覺皮層是第一個接受聽覺輸入的大腦皮層區域。
聲音的感知與右後顳葉顳上迴(STG)相關。 顳葉顳上迴包含大腦的幾個重要結構,包括布羅德曼分區(Brodmann area)區域41和42,標記初級聽覺皮層的位置,皮質區域負責聲音的基本特徵感覺,如音高和節奏。
聽覺區域位於大腦顳葉內,稱為韋尼克氏區(Wernicke's area)或區域22.該區域靠近側腦溝,是處理聲信號的重要區域,因此它們可以是 區分為語音,音樂或噪音。
聽覺訊號處理
編輯現在已經概述了聽覺系統的解剖結構,這個主題更深入地探討了感知聲學訊息並將這些信息轉換成可由大腦處理的數據時發生的生理過程。 聽力開始於壓力波擊中耳道並最終被大腦感知。 本節詳細介紹了將振動轉化為感知的過程。
頭部的影響
編輯波長比頭部短的聲波在遠離聲源的耳朵上產生聲音陰影。 當波長比頭部短時,聲音的繞射導致兩隻耳朵上的聲音強度大致相等。
耳廓的聲音接收
編輯耳廓在空氣中收集聲波,影響來自後方和前方的聲音,其波紋形狀不同。 聲波被反射並衰減或放大,這些變化稍後將有助於聲音定位。
在外耳道中,3到12千赫之間的聲音(一個對人類交流至關重要的範圍)被放大了,它充當共振器放大輸入頻率。
聲音傳導到耳蝸
編輯以波動形式進入耳廓的聲音沿著耳道傳播,直到它到達由鼓膜標記的中耳的開始。 由於內耳充滿了流體,因此中耳是一種阻抗匹配裝置,以解決從空氣到流體的過渡時的聲能反射問題。 例如,在從空氣到水的過渡中,99.9%的入射聲能被反射。這可以使用以下公式計算:
Ir 是反射聲的強度,Ii 是入射聲的強度,Zk 是兩種介質的波阻 ( Zair = 414 kg m-2 s-1 and Zwater = 1.48*106 kg m-2 s-1). 有助於阻抗匹配的三個因素是:
- 鼓室和橢圓窗之間的相對大小差異
- 中耳小骨的槓桿效應
- 鼓室的形狀
聲波的氣壓的縱向變化導致鼓膜振動,這反過來使得三個鏈小骨錘,砧骨和鐙骨同步振盪。這些骨骼作為一個整體振動,將能量從鼓膜提升到橢圓形窗口。此外,膜和鐙骨足板之間的面積差異進一步增強了聲音的能量。中耳通過將鼓膜收集的聲能改變為更大的力和更小的偏移來充當阻抗變換器。該機構有助於將空氣中的聲波傳遞到耳蝸中的流體的振動中。該變形是由位於橢圓形窗口中的鐙骨足板的活塞式進出運動產生的。由足板執行的這種運動將耳蝸中的流體設定為運動。
通過鐙骨肌,即人體中最小的肌肉,中耳具有門控功能:收縮這種肌肉會改變中耳的阻抗,從而通過大聲保護內耳免受損傷。
耳蝸的頻率分析
編輯耳蝸的三個充滿液體的隔室(前廳階、蝸管、鼓階)被基底膜和賴斯納氏膜隔開。耳蝸的功能是根據聲譜分離聲音並將其轉換為神經代碼,當鐙骨的足板推入前庭的外淋巴時,因此賴斯納氏膜彎曲進入蝸管,賴斯納氏膜的這種伸長導致內淋巴在蝸管內移動並誘導基底膜的移位,耳蝸中聲音頻率的分離是由於基底膜的特殊性質,耳蝸中的液體振動(由於鐙骨足板的內外運動)使膜像行波一樣運動,波從基部開始並向耳蝸的頂點前進,基底膜中的橫波以下式傳播
μ 表示剪切模量,ρ表示材料的密度。 由於基底膜的寬度和張力改變,沿膜傳播的波的速度從橢圓形窗口附近的約100 m/s變為頂點附近的10 m/s。
沿著基底膜有一個點,波的幅度突然減小。此時,耳蝸液中的聲波產生基底膜的最大位移(峰值振幅),波在到達該特徵點之前行進的距離取決於傳入聲音的頻率,因此,基底膜的每個點對應於刺激頻率的特定值。低頻聲音在到達其特徵點之前比高頻聲音傳播的距離更長,頻率沿著基底膜縮放,基部具有高頻率,耳蝸頂部具有低頻率。
耳蝸中的訊息傳遞
編輯大多數日常聲音由多個頻率組成。 大腦處理不同的頻率,而不是完整的聲音。 由於其不均勻的特性,基底膜正在進行近似傅立葉的變換。聲音因此被分成不同的頻率,並且膜上的每個毛細胞對應於特定頻率。頻率的響度由相應傳入光纖的發射速率編碼。這是由於基底膜上行波的幅度,這取決於傳入聲音的響度。
被稱為毛細胞的聽覺系統的感覺細胞位於柯蒂氏器內的基底膜上。柯蒂氏器的每個器官包含約16,000個這樣的細胞,由約30,000個傳入神經纖維支配。有兩種解剖學和功能上不同類型的毛細胞:內毛細胞和外毛細胞。沿著基底膜,這兩種類型排列在一排內細胞和三至五排外細胞中。大多數傳入神經支配來自內毛細胞,而大部分傳出神經支配都來自外毛細胞。內毛細胞影響連接到這些毛細胞的各個聽神經纖維的排出速率。因此,內毛細胞將聲音信息傳遞給更高的聽覺神經中樞。相反,外毛細胞通過將能量注入膜的運動並減少摩擦損失而放大基底膜的運動,但不會有助於傳遞聲音信息。基底膜的運動使立體細胞(毛細胞上的毛髮)偏轉並使毛細胞的細胞內電位降低(去極化)或增加(超極化),這取決於偏轉的方向。當立體定位器處於靜止位置時,存在流過電池通道的穩態電流。因此,立體定向器的運動調節圍繞該穩態電流的電流。
讓我們分別看看兩種不同毛細胞類型的作用方式:
- 內毛細胞:
毛細胞毛細胞靜纖毛的偏轉打開機械門控離子通道,其允許小的帶正電荷的鉀離子 (K+) 進入細胞並使其去極化。與許多其他電活性細胞不同,毛細胞本身不會激發動作電位。相反,來自蝸管中內淋巴的正離子的流入使細胞去極化,從而產生受體潛力。該受體電位打開電壓門控鈣通道;然後鈣離子 (Ca2+) 進入細胞並觸發細胞基底的神經遞質釋放。神經遞質擴散穿過毛細胞和神經末梢之間的狹窄空間,然後它們與受體結合,從而觸發神經中的動作電位。以這種方式,神經遞質增加第八腦神經中的發射率,並且機械聲音信號被轉換成電神經訊號。
毛細胞中的複極化以特殊方式完成。 鼓階中的外淋巴具有非常低濃度的正離子。電化學梯度使正離子通過通道流向外淋巴。 (另見:維基百科 毛細胞)
- 外毛細胞:
在人的外毛細胞中,受體電位觸發細胞體的主動振動。對電信號的這種機械響應被稱為體電動力並且驅動電池長度的振盪,其在輸入聲音的頻率處發生並且提供機械反饋放大。外毛細胞僅在哺乳動物中進化。沒有功能的外毛細胞,靈敏度降低大約50分貝(由於基底膜中更大的摩擦損失會阻礙膜的運動)。它們還提高了頻率選擇性(頻率鑑別),這對人類特別有益,因為它可以實現複雜的語音和音樂。(另見:維基百科 毛細胞)
在沒有外部刺激的情況下,聽神經纖維以隨機時間順序釋放動作電位。這種隨機時間射擊稱為自發活動。纖維的自發放電率從非常慢的速率變化到高達每秒100的速率。纖維根據它們是以高,中還是低速率自發發射而分為三組。具有高自發率(> 18 /秒)的纖維往往比其他纖維對聲音刺激更敏感。
神經衝動的聽覺路徑
編輯在內毛細胞中,機械聲音信號最終被轉換成電子神經信號。內毛細胞與聽神經纖維相連,其細胞核形成螺旋神經節。在螺旋神經節中,產生電子信號(電子刺激,動作電位)並沿著聽覺神經(第VIII腦神經)的耳蝸分支傳遞到腦幹中的耳蝸核。
從那裡,聽覺信息被分成至少兩個分支:
- 腹側耳蝸核:
一個分支是腹側耳蝸核,其進一步分裂成後腹腔螺旋核(PVCN)和前耳蝸耳核(AVCN)。腹側耳蝸核細胞投射到一組稱為上橄欖複合體的細胞核。
上橄欖複合體:聲音定位
編輯上橄欖複合體,小塊灰色物質,被認為參與方位角平面中聲音的定位(即它們向左或向右的程度)。聲音定位有兩個主要線索:耳間水平差異(ILD)和耳間時間差異(ITD)。 ILD測量耳朵之間聲音強度的差異。這適用於高頻(超過1.6 kHz),其中波長短於耳朵之間的距離,導致頭影 - 這意味著高頻聲音以較低的強度擊中避開的耳朵。較低頻率的聲音不會投射陰影,因為它們纏繞在頭部。然而,由於波長大於耳朵之間的距離,進入耳朵的聲波之間存在相位差 - 由ITD測量的時間差。這對於低於800Hz的頻率非常精確地工作,其中耳朵距離小於波長的一半。 通過外耳幫助在中間平面(前,上,後,下)中的聲音定位,其形成方向選擇性濾波器。
在那裡,比較每隻耳朵中聲音信息的時間和響度的差異。聲音強度的差異在側向上橄欖複合體的細胞中處理,並且在內側上橄欖複合體中的時間差異(運行時間延遲)。人類可以將左耳和右耳之間的定時差異檢測到10微秒,對應於大約1度的聲音位置差異。這種來自雙耳的聲音信息的比較允許確定聲音來自的方向。優質橄欖是第一個節點,來自雙耳的信號匯集在一起並可以進行比較。作為下一步,上橄欖複合體通過稱為側腦室的軸突將信息發送到下丘。下丘的功能是在將信息發送到丘腦和聽覺皮層之前整合信息。有趣的是,知道附近的上丘顯示出聽覺和視覺刺激的相互作用。
- 背側耳蝸核:
背側耳蝸核(DCN)分析聲音的質量,並通過側向外側蹄系直接投射到下丘。
從下丘,來自腹側和背側耳蝸核的聽覺信息進入丘腦的聽覺核,丘腦是內側膝狀核。 內側膝狀體核進一步將信息傳遞到主要聽覺皮層,即負責處理位於顳葉上的聽覺信息的人腦區域。 初級聽覺皮層是第一次參與有意識的聲音感知。
初級聽覺皮層和高階聽覺區域
編輯到達初級聽覺皮層的聲音信息(布羅德曼分區41和42)。 初級聽覺皮層是第一次參與有意識的聲音感知。 眾所周知,它是按照音調進行組織並執行聽力的基礎:音高和音量。 根據聲音的性質(語音,音樂,噪音),進一步傳遞到更高階的聽覺區域。 韋尼克氏區(布羅德曼分區22)處理的是單詞。 該領域涉及理解書面和口頭語言(口頭理解)。 聲音(口頭表達)的產生與布羅卡地區(布羅德曼分區44和45)有關。 說話時產生所需聲音的肌肉由運動皮層的面部區域收縮,運動皮層的面部區域是參與規劃,控制和執行自主運動功能的大腦皮層區域。
音調感知
編輯本節回顧了聽覺神經科學的一個關鍵主題:音調感知。我們假設對聽覺系統有一些基本的了解,因此鼓勵讀者首先閱讀上述 '聽覺系統剖析' 和 '聽覺信號處理' 部分。
簡介
編輯音高是一種主觀感知,由具有近似週期性的聲音引起。對於許多自然發生的聲音,聲音的周期性是音調的主要決定因素。然而,聲學刺激和音調之間的關係是非常抽象的:特別地,音調對於其他聲學參數(例如響度或音色的變化非常穩健,這兩者可以顯著改變聲學波形的物理特性。例如,在沒有任何共享頻譜分量的聲音可以引起相同音調的情況下,這尤其明顯。 因此,必須從跨多個頻率信道表示的頻譜和/或時間線索中提取與音調相關的信息。
對聽覺系統中的音調編碼的研究主要集中在識別反映這些提取過程的神經過程,或者找到這種過程的「終點」:聽者所感知的音調的明確,穩健的表示。這兩項努力取得了一些成功,有證據表明假設的'音高區域'中的'音高選擇性神經元'。然而,這些區域的活動是否真正與音高有關,或者它們是否僅僅表現出與音高相關的參數的選擇性表示仍然存在爭議。一方面,證明響應於許多音調喚起聲音的特定神經元或神經區域的激活,通常具有其物理特性的顯著變化,提供了令人信服的相關證據,即這些區域確實編碼音高。另一方面,證明這些神經元代表音高的因果證據很難,可能需要結合體內記錄方法來證明這些反應與音高判斷(即心理物理反應,而不僅僅是刺激週期性)的對應關係,以及直接操縱這些細胞中活性的變化表明可以預測的俯仰感覺偏差或損傷。
由於音高相當抽象,我們不會立即深入研究這個尚未解決的活躍研究領域。 相反,我們開始討論音調感知的最直接的物理對應物 - 即聲音頻率(對於純音調),更一般地說,刺激週期性。 具體而言,我們將區分並更具體地定義週期性和音高的概念。 在此之後,我們將簡要概述聽覺系統可以實現的主要計算機制,以從聲音刺激中提取這種與音調相關的信息。 隨後,我們概述了耳蝸中的音高參數的表示和處理,升降的皮質下聽覺通路,以及最後在初級聽覺皮層及其他區域中更具爭議性的發現,並評估這些中的「音高神經元」或「音高區域」的證據。 皮質區域。
週期性和音調
編輯音高是一種新興的心理物理屬性。音高的顯著性和'高度'取決於幾個因素,但在諧波和基頻的特定範圍內,稱為'存在區域',音高顯著性很大程度上取決於聲音片段重複的規律性;通過重複率來調節高度,也稱為調製頻率。能夠引起音調感知的聲音集合是多樣的並且在頻譜上是異構的。許多不同的刺激 - 包括純音,點擊訓練,迭代的波紋噪聲,調幅聲等等 - 可以喚起音調感知,而另一種聲學信號,即使具有與這種刺激非常相似的物理特性也可能不會引起音調。大多數自然發生的音調喚起聲音是諧波複合體 - 聲音包含頻譜的頻譜,它是基頻F0的整數倍。音調研究中的一個重要發現是'缺失基波'現象(見下文):在一定頻率範圍內,F0處的所有光譜能量都可以從諧波複合體中去除,並且仍然會引起與F0相關的音高。人類聽眾[2]。這一發現似乎推廣到許多非人類聽覺系統。[3][4].
由於兩個原因,'缺失的基本'現像很重要。 首先,它是評估特定神經元或大腦區域是否專門用於音高處理的重要基準,因為應該預期這些單元顯示反映F0(並因此音高)的活動,而不管其是否存在於聲音和其他聲學參數中。 更一般地,'俯仰神經元'或'俯仰中心'應該響應於引起俯仰高度的特定感知的所有刺激而顯示一致的活動。 正如將要討論的,這已經成為識別假定音高神經元或區域的一些分歧的根源。 其次,我們可以感知到對應於F0的音高,即使它在聽覺刺激中不存在也提供了強有力的證據來反對大腦實現'選擇'F0以直接推斷音高的機制。 相反,音調必須從時間或頻譜提示(或兩者)中提取。[5].
音調提取機制:頻譜和時間線索
編輯這兩個線索(頻譜和時間)是兩類主要音調提取模型的基礎[5]. 第一個是時域方法,它使用時間線索來評估聲音是否由重複段組成,如果是,則重複率。通常提出的這樣做的方法是 自相關。 自相關函數主要涉及找到兩個採樣點之間的時間延遲,這將給出最大相關性:例如,頻率為100Hz(或週期,T = 10毫秒)的聲波如果採樣10將具有最大相關性10相隔幾毫秒。對於200Hz波,產生最大相關性的延遲將是5毫秒 - 但也是10毫秒,15毫秒等等。因此,如果對F0 = 100Hz的諧波複合波的所有分量頻率執行這樣的函數(因此在200Hz,300Hz,400Hz等處具有諧波泛音),並且得到最大相關性的所得時間間隔被求和,它們將集體'投票'10毫秒 - 聲音的周期性。第二類音調提取策略是頻域方法,其中通過分析聲音的頻譜來提取音調以計算F0。例如,「模板匹配」過程 - 例如 『諧波篩』 - '建議聲音的頻譜簡單地與諧波模板匹配 - 最佳匹配產生正確的F0[6].
兩類解釋都有局限性。頻域方法要求解析諧波頻率 - 即,將每個諧波表示為不同的頻帶(見右圖)。然而,由於較高頻率的生理表示中較寬的帶寬(基底膜的對數音調排列結構的結果)而未解決的高次諧波仍然可以引起對應於F0的音調。時間模型沒有這個問題,因為自相關函數仍應產生相同的周期性,無論該函數是在一個頻道還是多個頻率信道中執行。然而,難以將音調喚起頻率的下限歸因於自相關:心理物理學研究表明,我們可以從低於30Hz的基本缺失的諧波複合體中感知音調;這相當於超過33毫秒的採樣延遲 - 遠遠超過神經信號通常觀察到的~10毫秒延遲[5].
確定聽覺系統採用這兩種策略中的哪一種的一種策略是使用交替相位諧波:在正弦相位中產生奇次諧波,在餘弦相位中產生偶次諧波。由於這不會影響刺激的光譜內容,因此如果聽者主要依賴於光譜線索,則不應發生音調感知的變化。另一方面,時間包絡重複率將加倍。因此,如果採用時間包絡線索,則聽眾對交替相位諧波感知的音調將是對具有相同頻譜成分的全餘諧波感知的音調的高度(即,頻率的兩倍)。心理物理學研究已經研究了音高感知對不同F0和諧波範圍內的這種相移的敏感性,提供了人類[7]和其他靈長類動物[8] 採用雙重策略的證據:頻譜線索用於較低階,解析的諧波,而時間包絡線索使用更高階,未解決的諧波。
在上行性聽覺路徑提取音高
編輯據研究,在人類音高辨別最小可覺差 在1%以下[9]. 鑑於對音高變化的高靈敏度,以及頻譜和時間提示都用於音高提取的證明,我們可以預測聽覺系統以高度精確的方式表示聲學刺激的頻譜組成和時間精細結構,直到這些表示最終明確地傳達週期性或音高選擇性神經元。
電生理學實驗已經在上升的聽覺系統中發現了與這一概念一致的神經元反應。從耳蝸的水平,響應於聽覺刺激的全景映射的基底膜(BM)運動建立了沿BM軸的頻率成分的 位置代碼 通過將聽覺神經纖維(ANF) 鎖相 到其響應的頻率分量,進一步增強了這些表示。用於頻率組成的時間表示的這種機制以多種方式進一步增強,例如毛細胞/螺旋神經節細胞突觸的橫向抑制[10],支持這種精確表示對於音調編碼是關鍵的概念。
因此,通過該階段,ANF的鎖相時間尖峰模式可能攜帶週期性的隱式表示。這是由Cariani和Delgutte [11]. 直接測試的。通過分析貓的ANFs中所有階段間穗間隔(ISI)的分佈,他們發現最常見的ISI是刺激的周期性,並且這些分佈的峰均比增加了複雜的刺激喚起更多顯著的音調感知。基於這些發現,這些作者提出了「主導區間假設」,其中全階ISI的匯總代碼對周期性進行「投票」 - 當然,這一發現是ANF鎖相響應的必然結果。此外,有證據表明頻率成分的地方代碼也很重要。通過將低頻刺激與高頻載波交叉,Oxenham等人將低頻正弦波的時間精細結構轉換為沿著BM的更高頻率區域。[12]這導致了音高辨別能力的顯著受損。因此,位置和時間編碼都表示ANF中的音調相關信息。
聽覺神經將信息傳遞給耳蝸核(CN)。這裡,許多細胞類型以不同方式表示與音調相關的信息。例如,許多濃密細胞似乎在聽覺神經纖維的射擊特性方面幾乎沒有差異 - 信息可能被帶到更高階的大腦區域而沒有顯著的改變[5]。特別感興趣的是腹側耳蝸核中持續的切碎細胞。根據Winter及其同事的觀點,這些細胞中的一階尖峰間隔對應於迭代波紋噪聲刺激(IRN)的周期性,以及餘弦相和隨機相位諧波複合,與聲級完全不變[13].。雖然需要進一步表徵這些細胞對不同引發音調的刺激的反應,但是因此有一些跡象表明音調提取可以早在CN的水平開始。
在下丘(IC)中,有一些證據表明神經元的平均反應率等於刺激的周期[14]. 。隨後的研究比較了IC神經元對同相和交相諧波複合體的響應,表明這些細胞可能對整體能量水平的周期性(即包絡)有反應,而不是真正的調製頻率,但目前尚不清楚這僅適用於未解決的諧波(如心理物理實驗所預測的)或解決的諧波[5]。關於IC中周期性的表示仍然存在很多不確定性。
在聽覺皮層中進行音調編碼
編輯因此,在整個上升的聽覺系統中存在增強F0表示的趨勢,儘管其精確性仍然不清楚。然而,在上行聽覺通路的這些皮質下階段中,沒有證據表明一致地編碼對應於感知音調的信息。這種表徵可能發生在'較高'的聽覺區域,從初級聽覺皮層向前。
實際上,病變研究已經證明了聽覺皮層在音高感知中的必要性。當然,對聽覺皮層損傷後的音高檢測的損害可能僅僅反映了皮質的被動傳遞作用:皮質下信息必須「通過」以影響行為。然而,惠特菲爾德的研究證明,情況可能並非如此:雖然剝皮貓可以重新訓練(在他們的聽覺皮層消融後)以識別由三個頻率成分組成的複雜音調,但是動物選擇性地失去了這種能力。將這些音調推廣到具有相同音高的其他復合物[15]。換句話說,雖然諧波成分可能影響行為,但諧波關係(即音高線索)不能。例如,受損動物可以正確地響應100Hz的純音,但不會響應由其諧波泛音(200Hz,300Hz等)組成的諧波複合波。這強烈地表明聽覺皮層在進一步提取與音高相關的信息中的作用。
早期對初級聽覺皮層的MEG研究表明A1含有一個俯仰圖。這是基於以下結果:純音及其缺失的基波諧波複合體(MF)在相同位置引起刺激誘發激發(稱為N100m),而MF的分量頻率在不同位置誘發激發[16] 。然而,這些觀點被使用更高空間解析度技術的實驗結果所掩蓋:局部場電位(LFP) 和 電生理學(MUA) 證明了映射A1是同位素 - 即基於神經元的最佳頻率(BF),而不是最好的'音調'[17].然而,這些技術確實表現出反映提取時間和光譜線索的不同編碼機制的出現:時間包絡重複率的鎖相表示被記錄在音調圖的較高BF區域中,而點擊線的諧波結構被表示。因此,在較低的BF區[18]中,可以通過該階段進一步提高瀝青提取的提示。
Kadia和Wang在狨猴的初級聽覺皮層中描述了可以促進這種增強的神經元底物的實例[19]。這里大約20%的神經元可以歸類為'多峰'單元:具有多個頻率響應區域的神經元,通常是諧波關係(見右圖)。此外,激發這些光譜峰中的兩個,顯示出對神經元反應具有協同效應。因此,這將有助於提取聲刺激中的諧波相關音調,允許這些神經元充當用於提取頻譜提示的'諧波模板'。此外,這些作者觀察到,在大多數'單峰'神經元(即在其BF處具有單個光譜調諧峰的神經元)中,次級音調可能對神經元對其的響應具有調節(促進或抑制)作用。 BF,同樣,這些調製頻率通常與BF諧波相關。因此,這些促進機制可以適應某些諧波分量的提取,而通過抑制調製來抑制其他頻譜組合可以促進與其他諧波複合或諸如寬帶噪聲的非諧波複合的消歧。
然而,鑑於在整個皮質下聽覺系統中已經證明了增強F0的趨勢,我們可能期望必須更接近皮層中更明確的音高表示。神經影像學實驗已經探索了這一觀點,利用了音高的緊急質量:減法方法可以識別大腦中響應音調喚起刺激而顯示 功能性磁共振成像 響應的區域,但不能識別具有非常相似光譜特性的另一種聲音,但是不會引起音調感知。 Patterson,Griffiths及其同事使用了這樣的策略:通過減去在呈現IRN期間獲得的信號中呈現寬帶噪聲期間獲得的BOLD信號,他們確定了側向(在某種程度上,內側)Heschl的選擇性激活。 gyrus(HG)響應後一類音調喚起的聲音[20]。此外,隨著時間的推移改變IRN的重複率以產生旋律導致在顳上回(STG)和平面偏振(PP)中的額外激活,表明通過聽覺皮層的音高的分級處理。與此一致,Krumbholz等人的MEG記錄顯示,隨著IRN刺激的重複率增加,在HG周圍檢測到新的N100m,因為重複率超過了俯仰感知的下限閾值,並且'音調起始反應'隨音高顯著性增加[21].
然而,關於音調選擇區域的精確位置存在一些爭論。正如霍爾和普拉克所指出的,單獨使用IRN刺激來識別對音高敏感的皮層區域不足以捕獲可引起音高感知的廣泛刺激:HG的激活可能是重複性寬帶刺激所特有的[22]。實際上,基於響應多個引發節奏的刺激而觀察到的BOLD信號,Hall和Plack認為平面臨時(PT)與音高處理更相關。
儘管對專門用於音調編碼的精確神經區域存在持續的分歧,但是這樣的證據表明位於A1前外側的區域可能專門用於音高感知。通過在狨猴聽覺皮層的A1的前外側邊界處識別「音高選擇性」神經元來提供對這一概念的進一步支持。這些神經元選擇性地響應純音和具有相似週期性的F0諧波[23]。許多這些神經元也對其他引起節奏的刺激的周期性敏感,例如點擊列車或IRN噪聲。這提供了強有力的證據,即這些神經元不僅僅響應聲學信號的任何特定分量,而且具體地表示與音調相關的信息。
週期性編碼或音調編碼?
編輯因此,越來越多的證據表明存在專門提取F0的神經元和神經區域,可能位於A1的低BF區域的前外側區域。然而,將這些神經元或區域稱為「音高選擇性」仍然存在困難。雖然刺激F0當然是音高的關鍵決定因素,但它不一定等於聽眾所感知的音高。
然而,有幾條證據表明這些區域確實是編碼間距,而不僅僅是F0。例如,Bendor及其同事對狨猴瀝青選擇性單位的進一步研究表明,這些神經元中的活動很好地與動物的心理物理反應相對應[8]。這些作者測試了動物在同一F0中持續呈現同相諧波的過程中檢測交替相位諧波複合體的能力,以便區分動物何時更多地依賴於時間包絡提示進行音高感知,而不是光譜提示。 。與人類的心理物理實驗一致,狨猴主要使用時間包絡線索來獲得低階F0的高階,未解析的諧波,而光譜線索則用於從高F0複合波的低階諧波中提取音調。從這些音高選擇性神經元的記錄顯示,與調諧到低F0的神經元的同相諧波相比,F0調諧向下移動了八度音階以進行交替相位諧波。因此,這些神經元反應模式與心理物理學結果一致,並且表明時間和光譜線索都集成在這些神經元中以影響音調感知。
然而,再次,這項研究無法明確區分這些音高選擇性神經元是否明確表示音高,或者僅僅是F0信息的積分,然後將其解碼以感知音高。 Bizley等人採用了一種更直接的方法來解決這個問題,他分析了雪貂的聽覺皮層LFP和MUA測量值如何能夠獨立地用於估計刺激F0和俯仰感知[24]。雖然雪貂參與音高辨別任務(以指示目標人造母音的音高是否高於或低於2替代強制選擇範例中的參考),使用接收器操作特性(ROC)分析來估計可辨性。神經活動在預測F0變化或實際行為選擇(即感知音高的替代)中的作用。他們發現聽覺皮層的神經反應對兩者都有信息。最初,活動比動物的選擇更好地區分F0,但是關於動物選擇的信息在整個刺激後的時間間隔內穩定地增加,最終變得比F0變化的方向更可辨別[24]。
比較研究的皮質區域之間的ROC差異表明,後場活動更好地區分了雪貂的選擇。這可以用兩種方式解釋。由於選擇相關活動在後場(其位於A1的低BF邊界)較高,與原始場相比,這可以被視為A1低BF邊界附近的瀝青選擇性的進一步證據。另一方面,在主要聽覺區域中也觀察到與音調相關的信息的事實可能表明該階段可能已經建立了足夠的音調相關信息,或者跨越多個聽覺區域的分佈式代碼編碼音調。實際上,雖然分佈在聽覺皮層上的單個神經元通常對多個聲學參數敏感(因此不是「音調選擇性」),但信息理論或神經測量分析(使用神經數據推斷刺激相關信息)表明音調信息可以然而,通過人口編碼,甚至通過時間復用的單個神經元(即,在不同的時間窗口中表示多個聲音特徵)來強有力地表示[25][26]。因此,在沒有刺激或停用這些推定的音高選擇性神經元或區域以證明這種干預引起音高的可預測偏差或損傷的情況下,可能是音高以跨越聽覺皮層的空間和時間分佈的代碼表示,而不是而不是依靠專門的當地代表。
因此,電生理記錄和神經影像學研究都表明,在A1的低BF邊界附近可能存在明顯的俯仰神經代碼。當然,對各種引發音調的刺激的一致和選擇性反應表明,這些推定的音調選擇性神經元和區域不是簡單地反映聲學信號的任何立即可用的物理特徵。此外,有證據表明這些推定的音高選擇性神經元以與動物大致相同的方式從光譜和時間線索中提取信息。然而,由於音調和聲學信號之間的抽象關係,刺激和神經反應之間的這種相關證據只能被解釋為聽覺系統具有形成音高相關參數的增強表示的能力的證據。如果沒有更直接的因果證據證明這些推定的音高選擇性神經元和確定音高感知的神經區域,我們無法斷定動物是否確實依賴於這種局部顯式的音調代碼,或者是否跨越聽覺皮層的音高的強大分佈式表示標誌著最終在聽覺系統中編碼音高。
參考文獻
編輯- ↑ NeurOreille and authors(2010年).Journey into the world of hearing.
- ↑ Schouten, J. F. (1938). The perception of subjective tones. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen, 41, 1086-1093.
- ↑ Cynx, J. & Shapiro, M. Perception of missing fundamental by a species of songbird (Sturnus vulgaris). J Comp Psychol 100, 356–360 (1986).
- ↑ Heffner, H., & Whitfield, I. C. (1976). Perception of the missing fundamental by cats. The Journal of the Acoustical Society of America, 59(4), 915-919.
- ↑ 5.0 5.1 5.2 5.3 5.4 Schnupp, J., Nelken, I. & King, A. Auditory neuroscience: Making sense of sound. (MIT press, 2011).
- ↑ Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. EURASIP Journal on Audio, Speech, and Music Processing 2014, 1 (2014).
- ↑ Carlyon RP, Shackleton TM (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?" Journal of the Acoustical Society of America 95:3541-3554
- ↑ 8.0 8.1 Bendor D, Osmanski MS, Wang X (2012). "Dual-pitch processing mechanisms in primate auditory cortex," Journal of Neuroscience 32:16149-61.
- ↑ Tramo, M. J., Shah, G. D., & Braida, L. D. (2002). Functional role of auditory cortex in frequency processing and pitch perception. Journal of Neurophysiology, 87(1), 122-139.
- ↑ Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. Hearing research, 141(1), 1-11.
- ↑ Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology, 76(3), 1698-1716.
- ↑ Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. Proceedings of the National Academy of Sciences of the United States of America, 101(5), 1421-1425.
- ↑ Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). The temporal representation of the delay of iterated rippled noise in the ventral cochlear nucleus of the guinea-pig. The Journal of physiology, 537(2), 553-566.
- ↑ Schreiner, C. E. & Langner, G. Periodicity coding in the inferior colliculus of the cat. II. Topographical organization. Journal of neurophysiology 60, 1823–1840 (1988).
- ↑ Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.
- ↑ Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.Science, 246(4929), 486-488.
- ↑ Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.
- ↑ Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.
- ↑ Kadia, S. C., & Wang, X. (2003). Spectral integration in A1 of awake primates: neurons with single-and multipeaked tuning characteristics. Journal of neurophysiology, 89(3), 1603-1622.
- ↑ Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD. (2002) "The processing of temporal pitch and melody information in auditory cortex," Neuron 36:767-776.
- ↑ Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C., & Lütkenhöner, B. (2003). Neuromagnetic evidence for a pitch processing center in Heschl’s gyrus. Cerebral Cortex, 13(7), 765-772.
- ↑ Hall DA, Plack CJ (2009). "Pitch processing sites in the human auditory brain," Cereb Cortex 19(3):576-85.
- ↑ Bendor D, Wang X (2005). "The neuronal representation of pitch in primate auditory cortex," Nature 436(7054):1161-5.
- ↑ 24.0 24.1 Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.
- ↑ Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011). Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76
- ↑ Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91.