人與人交往中,說話表達是最基本的能力和方式,可世界上有許多人因患有神經疾病而喪失語言能力,目前迫切需要開發(fā)出一些特定的通訊設備來幫助這些「有口難言」群體進行溝通交流。發(fā)表在《Nature》雜志上的兩篇文章[1][2]表明,因嚴重癱瘓而無法說話的人有可能通過植入式腦機接口(BCI)進行交流溝通,通過BCI交流的速度遠高于其他交流方式。Willett等人開發(fā)出一種使用電極穿透大腦皮層記錄大腦活動的設備,而Metzger及其同事則開發(fā)出一種把電極放置在大腦皮層表面的新型設備。這些研究標志著BCI技術發(fā)展的轉折點,該技術旨在幫助喪失語言能力的人恢復溝通能力。


神經系統(tǒng)疾病會麻痹與言語和肢體功能相關的肌肉,同時影響認知功能,最終可能導致閉鎖綜合征。在這種情況下,個人無法進行交流,只能通過眨眼或最小的動作來回答問題。有多種系統(tǒng)可以替代和增強通信技術,來幫助閉鎖綜合癥患者進行交流,但是尚不完善。與正常溝通交流(每分鐘約150個字)相比,這些系統(tǒng)說話的速度要慢得多(通常每分鐘只能達到幾個字),然而腦機接口有解決這些問題的潛力。


1969年,Macaca mulatta發(fā)表的一篇論文首次證明可以訓練獼猴增加單個神經元的活動,從而使其做出意愿行為。人類實驗開始于1990年代末,當時將電極連接到一名因運動神經元病(肌萎縮側索硬化癥,俗稱漸凍癥)引起的閉鎖綜合征患者的神經元上。隨后在2006年進行的一項研究中,毫米級電極陣列(稱為微電極)被植入脊髓損傷患者的大腦中。這種微電極陣列(MEA)通過記錄運動皮層中數百個神經元的活動控制機械臂,運動皮層在大腦中負責控制自主運動。之后,MEA被用于實現(xiàn)通信,例如譯碼筆跡。


自1999年以來,腦電圖(EEG)技術(即沿著頭皮放置電極以記錄大腦中的電活動),一直被用來幫助癱瘓患者進行交流(通過控制自定義的拼寫軟件來實現(xiàn))。大約在同一時間,人們發(fā)現(xiàn)在大腦放置小型圓盤電極(直徑為2-3毫米)可以獲得比使用頭皮電極質量更好的信號,這種記錄大腦活動的方法被稱為皮質電圖(ECoG)。


本世紀初,ECoG開始用于接受手術治療后的耐藥性癲癇患者,以記錄與語言和肢體運動相關的大腦信號。這最終促成了首個全嵌入式ECoG設備的開發(fā),使閉鎖綜合癥患者能夠在家中就使用打字程序。迄今為止,約有50名不同程度癱瘓的患者通過植入BCI進行交流,其中大多數人使用MEA。


Metzger等人報告了一名癱瘓受試者的研究結果,該患者在17年前曾得過一次腦干中風,這導致她從此不能說清楚話。作者的BCI系統(tǒng)包含一個植入了253個ECoG電極的硅片,每個電極都記錄了數千個神經元的平均活動。該裝置通過手術植入大腦感覺運動皮層左側的“面部區(qū)域”,也就是負責控制口腔,面部肌肉和聲道的皮層。這項研究建立在之前的ECoG記錄報告的基礎上,其中包括在另一名腦干中風患者身上植入的類似BCI的記錄。

大腦對文本的解碼,第一種方法是通過循環(huán)神經網絡與語言模型這兩個系統(tǒng)的組合實現(xiàn)的,循環(huán)神經網絡(RNN,人工神經網絡的一種)的網絡運行的算法可破譯與發(fā)音器(聲道的一部分)運動相關的大腦活動;語言模型以每分鐘78個單詞的速度從一組單詞(1024個)中組成句子(組成的單詞錯誤率為25.5%)。第二種方法是,可以通過直接將大腦信號翻譯成合成語音,單詞詞匯量為1024個時,合成單詞錯誤率為54.4%;單詞詞匯量為119個時,合成單詞錯誤率為8.2%,詞匯量較少錯誤率會降低。此外,BCI還嘗試對面部表情進行解碼,并通過數字人像進行再現(xiàn),從而為文本或語音提供視覺反饋,極大地豐富了參與者的交流能力。總體而言,與之前報道的ECoG、BCI相比,該設備在詞匯量、通信速度和語音解碼的多功能性方面都有很大改進。


Willett等人報道了使用兩個MEA(共包含128個電極)來記錄無法清晰說話的漸凍癥患者的大腦感覺運動皮層左側的“面部區(qū)域”的神經元活動。與Metzger及其同事的設備一樣,RNN和語言模型可以將大腦信號轉化為文本,并針對不同的詞匯量進行訓練和測試。通過該設備,受試者能夠以平均每分鐘62個單詞的速度進行交流,在125000個單詞的詞匯量中,單詞錯誤率為23.8%;在50個單詞的詞匯量中,單詞錯誤率為9.1%。

RNN是通過訓練受試者嘗試說出顯示器上顯示的260-480個句子的方法來收集神經活動記錄,整個訓練過程平均每天耗時140分鐘,持續(xù)8天。Willett及其同事的實驗分析表明,減少訓練不會過多影響結果。重要的是,作者觀察到,從一個被廣泛認為對語音生成至關重要的大腦區(qū)域(稱為布洛卡區(qū))記錄到的神經活動無法被解碼,這引發(fā)了該區(qū)域是否包含對語音解碼有用的信息的疑問。


這兩份報道為使用植入式腦機接口(BCI)恢復通信的理論提供了有力證據,但在廣泛使用前,仍需要進一步解決幾個問題。首先,這兩項研究中使用的語音模型都是對可以微弱發(fā)音受試者的模擬語音進行訓練和測試,現(xiàn)在還需要更多的研究來證明對無法發(fā)音受試者的療效,如閉鎖綜合征(包括漸凍癥晚期)。另一個問題是,這兩種設備都需要通過數百個電極進行高帶寬記錄,這些電極必須通過一個穿透皮膚的"基座"連接到外部放大器,這在外觀上并不美觀。后續(xù)需要開發(fā)出可完全植入的無線BCI,以復刻或超越這些研究中所報告的性能。


此外,目前只選擇了技能強的研究人員參與到所報道的腦機接口的培訓工作,因此在家庭環(huán)境中,對于沒經驗的護理人員來說不太適用。未來還需要類似的、只需極少或無需研究人員干預即可運行的有效腦機接口系統(tǒng)。這需要以用戶為中心的原則,在臨床人群中進行廣泛的開發(fā)和測試。目前還不清楚用戶對他人語音的感知是否會導致從大腦到文本的解碼錯誤,因為越來越多的證據表明,語音感知除語音生成外,還會激活感覺運動皮層。


最后,目前還需要觀察MEA和ECoG這兩種設備在實際應用中的安全性和長期有效性方面,是否可以滿足用戶的需求。MEA可從一小塊皮層區(qū)域中捕捉到豐富的功能信息,但信號往往不穩(wěn)定,需要頻繁更新語音解碼模型。此外,電極材料的降解和裝置的組裝可能會限制MEA的使用壽命。與MEA相比,ECoG電極需要植入的面積更大,但ECoG電極位于皮質組織外部,雖然會引起表層組織反應,但通常能在長時間內提供較好的信號質量。


這兩種腦機接口裝置代表了神經科學和神經工程學研究的重大進步,對于緩解因癱瘓性神經損傷和疾病而失聲的人的痛苦有巨大的潛力。即使是最基本的腦機接口系統(tǒng),也能讓用戶在輔助技術軟件中選擇字母或圖標,為他們的日常生活帶來極大的便利。綜上所述,能夠進行交流的腦機接口系統(tǒng)(如本文討論的系統(tǒng))有望產生更大的影響。