음성을 듣는 인간 두뇌의 예측 코딩 계층 구조에 대한 증거

Nature Human Behavior 7권, 430~441페이지(2023)이 기사 인용

79,000회 액세스

1167 알트메트릭

측정항목 세부정보

최근 자연어 처리 분야에서 상당한 진전이 이루어졌습니다. 딥 러닝 알고리즘은 점점 더 텍스트를 생성, 요약, 번역 및 분류할 수 있게 되었습니다. 그러나 이러한 언어 모델은 여전히 인간의 언어 능력과 일치하지 않습니다. 예측 코딩 이론은 이러한 불일치에 대한 잠정적인 설명을 제공합니다. 언어 모델은 근처 단어를 예측하도록 최적화되어 있지만 인간의 두뇌는 여러 시간 척도에 걸쳐 표현의 계층 구조를 지속적으로 예측합니다. 이 가설을 테스트하기 위해 우리는 단편소설을 듣는 304명의 참가자의 기능적 자기공명영상 뇌 신호를 분석했습니다. 첫째, 우리는 현대 언어 모델의 활성화가 음성에 대한 뇌 반응에 선형적으로 매핑된다는 것을 확인했습니다. 둘째, 우리는 여러 기간에 걸친 예측으로 이러한 알고리즘을 향상시키면 이러한 두뇌 매핑이 향상된다는 것을 보여주었습니다. 마지막으로, 우리는 이러한 예측이 계층적으로 구성되어 있음을 보여주었습니다. 전두정엽 피질은 측두엽 피질보다 더 높은 수준, 더 긴 범위 및 더 많은 맥락 표현을 예측합니다. 전반적으로 이러한 결과는 언어 처리에서 계층적 예측 코딩의 역할을 강화하고 신경과학과 인공 지능 간의 시너지 효과가 인간 인지의 계산 기반을 어떻게 풀어낼 수 있는지를 보여줍니다.

3년이 채 안 되어 딥 러닝은 텍스트 생성, 번역 및 완성1,2,3,4이라는 간단한 목표를 가지고 훈련된 알고리즘 덕분에 상당한 발전을 이루었습니다. 즉, 주변 상황에서 단어를 예측하는 것입니다. 놀랍게도, 이러한 모델의 활성화는 음성 및 텍스트5,6,7,8,9,10,11,12에 대한 인간의 두뇌 반응에 선형적으로 매핑되는 것으로 나타났습니다. 또한 이 매핑은 주로 미래 단어를 예측하는 알고리즘의 능력에 따라 달라지며7,8 따라서 이 목표가 뇌와 같은 계산으로 수렴하는 데 충분하다는 것을 시사합니다.

그러나 인간과 이러한 알고리즘 사이에는 격차가 지속됩니다. 상당한 훈련 데이터에도 불구하고 현재 언어 모델은 긴 스토리 생성, 요약, 일관된 대화 및 정보 검색으로 인해 어려움을 겪고 있습니다. 그들은 여러 구문 구조와 의미론적 속성18,19,20,21,22을 포착하지 못하고 언어적 이해가 피상적입니다. 예를 들어, 그들은 'the key that the man Holding ARE here'와 같은 중첩된 문구에서 주어에 동사를 잘못 할당하는 경향이 있습니다. 마찬가지로, 텍스트 생성이 다음 단어 예측에만 최적화되면 심층 언어 모델은 단조롭고 일관되지 않은 시퀀스를 생성하거나 반복적인 루프에 갇히게 됩니다13.

예측 코딩 이론25,26,27은 이러한 단점에 대한 잠재적인 설명을 제공합니다. 심층 언어 모델은 대부분 바로 다음 단어를 예측하도록 조정되어 있지만, 이 프레임워크는 인간의 두뇌가 피질 계층 구조 전반에 걸쳐 여러 시간 척도와 표현 수준에 걸쳐 예측을 한다는 것을 시사합니다28,29(그림 1a).

이전 연구에서는 이미 단어 또는 음성학적 놀라움, 즉 단어나 전화가 예상되는 정도를 기능적 자기공명영상(fMRI)30,31,32,33, 뇌파검사34,35와 연관시켜 뇌의 음성 예측을 입증했습니다. 36, 자기뇌파검사37 및 전기피질검사11,38. 그러나 이러한 놀라운 추정치는 바로 다음 단어나 음소를 예측하고 출력을 단일 숫자, 즉 다음 토큰의 확률로 줄이도록 훈련된 모델에서 파생됩니다. 결과적으로, 예측된 표현의 성격과 시간적 범위는 거의 알려져 있지 않습니다.

본 연구에서는 단편 소설을 듣는 304명의 개인의 뇌 활동을 fMRI39로 기록하는 동안 뇌 신호를 분석하여 이러한 문제를 해결합니다. 심층 언어 알고리즘이 뇌 활동6,8,40에 선형적으로 매핑된다는 것을 확인한 후 장거리 및 다단계 예측으로 이러한 모델을 향상하면 이러한 뇌 매핑이 향상된다는 것을 보여줍니다. 비판적으로, 그리고 예측 코딩 이론에 따라 우리의 결과는 피질에서 언어 예측의 계층적 조직을 보여줍니다. 여기서 가장 높은 영역은 가장 멀고 가장 높은 수준의 표현을 예측합니다.

1 would indicate that the model lacks brain-like forecast. The peak of \({{{{\mathcal{F}}}}}^{d}\) indicates how far off in the future the algorithm would need to forecast representations to be most similar to the brain./p> 6) than low-level language areas (for example, k* < 6 in Heschl's gyri/sulci, aSTS; Fig. 3a,b). The difference between regions, while small on average, was highly significant across individuals (for example, between the angular and Heschl's gyri: Δk* = 2.5 ± 0.3, P < 0.001) and observed in both the left and right hemispheres (Fig. 3b)./p>2% gain in the IFG and angular/supramarginal gyri on average, all P < 0.001). On the other hand, auditory areas and lower-level brain regions do not significantly benefit from such a high-level objective (Fig. 5 and Supplementary Fig. 7). These results further strengthen the role of frontoparietal areas in predicting long-range, contextual and high-level representations of language./p> 0.01)./p>