Meta AI의 새로운 설정으로 트랜스포머의 구조와 진화를 공개합니다

새로운 논문 Birth of a Transformer: A Memory Viewpoint에서 Meta AI 연구팀은 LLM의 글로벌 및 맥락 내 학습에 대한 통찰력을 제공하는 것을 목표로 변환기 언어 모델의 구조와 진화를 탐색하기 위한 새로운 합성 설정을 소개합니다.

최근 몇 년 동안 LLM(대형 언어 모델)은 교육 데이터에서 방대한 양의 '글로벌' 지식을 학습할 수 있는 강력한 기능을 입증했으며 주어진 컨텍스트 또는 프롬프트를 기반으로 새로운 정보에 신속하게 적응할 수 있는 능력을 보여주었습니다. 인상적인 '상황 내' 학습 기능에도 불구하고 내부 메커니즘은 아직 충분히 탐구되지 않아 실제 응용 프로그램의 신뢰성에 위협이 되고 있습니다.

새로운 논문인 Birth of a Transformer: A Memory Viewpoint에서 Meta AI 연구팀은 변환기 언어 모델의 구조와 진화를 탐색하기 위한 새로운 합성 설정을 소개합니다. 그들의 목표는 LLM의 글로벌 학습과 상황 내 학습에 대한 통찰력을 제공하는 것입니다.

팀은 주요 기여를 다음과 같이 요약합니다.

팀은 먼저 변환기가 글로벌 지식과 상황에 맞는 학습 기능을 개발하는 방법을 탐색하기 위해 합성 데이터세트를 개발합니다. 이 데이터 세트는 일부 바이그램이 시퀀스별로 지정되는 일반 바이그램 언어 모델로 구성됩니다. 따라서 변환기 모델은 시퀀스별 바이그램에 대한 좋은 예측을 얻기 위해 상황 내 학습에 의존하는 반면 일반 바이그램은 현재 토큰을 기반으로 하는 전역 통계에서 예측할 수 있습니다.

훈련 단계에서 컨텍스트 내 메커니즘에 대한 세밀한 이해를 얻기 위해 연구원들은 무작위 초기화 시 일부 레이어를 동결하여 2계층 아키텍처를 더욱 단순화했습니다. 이러한 단순화를 통해 팀은 임베딩 쌍을 저장하는 연관 메모리로 개별 가중치 행렬에 대한 모델을 도입할 수 있습니다. 결과적으로 학습 역학에 대한 정확한 이해를 제공합니다.

실증적 연구에서 연구원들은 모멘텀이 있는 미니 배치 SGD를 사용하여 모델을 훈련했으며, 글로벌 바이그램 통계가 유도 헤드보다 더 빨리 학습되는 경향이 있으며 데이터 분포의 변화가 입력 속도에 큰 영향을 미친다는 것을 관찰했습니다. 맥락 학습.

또한 훈련 역학에 대한 이론적 통찰력을 제공하여 충분한 데이터가 있으면 연관 메모리가 입력에서 노이즈를 필터링할 수 있음을 보여줍니다. 그리고 주의 패턴이 거의 균일할 때 원하는 연상 기억을 회복할 수 있습니다.

전반적으로 이 연구는 변압기 모델의 구조와 진화에 대한 귀중한 통찰력을 제공합니다. 팀은 다음 단계에서 변환기가 임베딩 학습, 인수화된 키 쿼리 행렬 및 비선형 피드포워드 레이어와 같은 다른 측면을 활용하여 보다 풍부한 설정에서 학습하는 방법을 탐구할 것이라고 주장합니다.

arXiv의 논문 Birth of a Transformer: A Memory Viewpoint.

작가: 헤카테 그 |편집자:장 체인

우리는 귀하가 어떤 뉴스나 획기적인 연구 결과도 놓치고 싶지 않다는 것을 알고 있습니다.주간 AI 업데이트를 받으려면 인기 뉴스레터인 Synced Global AI Weekly를 구독하세요.

기계 지능 | 기술 및 산업 | 정보 및 분석

귀하의 이메일 주소는 공개되지 않습니다. 필요 입력 사항은 표시되어 있습니다 *

논평 *

이름

이메일

웹사이트

후속 댓글을 이메일로 알려주세요.

새 게시물을 이메일로 알려주세요.

디

작성자 편집자 인기 뉴스레터 Synced Global AI Weekly를 구독하여 매주 AI 업데이트를 받아보세요.