banner
뉴스 센터
전문 지식이 명확하고 능숙합니다.

AutoDistill: 끝

Nov 24, 2023

일리노이 대학교 Urbana-Champaign과 Google 연구진은 하드웨어 효율적으로 사전 훈련된 자연어 처리 모델을 구축하기 위해 모델 아키텍처 탐색과 다중 목표 최적화를 통합하는 엔드 투 엔드 완전 자동화된 모델 증류 프레임워크인 AutoDistill을 소개합니다.

AI 기반 언어 모델의 크기가 지속적으로 증가함에 따라 서빙 비용을 줄이는 것이 중요한 연구 분야가 되었습니다. 지식 증류는 모델 압축을 위한 유망하고 효과적인 방법으로 부상했지만, 기존 증류 방법은 빠르게 진화하는 모델 처리, 성능 제공 고려, 여러 목표에 대한 최적화와 같은 문제에 직면하고 있는 오늘날의 대규모 데이터 센터에서 모델 제공에 어려움을 겪을 수 있습니다. .

이러한 문제를 해결하기 위해 일리노이 대학 Urbana-Champaign과 Google의 연구팀은 하드웨어 효율적인 사전 훈련을 구축하기 위해 모델 아키텍처 탐색과 다중 목표 최적화를 통합하는 엔드투엔드 완전 자동화된 모델 증류 프레임워크인 AutoDistill을 도입했습니다. 자연어 처리(NLP) 모델.

팀은 주요 기여를 다음과 같이 요약합니다.

AutoDistill은 대상 하드웨어 구성에 대해 최적화된 작업 독립적 사전 학습된 언어 모델을 생성하도록 설계된 엔드투엔드 솔루션입니다. AutoDistill은 사용자 요구 사항, 목표 및 제약 조건을 사전 학습 작업, 모델 설계 공간, 대상 하드웨어, 평가 지표 등과 같이 고려할 주요 구성 요소를 나타내는 입력으로 사용합니다.

AutoDistill의 전체 흐름에는 모델 탐색, 순간 증류, 평가라는 세 가지 주요 단계가 포함됩니다. 모델 탐색은 설계 공간, 평가 지표 및 사용자 지정 제약 조건을 고려하여 더 압축된 모델을 검색하는 데 사용됩니다. 그런 다음 사전 훈련 데이터 세트와 교사 모델 모두에서 학습하는 학생 모델로서 가장 유망한 후보 모델을 성장시키기 위해 플래시 증류를 채택합니다. 이 단계는 또한 동일한 교사 모델이지만 다른 훈련 설정을 사용하여 정기적인 증류를 담당합니다. 그런 다음 플래시 증류된 학생 모델은 대상 작업과 하드웨어에서 예측 정확도, 다음 문장 예측 정확도 및 하드웨어 성능을 평가합니다. 원하는 모든 지표가 수집된 후 정보는 모델 탐색 단계로 다시 전달되며, 여기서 검색 엔진은 다음 반복을 위한 최적의 모델을 선택합니다.

특히 AutoDistill은 BO(Bayesian Optimization) 알고리즘과 Vizier(Golovin et al., 2017) 클라우드 기반 블랙박스 최적화 서비스를 학생 아키텍처 검색 엔진에 통합하여 학생 모델 아키텍처 검색을 블랙박스 최적화 문제로 공식화합니다. 찾다. 연구원들은 완전 자동화되고 통합된 평가 단계에서 대상 하드웨어 및 데이터 센터 소프트웨어 환경에서 학생 모델을 측정함으로써 유효하고 정확한 하드웨어 피드백을 포착할 수 있습니다.

AutoDistill은 이전의 DNAS(미분 가능 신경 구조 검색) 방법에 비해 몇 가지 장점이 있습니다. 1) NLP 사전 훈련 작업에 대해 사전에 대규모 슈퍼넷을 훈련하기 위해 엄청난 노력을 기울일 필요가 없습니다. 2) 훨씬 더 큰 설계 공간을 처리하기 위해 더 나은 확장이 가능합니다. 3) 다양한 아키텍처 구성을 갖춘 새로운 목표와 새로운 모델로 쉽게 확장될 수 있습니다.

팀은 AutoDistill을 평가하기 위해 광범위한 실험을 수행했습니다. 9개의 다운스트림 자연어 이해 작업이 포함된 GLUE(General Language Understanding Evaluation) 벤치마크에서 AutoDistill은 훨씬 작은 모델 크기로 BERTBASE, DistilBERT, TinyBERT6 및 MobileBERT보다 더 높은 평균 점수를 달성했습니다. Google의 TPUv4i 하드웨어에 대한 실험에서 AutoDistill로 생성된 모델은 MobileBERT에 비해 사전 훈련된 정확도가 최대 3.2% 더 높고 대기 시간 속도가 최대 1.44배 향상되었습니다.

전반적으로 AutoDistill은 대상 하드웨어의 예측 정확도와 서비스 대기 시간을 모두 개선하여 차세대 하드웨어 효율적인 사전 훈련된 NLP 모델 구축에 대한 가능성과 잠재력을 나타냅니다.