오디오 스케일링 | ClearVitality Innovations Co.,Ltd

이전 이미지 다음 이미지

MIT, MIT-IBM Watson AI Lab, IBM Research 등의 연구원들은 음성 인식 및 객체 감지와 같은 애플리케이션에 사용되는 기계 학습 모델의 성능을 향상시킬 수 있는 레이블이 지정되지 않은 오디오 및 시각적 데이터를 분석하는 새로운 기술을 개발했습니다. 이 작업은 처음으로 자기 지도 학습, 대조 학습 및 마스킹된 데이터 모델링이라는 두 가지 아키텍처를 결합하여 주석 없이 단일 및 다중 모드 데이터의 이벤트 분류와 같은 기계 학습 작업을 확장하여 복제합니다. 인간이 세상을 이해하고 인식하는 방법.

MIT 박사후 연구원인 Yuan Gong은 "인간 지식의 상당 부분은 자기 감독 방식으로 학습됩니다. 왜냐하면 우리는 항상 감독 신호를 받는 것은 아니며 기계 학습 모델이 동일한 능력을 갖도록 하기를 원하기 때문입니다."라고 말합니다. 컴퓨터 과학 및 인공 지능 연구소(CSAIL)에서.

"따라서 달리 표현하면 자기 지도 학습은 레이블이 지정되지 않은 방대한 양의 데이터를 학습할 수 있기 때문에 초기 모델의 기초를 형성하는 경우가 많습니다. 그런 다음 기존 지도 학습 또는 강화 학습을 사용하여 세부적으로 조정할 수 있습니다. MIT 수석 연구 과학자이자 MIT-IBM Watson AI Lab 회원인 Jim Glass는 원하는 경우 특정 모델에 모델을 적용할 수 있다고 말합니다.

CAV-MAE(Contrastive Audio-Visual Masked Autoencoder)라고 불리는 이 기술은 대규모 YouTube 데이터 세트를 학습하여 음향 및 시각적 데이터에서 의미 있는 잠재 표현을 추출하고 고차원 공간으로 매핑하는 방법을 학습할 수 있는 신경망 유형입니다. 오디오 및 비디오 10초 클립. 연구원들은 이 기술이 다른 방법과는 달리 오디오와 시각적 데이터 간의 관계를 명시적으로 모델링하기 때문에 이전 접근 방식보다 더 효과적이라고 말합니다.

연구에 Gong 및 Glass와 함께 MIT의 대학원생 Andrew Rouditchenko 및 Alexander H. Liu, 오스틴에 있는 텍사스 대학의 David Harwath PhD '18, MIT-IBM Watson AI Lab 회원 Leonid Karlinsky 및 Hilde Kuehne이 있습니다. Kuehne은 프랑크푸르트 괴테대학교와도 제휴하고 있습니다. 이 방법은 최근 학습 표현에 관한 국제 회의에서 발표되었습니다.

공동 및 조정된 접근 방식

CAV-MAE는 "예측을 통한 학습"과 "비교를 통한 학습" 방식으로 작동한다고 Gong은 말합니다. 마스킹된 데이터 모델링 또는 예측 방법은 조정된 오디오 파형과 함께 비디오를 가져와 오디오를 스펙트로그램으로 변환하고 두 가지 모두의 75%를 마스킹합니다. 마스크 해제된 데이터는 토큰화된 다음, 모델이 누락된 데이터를 복구하도록 요청받는 공동 인코더/디코더에 들어가기 전에 별도의 오디오 및 시각적 인코더에 공급됩니다. 그러면 재구성된 예측 결과와 원본 시청각 조합 간의 차이(재구성 손실)가 더 나은 성능을 위해 모델을 훈련하는 데 사용됩니다. 이에 대한 예는 피아노 비디오의 일부와 피아노 음악의 스펙트로그램의 일부를 다룬 다음 모델에 마스킹된 입력을 결정하도록 요청하는 것입니다. 불행하게도 이 방법은 비디오와 오디오 쌍 사이의 연관성을 포착하지 못할 수 있는 반면, 대조 학습은 이를 활용하지만 비디오의 배경과 같은 일부 양식 고유 정보를 삭제할 수 있습니다.

대조 학습은 서로 가까운 유사한 표현을 매핑하는 것을 목표로 합니다. 예를 들어, 모델은 서로 다른 앵무새의 서로 다른 비디오 및 오디오 데이터를 서로 가깝게 배치하고 기타 연주의 비디오 및 오디오 쌍에서 더 멀리 배치하려고 시도합니다. 마스크 자동 인코딩과 유사한 방식으로 시청각 쌍은 별도의 양식 인코더로 전달됩니다. 그러나 오디오 및 시각적 구성 요소는 모델이 풀링 및 대비 손실을 수행하기 전에 조인트 인코더 내에 별도로 보관됩니다. 이러한 방식으로 대조 학습은 각 오디오 또는 비디오에서 서로 가장 관련성이 높은 부분을 식별하려고 시도합니다. 예를 들어 비디오에 말하는 사람이 나와 있고 해당 오디오 클립에 음성이 포함되어 있는 경우 오토인코더는 화자의 입 움직임을 말하는 단어와 연결하는 방법을 학습합니다. 그런 다음 해당 입력이 서로 가깝게 표시되도록 모델의 매개변수를 조정합니다. 궁극적으로 CAV-MAE 방법은 표현 강도가 유사하도록 첫 번째 단계로 마스킹, 양식별 인코더 및 레이어 정규화를 사용하여 여러 전달 데이터 스트림과 두 기술을 결합합니다.