공유 모델링은 학교가 중퇴를 예측하고 방지하는 데 도움이 됩니다.

Cornell이 공동으로 이끄는 연구팀은 학생들의 성공을 돕기 위해 학습 분석을 수행할 리소스가 없는 학교의 경우 다른 기관의 데이터를 기반으로 한 모델링이 공정성을 희생하지 않고 로컬 모델링과 마찬가지로 작동할 수 있다는 사실을 발견했습니다.

Cornell Ann S. Bowers 컴퓨팅 및 정보 과학 대학의 정보 과학 조교수인 Rene Kizilcec은 "데이터 기반 모델을 사용하려면 데이터가 필요합니다."라고 말했습니다. "그리고 많은 학교, 특히 학습 분석 애플리케이션으로 가장 많은 혜택을 얻을 수 있는 자원이 부족한 학교에서는 데이터에 거의 접근할 수 없습니다."

Kizilcec은 6월 12일 공정성, 접근성 및 투명성에 관한 컴퓨팅 기계 협회 컨퍼런스(ACM FAccT)에서 발표될 "교육 모델을 위한 기관 간 전이 학습: 모델 성능, 공정성 및 형평성에 대한 함의"의 수석 저자입니다. 시카고에서는 -15입니다. 주요 저자는 워싱턴 대학교 컴퓨터공학 박사과정 학생인 Josh Gardner입니다.

Kizilcec과 그의 팀은 미국 4개 대학의 익명화된 데이터를 사용하여 대학을 중퇴할 가능성이 있는 학생들을 모델링할 목적으로 이를 공통 구조로 변환했습니다. 개인정보 보호 문제를 야기하는 개별 학생 데이터가 아닌 대학별 모델만 연구팀 구성원 간에 공유되었습니다.

미국에서는 매년 100만 명 이상의 학생이 대학을 중퇴합니다. 그들은 졸업한 사람들보다 학자금 대출금을 갚지 못할 가능성이 100배 더 높습니다. 이로 인해 연방 정부는 대학에 중퇴율과 졸업률을 설명하는 순위를 보고하도록 요구함으로써 중퇴자를 줄이도록 장려하는 규정을 부과하게 되었습니다.

Kizilcec은 주요 기관들이 예측 데이터 분석을 수행할 수 있는 자원을 보유하고 있다고 말했습니다. 그러나 소규모 대학이나 2년제 대학 등 해당 데이터로부터 가장 많은 혜택을 얻을 수 있는 기관은 일반적으로 그렇지 않습니다.

"그들은 교육 분석 제품을 제공하는 몇몇 회사의 서비스에 의존해야 합니다." 그는 말했다. "기관은 자체 모델(매우 비용이 많이 드는 프로세스)을 구축하거나 일반적으로 다른 기관의 데이터를 외부에서 수행하는 모델링을 통해 분석 '솔루션'을 구매할 수 있습니다. 문제는 이러한 외부 모델이 로컬 모델만큼 성능을 발휘할 수 있는지 여부입니다. 그리고 그것이 편견을 불러일으키는지 여부."

연구원 작업의 목표는 가을에 처음으로 교육 기관에 입학한 각 학생이 다음 가을에 동일한 교육 기관에 등록할 것인지 여부를 나타내는 "유지"를 정확하게 예측하는 것이었습니다.

한 기관에서 정보를 가져와 다른 기관의 결과를 예측하는 등 전이 학습의 성공 여부를 평가하기 위해 팀은 세 가지 접근 방식을 사용했습니다.

연구자들은 전이 학습의 타당성을 평가하기 위해 4개 기관 각각의 로컬 모델링과 함께 세 가지 전이 방법을 사용했습니다. 예상대로, 지역 모델링은 중퇴율을 더 잘 예측했지만 "솔직히 4개 기관의 규모, 졸업률 및 학생 인구 통계가 얼마나 다른지를 고려할 때 우리가 생각했던 것만큼은 아니었다"고 Kizilcec은 말했습니다.

그리고 공정성(성별 및 인종 하위 그룹 전반에 걸쳐 동등한 예측 성능을 달성하는 능력) 측면에서 모델링은 공정성을 희생하지 않고도 잘 수행되었습니다.

Kizilcec은 그의 팀의 결과가 중퇴 예측의 더 많은 형평성을 지적하고 있으며, 이는 자원이 부족한 학교에 조기 개입을 제공하고 학생 이탈을 방지하는 데 도움이 될 수 있으며, 이는 기관에 비용이 들고 학생들에게 더 나쁜 결과를 초래할 수 있다고 말했습니다.

"결국 모든 학교에서 지역 모델을 만들기 위해 자원을 할당할 필요가 없을 수도 있습니다"라고 그는 말했습니다. "우리는 데이터 인프라와 전문 지식을 갖춘 학교의 통찰력을 사용하여 이러한 리소스 없이도 공정성을 희생하지 않고도 학교에 귀중한 분석을 제공할 수 있습니다. 이는 학교 지도자와 정책 입안자에게 유망한 결과입니다."

다른 기여자로는 University of Michigan School of Information의 조교수인 Christopher Brooks가 있습니다. Renzhe Yu, Columbia University의 학습 분석 및 교육 데이터 마이닝 조교수; 브리티시 컬럼비아 대학교의 데이터 과학 강사인 Quan Nguyen도 있습니다.