banner
뉴스 센터
전문 지식이 명확하고 능숙합니다.

건강 시스템

May 24, 2023

네이처(2023)이 기사 인용

18,000회 액세스

604 알트메트릭

측정항목 세부정보

의사들은 매일 시간이 제한된 중요한 결정을 내립니다. 임상 예측 모델은 의사와 관리자가 임상 및 운영 이벤트를 예측하여 결정을 내리는 데 도움을 줄 수 있습니다. 기존의 구조화된 데이터 기반 임상 예측 모델은 데이터 처리, 모델 개발 및 배포의 복잡성으로 인해 일상적인 실습에서 사용이 제한되었습니다1,2,3. 여기에서는 전자 건강 기록의 구조화되지 않은 임상 노트를 통해 임상 언어 모델의 훈련이 가능하며, 이는 저저항 개발 및 배포를 통해 다목적 임상 예측 엔진으로 사용될 수 있음을 보여줍니다. 우리의 접근 방식은 자연어 처리4,5의 최근 발전을 활용하여 의료 언어(NYUTron)를 위한 대규모 언어 모델을 훈련한 후 광범위한 임상 및 운영 예측 작업에 걸쳐 이를 미세 조정합니다. 우리는 30일 전체 원인 재입원 예측, 병원 내 사망률 예측, 동반질환 지수 예측, 입원 기간 예측, 보험 거부 예측 등 5가지 작업에 대한 의료 시스템 내 접근 방식을 평가했습니다. 우리는 NYUTron의 AUC(곡선 아래 면적)가 78.7~94.9%이며 기존 모델에 비해 AUC가 5.36~14.7% 향상되었음을 보여줍니다. 우리는 또한 임상 텍스트를 사용한 사전 훈련의 이점, 미세 조정을 통해 다양한 부위에 대한 일반화 가능성 증가, 전향적 단일군 시험에서 시스템의 전체 배포 가능성을 보여줍니다. 이러한 결과는 의학에서 임상 언어 모델을 사용하여 의사와 함께 읽고 진료 시점에 지침을 제공할 수 있는 가능성을 보여줍니다.

의사들은 매일 엄청난 양의 정보를 통합해야 하는 어려운 결정을 내립니다. 이러한 의학적 결정을 내리는 데 필요한 정보는 환자의 병력, 검사실 및 영상 보고서 등 다양한 기록에 분산되어 있습니다. 그러나 의사가 업무를 수행할 때 이 모든 정보는 궁극적으로 의사가 작성한 메모에 통합되어 환자 치료를 문서화하고 요약합니다.

임상 예측 모델은 수십 년 동안 존재해 온 규칙6,7,8,9과 기계 학습 방법10,11,12에서 파생되는 경우가 많으며 대부분 전자 건강 기록(EHR) 또는 직접적인 임상의에서 가져온 구조화된 입력에 의존합니다. 입력. 구조화된 입력에 대한 이러한 의존은 데이터 처리뿐만 아니라 모델 개발 및 배포에도 복잡성을 가져옵니다. 이는 부분적으로 교육, 테스트 및 게시되는 압도적인 대다수의 의료 예측 알고리즘을 담당하지만 실제 예측에 미치는 영향을 평가하기 위해 배포되지는 않습니다. 세계의 임상 진료. 이는 흔히 '라스트 마일 문제'라고 불립니다(참조 1,2,3).

현대 인공 지능(AI) 연구에서 가장 흥미로운 최근 개발 중 하나는 대규모 언어 모델(LLM)입니다. 이러한 대규모 신경망(수백만 또는 수십억 개의 매개변수 포함)은 인간 언어의 읽기 및 해석에 의존하는 광범위한 문제에 대해 영향력 있는 결과를 얻는 것으로 나타났습니다. 지난 몇 년 동안 인코더 모델(예: BERT4)부터 디코더 모델(예: GPT3, 참조 5)에 이르기까지 다양한 스타일의 LLM이 개발되었습니다. 우리는 LLM이 의사가 작성한 메모를 읽기만 하면 의료 예측 분석의 마지막 단계 문제를 잠재적으로 해결할 수 있다는 이론을 세웠습니다. 이를 통해 환자의 의료 상태에 대한 포괄적인 설명에 즉시 액세스하여 광범위한 치료 시점에 의사 결정 지원을 제공할 수 있습니다. 임상 및 운영 작업.

여기에서는 메모 작성 및 전자 주문을 중심으로 한 임상 워크플로와 실시간으로 통합할 수 있는 LLM 기반 시스템인 NYUTron을 개발, 평가, 배포 및 전향적으로 평가한 결과를 제시합니다. 우리의 접근 방식은 모든 임상적으로 유용한 데이터와 의료 전문가의 의사 결정 프로세스가 EHR의 구조화된 또는 구조화되지 않은 텍스트(예: 메모, 실험실 결과 및 연구 보고서)로 찾을 수 있다는 사실에 의존합니다. 우리의 접근 방식은 충분히 확장된 자체 감독 LLM이 비의학적 예측 작업에 대한 강력한 감독 접근 방식보다 성능이 뛰어날 수 있음을 시사하는 자연어 처리의 최근 발전을 활용합니다4,5,13. 우리는 4개의 도시 병원과 350개의 외래 환자 사이트를 갖춘 뉴욕의 다양한 환자 인구를 갖춘 대규모 다중 자치구 병원 시스템인 NYU Langone Health System('NYU Langone')에서 우리의 가설을 조사합니다. 우리는 3가지 임상 작업과 2가지 운영 작업(30일 전체 원인 재입원 예측, 병원 내 사망률 예측, 동반질환 지수 예측, 입원 기간(LOS) 예측 및 보험 거부 예측)을 포함한 5가지 작업 배터리로 NYUTron을 평가합니다. 데이터 효율성, 일반화 가능성, 배포 가능성 및 잠재적 임상 영향에 대한 질문을 살펴보기 위해 30일 재입원 작업에 대한 자세한 분석을 제공합니다. 모든 의료 예측 분석(이전 작업에 대한 보충 정보 섹션 1.1 참조)을 자연어 처리 문제로 다시 생각함으로써 LLM을 광범위한 의료 예측 작업에 대한 범용 예측 엔진으로 사용할 수 있음을 보여줍니다.

75% quantile). Figure 2c shows that, for LOS prediction, NYUTron had a median one-versus-rest (OVR) AUC of 78.7% ± 0.179%, with a 12.3% improvement from the structured baseline, which used an available subset of ‘Lisbon Portugal’ features18. The task of insurance claim denial prediction was to predict (at admission) whether the insurance claims submitted for an encounter would be accepted or initially denied. Figure 2c shows that, for insurance denial prediction, NYUTron had a median AUC of 87.2% ± 0.246%, with a 14.7% improvement from the structured baseline, which used an available subset of ‘claim form’ features19 such as age and insurance provider. NYUTron is also capable of predicting different types of denials from both admission notes and discharge notes with similar performance (Supplementary Information section 2.2)./p>1 billion parameters), generative models pretrained on large, non-specific datasets. Nonetheless, even relatively small LLMs, such as the ones used in this study, require a substantial amount of compute time for pretraining. Our pretraining used 24 NVIDIA A100 GPUs with 40 GB of VRAM for 3 weeks, and our fine-tuning used 8 A100 GPUs for 6 hours per run. This amount of computation is not commonly accessible to research groups, although we note that it is less than that in similar LLM projects routinely pursued by industry research groups and that our results indicate that massive pretraining may not be necessary to obtain highly performant models. Our results show that high-quality datasets for fine-tuning are more valuable than pretraining, and, on the basis of our experimental results, we recommend that users locally fine-tune an externally pretrained language model when computational ability is limited. Regarding the choice for the externally pretrained model, we further recommend using a model pretrained with a large amount of in-domain clinical text, although we note that large, out-of-domain models can be highly performant, particularly when combined with in-domain fine-tuning. Work with larger decoder-based architectures has also demonstrated a benefit with fine-tuning on medical data or prompt tuning with chain of thought, instructions and related techniques24,25, which further emphasizes the necessity of accounting for the domain shift from general to medical text for LLM work in the medical sciences. Although we have not compared these approaches directly (which would require more medical text or fusion with general-domain text for training a compute-optimal model26), we believe that this could be an interesting future direction for research and that, in the end, approaches combining these different approaches to language modelling may prove to be complementary depending on the use case./p>7 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>5 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>