AI 환각에 대한 OpenAI의 획기적인 발전은 AI 전체의 한 단계 후퇴입니다.

OpenAI의 ChatGPT와 같은 명령을 따르는 대규모 언어 모델과 Google의 Bard 및 Anthropic의 Claude와 같은 경쟁 시스템은 비즈니스에 혁명을 일으킬 수 있는 잠재력을 가지고 있습니다. 하지만 많은 기업에서는 이를 어떻게 활용해야 할지 고민하고 있습니다. 이는 주로 신뢰할 수 없고 권위 있는 것처럼 보이지만 부정확한 정보를 제공하는 경향이 있기 때문입니다. 또한 이러한 AI 모드가 생성하는 콘텐츠가 위험을 초래할 수 있기 때문입니다. 유해한 언어를 출력하거나 사용자가 안전하지 않거나 불법적인 행동에 참여하도록 장려할 수 있습니다. 기업이 보호하고자 하는 데이터를 공개할 수 있습니다. 수십 개의 회사가 이 문제를 해결하는 방법을 찾기 위해 경쟁하고 있으며 먼저 도달하는 사람에게는 금이 있습니다.

지난주 OpenAI는 연구 논문과 그에 따른 블로그 게시물을 발표하여 해당 목표를 향한 잠재적인 주요 진전은 물론 더 큰 "정렬 문제" 해결을 향한 진전을 옹호했습니다. "정렬 문제"는 강력한 AI 시스템에 인간의 개념과 가치에 대한 이해를 불어넣는 방법을 의미합니다. "AI 안전"으로 알려진 분야에서 일하는 연구원들은 미래의 AI 소프트웨어가 인류에게 멸종 수준의 위협을 가하지 않도록 보장하는 것이 중요하다고 생각합니다. 하지만 앞으로 설명하겠지만 OpenAI가 제안하는 솔루션은 실제로 오늘날의 대규모 언어 모델이 얼마나 제한적인지를 보여주는 것 같습니다. 생성적 AI를 위해 근본적으로 다른 아키텍처를 제시하지 않는 한 "정렬"과 "성능" 사이의 긴장으로 인해 기술이 결코 잠재력을 최대한 발휘하지 못할 가능성이 높습니다. 실제로 OpenAI가 최신 연구에서 제안한 방식으로 LLM을 교육하는 것은 해당 분야에서 한 걸음 물러나는 것이라고 주장할 수도 있습니다.

그 이유를 설명하기 위해 OpenAI의 최신 연구 결과를 살펴보겠습니다. 먼저, 연구자들이 대규모 언어 모델의 거친 출력을 길들이기 위해 시도한 한 가지 방법은 인간 피드백(또는 줄여서 RLHF)을 통한 강화 학습이라는 프로세스를 통해서라는 점을 이해해야 합니다. 이는 인간이 LLM이 생성하는 답변을 평가한다는 것을 의미합니다. 일반적으로 간단한 엄지손가락을 위로 또는 아래로 엄지손가락을 치켜세우고(일부 사람들은 더 적은 바이너리 피드백 시스템을 실험했지만) 그런 다음 LLM은 더 가능성이 높은 답변을 생성하도록 미세 조정됩니다. 엄지 손가락을 평가했습니다. 특히 논리 문제나 수학과 같은 작업에 대해 LLM이 더 나은 품질의 답변을 생성하도록 하는 또 다른 방법은 LLM에게 단순히 최종 답변을 생성하는 대신 "단계별 추론" 또는 "단계별 사고"를 요청하는 것입니다. 소위 "사고의 사슬"이 작동하는 이유가 정확히 무엇인지 완전히 이해되지는 않았지만 지속적으로 더 나은 결과를 만들어내는 것 같습니다.

OpenAI가 최신 연구에서 수행한 작업은 LLM이 사고 연쇄 추론을 사용하라는 지시를 받고 (최종 답변 대신) 연쇄의 각 논리적 단계에서 RLHF를 사용하여 교육을 받았을 때 어떤 일이 발생했는지 확인하는 것이었습니다. OpenAI는 이를 이전에 사용했던 "결과 감독"과 달리 "프로세스 감독"이라고 불렀습니다. 글쎄요, 각 단계에 피드백을 제공하면 훨씬 더 나은 결과를 얻을 수 있다는 사실은 놀랄 일도 아닐 것입니다. 이것은 중학교 수학 선생님이 항상 시험에서 "공부한 것을 보여라"라고 훈계했던 것과 비슷하다고 생각하시면 됩니다. 그렇게 하면 문제를 해결하는 데 필요한 추론을 이해했는지 그녀가 볼 수 있고, 과정 중 간단한 산술 오류가 발생하더라도 부분적인 점수를 줄 수 있습니다.

몇 가지 문제가 있습니다. 첫째, 일부 다른 연구자들이 지적했듯이 이 "프로세스 감독"이 LLM이 나타내는 모든 환각, 특히 존재하지 않는 인용 및 부정확한 인용과 관련된 환각에 도움이 될지, 아니면 부정확성의 하위 집합만 다루는지는 확실하지 않습니다. 그것은 논리를 포함합니다. 기업이 두려워하는 바람직하지 않은 결과를 피하기 위해 LLM을 조정하려면 이러한 모델의 구축 및 훈련 방법에 대한 훨씬 더 근본적인 재검토가 필요할 수 있다는 것이 점점 더 분명해지고 있습니다.

실제로 히브리 대학과 AI21 연구소의 이스라엘 컴퓨터 과학자 그룹은 최근 RLHF가 강력한 정렬 방법인지 조사한 결과 심각한 문제를 발견했습니다. 이번 달에 발표된 논문에서 연구원들은 AI 모델이 보여줄 수 있는 모든 행동에 대해 아무리 가능성이 낮더라도 해당 행동을 유도할 수 있는 프롬프트가 존재하며 가능성이 낮은 행동에는 단순히 더 긴 프롬프트가 필요하다는 것을 증명했다고 말했습니다. 연구원들은 "이는 바람직하지 않은 행동을 약화시키지만 완전히 제거하지는 않는 정렬 프로세스가 적의 유도 공격으로부터 안전하지 않다는 것을 의미합니다"라고 썼습니다. 더 나쁜 것은 RLHF와 같은 기술을 사용하면 실제로 모델이 바람직하지 않은 동작을 나타내도록 유도하는 것이 더 쉬워진다는 것입니다.