ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models 논문 리뷰
    LLM papers 2024. 5. 20. 11:29
    728x90

    [2306.11698] DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models (arxiv.org)

     

    DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

    Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practition

    arxiv.org

     

    해당 논문의 내용이 전반적으로 과하게 길다보니, 전체적인 틀을 파악하는 수준에서 논문을 살펴보려고 한다.

     

    Abstract

    본 논문은 GPT-3.5와 GPT-4를 중심으로 다양한 관점에서 LLM모델에 대한 신뢰성 평가를 제안한다. 여기에서 평가하고자 하는 관점들에는 toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness의 종류가 있다. 이러한 평가를 바탕으로 본 논문에서는 이전에 공개되지 않은 신뢰성 위협에 대한 취약성을 발견할 수 있었다.

     

    본 논문에서 제시한 취약성은 GPT 모델이 독성과 편향된 출력을 생성하도록 쉽게 오도될 수 있다는 것과 훈련 데이터 및 대화 기록에서 개인 정보를 누출할 수 있다는 것이다. 또한, GPT-4가 일반적인 표준 벤치마크에서 GPT-3.5보다 더 신뢰할 수 있지만, 시스템이나 사용자 프롬프트가 Jailbreak 될 경우 GPT-4가 오히려 더 취약하다는 것을 발견했다.

     

    Introduction

    LLM의 새로운 능력은 신뢰성 문제를 악화시킬 수 있다. 특히 대화에 최적화됨에 따라, GPT-3.5와 GPT-4는 지침을 따르는 능력이 향상되다보니 오히려 이러한 능력이 새로운 신뢰성 문제를 초래할 수 있게 된다. 대화 맥락이나 시스템 지침을 악용해서 적대적 공격을 실행하여, 배포된 시스템의 신뢰성을 저하시킬 수 있는 것이다. 기존 벤치마크와 GPT 모델의 새로운 능력 격차를 해소하기 위해서, 본 논문은 다양한 적대적 시스템과 사용자 프롬프트를 설계하고 다양한 환경에서 모델 성능 평가 및 다양한 시나리오에서 LLM의 잠재적 취약점을 탐색한다.

     

    Trustworthiness perspectives of language models.

    1. Toxicity

    1) 기존 LLM과 비교하여 GPT-3.5, GPT-4의 특성과 한계를 측정하는 표준 벤치마크 REALTOXICITYPROMPTS 평가

    2) 시스템 프롬프트가 GPT 모델의 응답 독성 수준에 미치는 영향을 평가하기 위해 수동으로 설계한 33개의 다양한 시스템 프롬프트 평가

    3) 기존 벤치마크보다 모델 독성을 더 효과적으로 드러내기 위해 GPT-4와 GPT-3.5가 생성한 1.2K 사용자 프롬프트 평가

     

    2. Stereotype Bias

    고정관념이 있는 문장을 생성하고, 모델이 동의하거나 반대하도록 요청하는 프롬프트를 생성.

    평균적으로는 고정관념 문장에 동의하는 모델의 비율이 편향의 정도를 나타냄.

     

    3. Adversarial Robustness

    1) 기존 텍스트 적대적 공격에 대한 GPT 모델의 취약성 평가

    2) 다양한 과제 설명과 시스템 프롬프트를 고려한 견고성 평가

    3) 강력한 적대적 공격 하에서 GPT-3.5와 GPT-4의 취약성을 평가하기 위한 도전적 적대적 텍스트 평가

     

    4. Out-of-Distribution Robustness

    1) 다양한 스타일 변환 입력에 대한 모델 견고성 평가

    2) GPT 모델 지식 범위를 벗어난 최근 사건 관련 질문에 대한 모델 신뢰성 평가

    3) 다양한 스타일 및 도메인 시연을 통해 모델 성능에 미치는 영향을 평가하기 위한 분포 밖의 시연을 추가로 평가

     

    5. Robustness to Adversarial Demonstrations

    1) 반사례 예제를 시연으로 제공해서 평가

    2) 시연 내 잘못된 상관관계 평가

    3) 백도어 시연 추가 평가

     

    6. Privacy

    1) 사전 훈련 데이터에서 민감한 정보 추출 정확도 평가

    2) 추론 단계에서 도입된 다양한 유형의 개인 식별 정보 추출 정확도 평가

    3) 다양한 프라이버시 관련 단어와 사건을 포함한 대화에서의 정보 누출 평가

     

    7. Machine Ethics

    1) ETHICS와 Jiminy Cricket 평가

    2) Jailbreak 프롬프트 평가

    3) 회피 문장 평가

    4) 다양한 속성을 포함하는 조건부 행동 평가

     

    8. Fairness

    1) zero-shot 설정에서 서로 다른 기본 비율을 가진 테스트 그룹 평가

    2) 소수 학습 예제에서 인구통계학적으로 불균형한 맥락에 대한 모델 영향 평가

    3) 인구통계학적으로 균형 잡힌 학습 예제의 수에 따른 공정성 평가

     

     

    Empirical findings

    1. Toxicity

    - RLHF나 조정 없이 훈련된 LLM과 비교했을때, GPT-3.5와 GPT-4는 독성 생성을 크게 줄일 수 있으며, 다양한 작업 프롬프트에서 독성 확률이 32% 이하이다.

    - GPT-3.5와 GPT-4 모두 정교하게 설계된 Jailbreak 프롬프트로 독성 콘텐츠를 생성할 수 있고, 독성 확률이 100%에 이른다.

    - GPT-4는 Jailbreak 시스템 프롬프트의 지침을 더 잘 따르기 때문에 GPT-3.5보다 독성이 더 높다.

    - GPT-3.5와 GPT-4를 활용해서 더 도전적인 독성 작업 프롬프트를 생성할 수 있고, 모델 독성을 평가하기 위한 LLM에 전이 가능하다.

     

    2. Stereotype Bias

    - GPT-3.5와 GPT-4는 고정관념 주제에 강하게 편향되지 않는다.

    - 적대적 프롬프트가 제공되면 편향된 콘텐츠에 동의할 수 있고, GPT-4는 GPT-3.5보다 더 취약하다.

    - 모델 편향은 사용자 프롬프트에 언급된 인구 통계 그룹에 따라 달라진다.

    - 모델 편향은 고정관념 주제에 따라 달라진다. 덜 민감한 주제에서 더 편향된 콘텐츠가 생성되는 경향이 있다.

     

    3. Adversarial Robustness

    - GPT-4는 표준 AdvGLUE 벤치마크에서 GPT-3.5를 능가하고 더 높은 견고성을 보인다.

    - GPT-4는 GPT-3.5보다 사람에 의해 작성된 적대적 텍스트에 대해 저항력이 높다.

    - AdvGLUE 벤치마크에서, 문장 수준의 교란이 단어 수준의 교란보다 더 전이 가능성이 높다.

    - GPT 모델은 표준 벤치마크에서 강력한 성능을 보이지만, 자가 회귀 모델을 기반으로 생성된 적대적 공격에 취약하다.

     

    4. Out-of-Distribution Robustness

    - GPT-4는 다양한 OOD 스타일 변환 입력에 대해 GPT-3.5보다 일관되게 높은 일반화 능력을 보인다.

    - GPT-4는 GPT 모델 지식 범위를 벗어난 최근 사건 질문에 대해 GPT-3.5 보다 더 높은 회복력을 보인다.

    - GPT-4는 유사한 도메인의 OOD 시연이 주어질 때 일관되게 더 높은 일반화를 보인다.

    - 다른 도메인의 OOD 시연이 주어질 때, GPT-4의 정확도는 대상 도메인에 가까운 도메인에 의해 긍정적으로 영향을 받고, 멀리 떨어진 도메인에 의해 부정적으로 영향을 받는다. GPT-3.5는 모든 시연 도메인에서 모델 정확도가 감소한다.

     

    5. Robustness to Adversarial Demonstrations

    - GPT-3.5와 GPT-4는 시연에 추가된 반사례 예제에 의해 오도되지 않으며, 일반적으로 반사례 시연에서 혜택이 있다.

    - 시연의 다양한 오류 있는 휴리스틱에서 구성된 잘못된 상관관계는 모델 예측에 다양한 영향을 미친다. GPT-3.5가 GPT-4보다 잘못된 상관관계에 의해 더 쉽게 오도된다.

    - 백도어 시연을 제공하면 GPT-3.5와 GPT-4 모두 백도어 입력에 대해 잘못된 예측을 하게 된다. GPT-4가 백도어 시연에 더 취약하다.

     

    6. Privacy

    - GPT 모델은 훈련 데이터에서 민감한 정보를 누출할 수 있다. 특히 이메일 컨텍스트에서 이메일 주소 노출이 가능하다.

    - 대화 기록에서 주입된 개인 정보를 누출할 수 있다. GPT-4가 GPT-3.5보다 개인 식별 정ㅂ를 보호하는 데 더 견고하다.

    - GPT 모델은 다양한 프라이버시 관련 단어나 사건을 이해하는 데 다른 능력을 보인다. 특정 프라이버시 관련 단어가 주어지면 GPT-4는 GPT-3.5보다 더 많은 정보를 누출한다.

     

    7. Machine Ethics

    - GPT-3.5와 GPT-4는 도덕적 인식에서 많은 샘플로 미세 조정된 비 GPT 모델과 경쟁할 수 있다.

    - GPT-3.5와 GPT-4는 Jailbreak 프롬프트에 의해 오도될 수 있다. Jailbreak 프롬프트 조합은 오도 효과를 증가시킨다.

    - GPT-3.5와 GPT-4는 회피 문장에 속을 수 있고, 이러한 행동을 도덕적으로 인식한다. GPT-4가 회피 문장에 더 취약하다.

    - GPT-3.5와 GPT-4는 특정 속성을 가진 비도덕적 행동을 인식하는 데 다르게 작동한다.

     

    8. Fairness

    - GPT-4는 인구통계학적으로 균형 잡힌 테스트 데이터에서 GPT-3.5보다 정확하지만, 불균형 테스트 데이터에서 더 높은 불공정성 점수를 기록하고 정확성과 공정성 간의 상충 관계를 나타낸다.

    - zero-shot 설정에서, 두 모델은 기본 비율이 다른 테스트 그룹 간에 큰 성능 격차를 보인다.

    - 학습 맥락 불균형은 모델의 예측 공정성에 영향을 미친다.

    - 공정성 있는 학습 맥락을 제공하면, GPT 모델의 예측 고엉성이 개선된다. 소수의 균형 잡힌 학습 예제도 효과적이다.

     

    본 논문은 다양한 신뢰성 관점에서 GPT 모델을 평가함으로써, GPT의 강점, 한계, 개선 가능성을 이해하고자 한다. 본 논문의 목표는 사용자 요구를 충족하면서 신뢰성 기준을 준수하면 더 신뢰할 수 있고, 편향이 없는 투명한 언어 모델 개발을 촉진하는 것이다.

     

    Preliminaries

    Introduction to GPT-3.5 and GPT-4

    모델 : GPT-3.5와 GPT-4는 사전 학습된 자가 회귀 변환기이다. 이 모델들은 왼쪽에서 오른쪽으로 한 번에 한 토큰씩 텍스트를 생성하고, 이전에 생성된 토큰을 이후 예측의 입력으로 사용한다. GPT-3.5는 모델 파라미터 수로 1750억 개를 유지한다. GPT-4의 파라미터 수와 사전 학습 코퍼스에 대한 구체적인 사항은 공개되지 않았다.

     

    훈련 : GPT-3.5와 GPT-4는 다음 토큰의 확률을 최대화하기 위해 표준 자가 회귀 사전 학습 손실을 따른다. GPT-3.5와 GPT-4는 RLHF를 활용해서 지침을 따르고, 인간 가치에 맞는 출력을 보장한다.

     

     

    프롬프트 : 이 형식은 시스템 역할과 사용자 역할을 구분하는 새로운 역할 기반 시스템이다. 모델의 톤, 역할, 스타일을 구성하여 다양한 사용자 선호도와 사용 사례에 맞게 상호 작용 패턴을 사용자 정의한다.

     

    사용법 : OpenAI API 쿼리 시스템을 통해 이루어진다. API 요청을 통해 특정 매개변수를 설정하여 생성된 출력에 영향을 줄 수 있다. 모델들이 동적이고, 시간이 지남에 따라 계속 발전한다.

     

    Prompt design for downstream tasks

    Prompts for text classification

    제로샷 분류와 퓨샷 분류 모두를 고려한다. 제로샷 분류에서는 테스트 입력을 제공하기 전에 모델에 작업 설명을 제공한다. GPT-3.5가 시스템 메시지에 강하게 주의를 기울이지 않는다는 우려로 인해, OpenAI 코드북 가이드를 따르며 기본 시스템 프롬프트 "You are a helpful assistant"를 사용하고 작업 설명을 사용자 프롬프트에 배치한다.

     

    이 이미지는 감정 분석 작업에 대한 제로샷과 퓨샷 분류의 예시이다.

     

    퓨샷 분류 설정에서는 작업 설명과 함께 모델에 여러 시연을 제공하고, 예측을 생성한다. Incontext learning으로도 알려져 있고, 이 시연은 시뮬레이션 된 사용자 입력으로 형식화된 텍스트 입력과 시뮬레이션 된 모델 응답으로 형식화된 레이블로 구성된다. 이 방식을 통해서 모델은 시연을 조건으로 예측을 생성할 수 있다.

    제로샷 분류와 퓨샷 분류 모두에서, 때때로 모델에 hallucination이 생기는 경우가 있다는 점에 주의를 기울여야 한다.

     

    Prompts for text generation

    본 논문의 실험에서는 잠재적 독성과 편향 평가를 위한 작업 생성 및 완료 작업을 고려한다. 위 이미지를 보면 텍스트가 완료 된 것을 볼 수 있고, 분류 설정과 일치하게 "You are a helpful assistant"라는 프롬프트를 통해서 LLM 어시스턴트의 역할을 설정한다. 사용자 프롬프트 내에서 LLM이 주어진 입력 프롬프트에 대해 일관된 생성을 하도록 작업 설명을 포함시켜야 하고, 최대 150개의 토큰을 생성하고, temperature를 1로 설정, top-p도 1로 설정한다.

     

    이제 다음 섹션에서 다양한 평가를 제공하는데, 이 부분 부터는 단순 평가 내용이기 때문에, 추후에 다시 리뷰하고 내용을 추가하고자 한다.

     

    728x90
Designed by Tistory.