RM모델이 취약해질 수 있는 상황을 3가지 시나리오로 설정하고, 실제로 그런지 확인하기 위해 가상태스크(synthetic example)와 실제 태스크(Real-world example)로 구분하여 실험을 진행하였습니다. 가상 태스크는 [8 X 8]행렬에 주어진 규칙을 만족하도로 숫자를 채워 넣는 수도쿠(sudoku) 문제를 사용하였고, 실제 태스크는 요약과 번역 태스크를 사용합니다. 특히, 수도쿠 문제는 [1 x 8] 1차원 배열로 형식을 변경하고, 36개의 숫자(힌트)가 미리 주어졌을 때, 나머지 37~80까지 숫자를 생성하는 형태로 문제를 정의합니다. Reward gaming은 부적절한 패턴이 높은 보상을 갖게 되는 경우에 발생하는 현상이라고 정의합니다. Reward gaming이 발생하는 3가지 ..