'RL' 태그의 글 목록

Reward Gaming in Conditional Text Generation

RM모델이 취약해질 수 있는 상황을 3가지 시나리오로 설정하고, 실제로 그런지 확인하기 위해 가상태스크(synthetic example)와 실제 태스크(Real-world example)로 구분하여 실험을 진행하였습니다. 가상 태스크는 [8 X 8]행렬에 주어진 규칙을 만족하도로 숫자를 채워 넣는 수도쿠(sudoku) 문제를 사용하였고, 실제 태스크는 요약과 번역 태스크를 사용합니다. 특히, 수도쿠 문제는 [1 x 8] 1차원 배열로 형식을 변경하고, 36개의 숫자(힌트)가 미리 주어졌을 때, 나머지 37~80까지 숫자를 생성하는 형태로 문제를 정의합니다. Reward gaming은 부적절한 패턴이 높은 보상을 갖게 되는 경우에 발생하는 현상이라고 정의합니다. Reward gaming이 발생하는 3가지 ..

Papers 2023.07.21

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

개발자 이야기

RL 1

티스토리툴바