개발자 이야기

  • 블로그홈
  • 지역로그
  • 태그로그
  • 미디어로그
  • 방명록

RL 1

Reward Gaming in Conditional Text Generation

RM모델이 취약해질 수 있는 상황을 3가지 시나리오로 설정하고, 실제로 그런지 확인하기 위해 가상태스크(synthetic example)와 실제 태스크(Real-world example)로 구분하여 실험을 진행하였습니다. 가상 태스크는 [8 X 8]행렬에 주어진 규칙을 만족하도로 숫자를 채워 넣는 수도쿠(sudoku) 문제를 사용하였고, 실제 태스크는 요약과 번역 태스크를 사용합니다. 특히, 수도쿠 문제는 [1 x 8] 1차원 배열로 형식을 변경하고, 36개의 숫자(힌트)가 미리 주어졌을 때, 나머지 37~80까지 숫자를 생성하는 형태로 문제를 정의합니다. Reward gaming은 부적절한 패턴이 높은 보상을 갖게 되는 경우에 발생하는 현상이라고 정의합니다. Reward gaming이 발생하는 3가지 ..

Papers 2023.07.21
1
더보기
프로필사진

일하며 알게된 내용들을 다양한 주제로 공유하고자 합니다.

  • 개발자 이야기 (20)
    • Large Language Model (1)
      • Models (0)
      • Datasets (0)
      • Implements (1)
    • Algorithm (9)
      • Greedy (8)
      • Search (0)
      • Dynamic Programming - basic (0)
    • Tools&Library (2)
    • Statistics (3)
    • Papers (1)
    • Etc (3)

Tag

serving, reward_model, RAY, 모집단, docker-compose, 분산, 추론통계, LLM, JQ, API, 통계기초, opensource, multiprocessing, 평균, 기술통계, 병렬처리, 표준편차, 표본집단, RL,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바