chatgpt用户吧 关注:1,405贴子:3,455
  • 0回复贴,共1

- 引入人类反馈强化学习:

只看楼主收藏回复

与前代模型GPT-3相比,ChatGPT将基于人类反馈的强化学习(RLHF)纳入到训练过程之中。通过让模型一次生成多个答案,由人类按照有用程度进行排名,然后设定奖励机制并训练奖励模型,为每个问题及答案组合进行打分,进一步对模型进行有监督微调,使其输出更好地贴近用户提问的意图。


IP属地:河北来自Android客户端1楼2024-10-22 13:22回复