- 引入人类反馈强化学习：【chatgpt用户吧】_百度贴吧

04月05日漏签0天

chatgpt用户吧关注：1,405贴子：3,455

0回复贴，共1页

<返回chatgpt用户吧

- 引入人类反馈强化学习：

只看楼主收藏回复

与前代模型GPT-3相比，ChatGPT将基于人类反馈的强化学习（RLHF）纳入到训练过程之中。通过让模型一次生成多个答案，由人类按照有用程度进行排名，然后设定奖励机制并训练奖励模型，为每个问题及答案组合进行打分，进一步对模型进行有监督微调，使其输出更好地贴近用户提问的意图。

送TA礼物

IP属地:河北

来自Android客户端1楼2024-10-22 13:22回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回chatgpt用户吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴