大浪淘沙,风起帆扬
01
29
02
人工反馈的强化学习 人工反馈的强化学习
人工反馈的强化学习 翻译自Huggingface博客 近几年,通过人工prompt提示,语言模型可以出色的生成多样的或限定的文本。但是,如何界定“好”的生成文本是很难的,因为它很主观,同时需要考虑上下文的。例如有很多应用,比如写故事,是希
2023-01-02