无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型
新智元报道编辑:LRS【新智元导读】省去人工标注成本,用大模型自动生
2023-08-04新智元报道
编辑:LRS
【新智元导读】省去人工标注成本,用大模型自动生成正面、负面提示,在小参数量模型上表现更佳!
(资料图)
随着大模型的能力越来越强,如何低成本地让模型的输出更符合人类的偏好以及社会的公共价值观,就显得尤为重要。
基于人类反馈的强化学习(RLHF)在对齐语言模型上取得了非常好的效果,可以让预训练模型具有无害性、有用性等理想品质,并在多项自然语言处理任务中取得了最先进的结果。
但RLHF在很大程度上依赖于人类提供的标注结果,获取高质量数据的成本过于昂贵且耗时,小型研究团队可能无法支付训练成本。
其他无需人工标注的对齐方法,如RLAIF(基于AI反馈的强化学习)和上下文蒸馏(context distillation)主要利用预设的提示模版,利用现有模型自动生成训练数据,在语言模型对齐上取得了非常不错的效果。
最近,加州大学伯克利分校、Meta AI和加州大学洛杉矶分校的研究人员共同提出了一项新技术RLCD(基于对比度蒸馏的强化学习,Reinforcement learning from contrast distillation),同时结合了RLAIF和上下文蒸馏的优势,使用包含高质量和低质量示例的「模拟偏好数据对」来训练偏好模型,其中示例使用对比的正面和负面提示生成。
论文链接:https://arxiv.org/pdf/2307.12950.pdf
从7B和30B规模的实验结果来看,RLCD在三个不同的对齐任务(无害性、有益性、故事大纲生成)上优于RLAIF和上下文蒸馏基线。
与Constitutional AI相比,RLCD在人类和GPT-4的评估中表现更好,特别是在无害性,有用性和故事概述方面的小模型(7B规模)。
田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。
曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。
曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。
RLCD
与RLHF类似,RLCD从未对齐的语言模型和一组提示开始,将其作为成对偏好数据生成的起点。
对于每个提示p,RLCD 都会生成两个提示p+和p-(上图中的绿色和橙色),分别向鼓励相关属性(如无害性、乐于助人性)和反对相关属性的方向变化。
然后将p+和p-输入进原始LLM,可以得到相应的输出o+和o-,在生成训练对(o+,o-)时,模型会自动将o+标注为首选,而无需进一步的后评分。
最后,遵循标准的RLHF流程,在模拟的成对偏好数据上训练偏好模型,再从偏好模型中选出一个奖励模型,并使用该奖励模型运行 PPO 来对齐原始 LLM。
正反面提示构造
从技术角度来看,如果从现有的 RLAIF 工作流程出发,实现RLCD是非常简单的,主要的难点在于如何构建 RLCD 的正反面提示 p+、p-,以生成偏好对。
研究人员确定了选择提示的两个主要标准:
1. p+应该比p-更有可能产生体现所需属性(如无害性、有用性)的输出;同样,p-可以明确鼓励向相反属性的方向转变。
2. p+和p-的字面形式应尽可能相似,比如只有少部分词有区别,主要是为了避免引入与所需属性无关的意外偏差。
直观来看,p+和p-会产生两种不同的分布,第一条标准确保这两种分布在所需属性上的差异尽可能大,而第二条标准则确保它们在正交轴上的差异尽可能小。
根据经验,就可以发现与使用类似提示的基线相比,RLCD 能够极大地放大提示 p+ 和 p- 的对比度,这一点已通过实验得到证实。
因此,在实际设计p+和p-时,研究人员发现,与第一条标准相比,关注第二条标准往往更有价值,只需在括号中写下简短的描述即可创建 p+ 和 p-
实验结果
实验任务
研究人员在三个任务上,使用三组不同的提示集合进行测评:
1. 无害性提示(harmlessness prompts)
由于聊天过程中经常会出现攻击性或其他社会不可接受的文本,研究人员的目标是,即使是在这种有毒的语境下,模型也要生成社会可接受、合乎道德和/或无攻击性的输出。
次要目标是,输出内容仍需要有助于改善对话并与对话相关,而不是像「谢谢」和「对不起」这样毫无意义的通用回复。
2. 有益性提示(helpfulness prompts)
人类通常会在对话中询问信息或建议,目标是生成有帮助的输出。
3. 大纲提示(outlining prompts)
人类提供故事前提并要求提供大纲的对话,目标是为前提写出一个格式规范、生动有趣的故事大纲,除了要求趣味性、格式正确性、与前提的相关性外,模型还需要有长期规划的能力。
研究人员使用网络上现成的40000个前提,而助手的回答会自动以「Here is a possible outline:」开头,以促使模型以正确的基本格式输出。
RLCD 正面和负面提示
对于无害性任务,研究人员编写了 16 对用于构建 p+ 和 p- 的上下文短语(每次使用时随机抽取一对);这些短语对与 Bai 等人(2022b)使用的 16 个评分提示类似,他们对无害性任务实施了 RLAIF。
对于有用性,研究人员只使用一对短语,分别要求给出有用或无用的回答。
对于大纲,研究人员使用了三个短语对,旨在对比趣味性、格式正确性和前提相关性。
对于无害性和有益性任务,在创建训练信号的同时,通过在「Assistant:」指示中冒号前的括号内放置对比性描述来大致匹配 p+ 和 p- 的字面形式。
基线模型
1. LLaMA,即直接使用未对齐的 LLaMA-7B 基线(与 RLCD 和其他基线对齐的初始 LLM 相同)生成输出,作为合理性检查(sanity check)。
2. RLAIF,遵循Constitutional AI原文,先用AlpacaFarm进行复现,然后使用与原文完全相同的提示模板来进行无害性评分;对于有用性和大纲评分,使用的提示尽可能与RLCD中使用的提示相似。
3. Context-Dist 是一个上下文蒸馏(context distillation)基线模型,仅对RLCD中正面提示p+的输出o+进行有监督微调。
评价指标
在每个任务中,对 RLCD 与每个基线模型成对地进行评估,标注人员需要对200个样例进行对比,给出1(输出A要更好)到8(输出B要更好)的评分。
研究人员还使用GPT-4,通过不同的提示设计,对1000 个示例进行二元评估。
实验结果
在两种评估方式下,RLCD的性能都优于对比的基线模型,验证了数据生成过程在7B和30B规模下的有效性。
人类评估
GPT-4评估
在使用 LLaMA-7B 进行偏好数据模拟时,RLCD 与其他模型相比带来的性能提升尤为明显,即使是最强的基线 RLAIF,也只能在 30B 模型规模的数据模拟中接近 RLCD,而在 7B 模型规模的数据模拟中则表现不佳。
在30B模型规模下,虽然GPT-4在某些情况下更倾向于 RLAIF30B,但人类始终认为RLCD与之相比表现相当或更好,也就是说GPT-4评估与人类的评估结果在30B的模型规模上分歧更大。
RLCD 与基线之间的差异也可以从质量上观察出来。
RLCD 的启示
研究人员认为,RLCD的偏好数据生成与最相似的先验方法 RLAIF 相比更受青睐的一些主要原因是,由于 RLAIF 会生成两个输出o1和o2,在很多情况下,相关属性可能几乎没有差别,可能会导致「信噪比」较低。
根据经验,在使用LLaMA-7B生成 RLAIF 数据时,在标签极性的第60百分位数上,o2更受青睐。
虽然分类模型通常会从接近决策边界的训练示例中获益,但RLAIF中的问题在于这些示例并非人工标注,因此可能存在极大的噪声,如果无法准确标注这些示例,就最好避免使用。
与RLAIF相比,RLCD构建的 (o+、o-) 在指定属性上更有可能存在差异,与 o- 相比,o+ 显然更具道德性。
虽然 RLCD 的输出有时也会有噪声,但平均而言,它们似乎比 RLAIF 的输出更有区别,从而产生了更准确的标签。
参考资料:
https://arxiv.org/pdf/2307.12950.pdf
标签:
新智元报道编辑:LRS【新智元导读】省去人工标注成本,用大模型自动生
2023-08-04当地时间8月3日,美国前总统特朗普当天下午抵达华盛顿特区地方法院,就
2023-08-04原标题:循迹商代中期都城:这座三千多年前的城市有哪些秘密?中新网安
2023-08-04近日,成都第31届世界大学生夏季运动会正火热进行,不少体育迷都想前往
2023-08-04诸多的对于初等矩阵都是可逆矩阵吗,初等矩阵这个问题都颇为感兴趣的,
2023-08-04视频制作∣江西日报全媒体记者徐黎明实习生徐子嘉▲黄时龙在瓦片上刻的
2023-08-04【特朗普自称或被判561年监禁】具体的是什么情况呢,跟随小编一起来看
2023-08-04为庆祝中国人民解放军建军96周年,8月1日,㵲水街道禾山溪社区召开庆祝
2023-08-041、血腥爱情故事挺好听。2、还有第五人格的主题曲也好听。3、也就是安
2023-08-04大家好,又来给大家推荐小说了,好的小说能点亮你的人生,给你的生命
2023-08-04本报讯“你觉得自己责任落实到位没有?”“在你收到这个问题后,你做了
2023-08-04这剧剖析亲情、家庭、爱情,用大爱包容小爱,可谓是既走心又戳人。
2023-08-04黑龙江省发布暴雨红色预警金十期货8月4日讯,黑龙江省气象台2023年8月4
2023-08-04周四美股三大指数集体收跌,港股ADR指数收涨,按比例计算,收报19666点
2023-08-04来为大家解答以上问题,心理网站测试,心理网站很多人还不知道,现在让
2023-08-048月3日氮化镓板块较上一交易日下跌0 07%,安泰科技领跌。当日上证指数
2023-08-04西班牙《国家报》8月2日文章:中国的“万物应用”微信启发马斯克将推特
2023-08-03小刚最近跑腿送外卖,遇到一个订单有点奇怪,让他跑腿到某个商场去,在
2023-08-03北森控股(09669 HK)附属8月3日合计认购3 7亿元理财产品,理财产品,中国
2023-08-03苹果分析师郭明錤预测,iPhone15系列的需求将低于今年的iPhone14系列。
2023-08-03沪深交易所2023年8月3日公布的交易公开信息显示,永鼎股份(600105)因
2023-08-038月3日,深交所全资子公司深圳证券信息有限公司发布公告称,将于8月8日
2023-08-03一、广东省河源市天气预报受局地降水云团影响,过去1小时麻布岗大塘面
2023-08-03大象新闻记者张子琪8月2日,河北保定白洋淀组织50艘船前往涿州码头镇参
2023-08-03因大运会,成都又一次成为热门打卡地。到街头巷尾走走看看,感受千年巴
2023-08-03记者王小涵通讯员宫玺根据山东省教育招生考试院公布的2023年各批次志愿
2023-08-03@京港地铁据@气象北京消息息,北京后半夜至明天白天有明显雷阵雨,局地
2023-08-032016年,家住龙岩的军军(化名)因为一场意外撞伤了左眼,紧急送往当地
2023-08-03在中国,茶叶是一个被低估的市场。2020年,喝现制茶饮的人有2 5亿人,
2023-08-03交易商品牌 产地交货地最新报价超细碳酸氢钠(小苏打) 含量≥99%萍
2023-08-03in7锁屏时间设置这个问题很多朋友还不知道,来为大家解答以上的问题,
2023-08-03为筑牢独居高龄老人群体消防安全屏障,及时消除火灾等安全隐患,近日,
2023-08-03国家医保局日前发布数据显示,2023年1至6月,基本医疗保险基金(含生育
2023-08-030471房产来为大家解答以上的问题。干鱿鱼的家常做法爆炒洋葱,干鱿鱼的
2023-08-038月2日,容百科技(688005)融资买入4995 78万元,融资偿还2274 65万元
2023-08-03我是小前,我来为大家解答以上问题。什么是磷肥的主要来源之一,什么是
2023-08-03俄料墨玉可以选择抛亚光或者亮光,这取决于个人喜好和使用环境。抛亚光
2023-08-03想看江铃大道的优缺点?来看看大家怎么说!想看江铃大道的优缺点?
2023-08-038月3日,生意社黄磷基准价为23600 00元 吨,与本月初持平。黄磷年度统
2023-08-038月2日,宇通客车发布2023年上半年业绩快报。报告显示,2023年上半年,
2023-08-03襄阳气象台发布暴雨橙色预警,伴有雷电,阵风7-9级,地质灾害、中小河
2023-08-03华西证券股份有限公司卢周伟,寇星近期对万辰生物进行研究并发布了研究
2023-08-031、发现于北非的直立人化石。2、最初定名为阿特拉猿人毛里坦种,故又简
2023-08-03据CME“美联储观察”:美联储9月维持利率在5 25%-5 50%不变的概率为82
2023-08-03抖音是一个专注年轻人的音乐短视频社区,抖币可以购买礼品送给喜欢的主
2023-08-03每经AI快讯,英特科技(SZ301399,收盘价:50 15元)8月2日晚间发布公
2023-08-03五家房企上榜世界500强,总市值刚超五千亿
2023-08-038月2日,在成都大运会体操男子团体决赛中,由邹敬园、张博恒、侍聪、兰
2023-08-03日本爱信精机株式会社是R&d、自动变速器及汽车零部件制造商制造商,
2023-08-03国子软件(872953)北交所IPO战投名单出炉,引入济南高新聚智投资管理
2023-08-03逐梦|航天员邓清明在太空给25年前的自己写下一封信,主流媒体,山西门户
2023-08-03突发!央行重磅表态,存量房贷利率下调,定了!,贷款,央行,存量房,改善
2023-08-03孟姑集镇工作人员与家属合影留念大众网见习记者李鑫鹏通讯员石中华济宁
2023-08-037月29日,艾瑞泽8高能版皖赣区域上市在安徽合肥举行。艾瑞泽8高能版定
2023-08-03网上车市从东风日产官方获悉,2024款骐达正式上市,官方指导价区间
2023-08-03你们好,最近小活发现有诸多的小伙伴们对于纸元宝的折叠方法,长方形纸
2023-08-03丰沙铁路列车人员被困,北京消防员徒步打通生命救援线,指战员,消防员,
2023-08-037月28日,青海省海西蒙古族藏族自治州都兰县在巴隆乡布洛格村集体草场
2023-08-03为助力北京防汛救灾,及时给灾区群众送去温暖和关爱,现将捐赠事项说明
2023-08-03机开机动画怎么设置,这些步骤仅供参考很多人还不知道,现在让我们一起
2023-08-031、对于一个为进入爱情的人,为爱情什么重量。2、若告诉他很重不可比拟
2023-08-03欧洲主要股指集体低开,德国DAX指数跌1 20%,英国富时100指数跌0 90%,
2023-08-03泰安日报社·最泰安讯 8月1日,泰山区召开“泰山榜样”主题新闻发布会
2023-08-03截至2023年8月2日收盘,林海股份(600099)报收于9 58元,上涨1 16%,换
2023-08-038月1日A股三大指数冲高回落,截至午间收盘上证指数大涨0 12%,报3294 9
2023-08-02北京西站部分始发列车停运,旅客可于30日内办理全额退票
2023-08-02“游戏行业是最快被AIGC改变的”“未来月薪万以下的美术设计,都可以被
2023-08-02智通财经APP讯,大中矿业(001203 SZ)公告,公司截至2023年7月31日以集
2023-08-02鄂股动态丨发动机零配件业务承压,泰祥股份布局新能源汽车领域,发动机,
2023-08-02进入三伏天,啤酒、凉茶、绿豆汤、冰淇淋等成为民众的消暑“标配
2023-08-02今年以来,通辽市社保中心以“100个乡村振兴示范村”为重点,不断推进
2023-08-020471房产来为大家解答以上的问题。莒姬和向氏最后结局,莒姬这个很多人
2023-08-02在这次直播中,周雨和闫安还爆料了方博和马龙之间的趣事,之前国乒军训
2023-08-02航天宏图:公司参与部分星网相关业务在载人登月方面目前没有布局
2023-08-02■教育强国建设·大家谈无论在地理意义还是经济意义上,中部地区在我国
2023-08-02肛肠疾病是指发生在肛门、直肠、结肠部位的疾病,虽然发病部位比较隐私
2023-08-02随着盲盒经济的兴起,最近出现了一种叫“剩菜盲盒”的食品销售方式,它
2023-08-02截至2023年8月1日收盘,众泰汽车(000980)报收于4 84元,上涨10 0%,已
2023-08-02花垣供电公司:紧急抢修保供电护航医院“生命线”7月31日下午,花垣县
2023-08-02中消协8月1日发布消费提示,提醒广大消费者在购买“剩菜盲盒”时,务必
2023-08-02来为大家解答以上问题,苹果最新报价单在哪查,苹果4最新报价很多人还
2023-08-02今天白天,青岛多云间晴,天气闷热潮湿,内陆局部出现了35℃的高温天气
2023-08-02华硼中子宣布完成超亿元人民币天使轮融资,由凯泰资本、诺庾资本、昆仑
2023-08-02证券时报e公司讯,英唐智控(300131)8月2日晚间公告,为加大公司在车载
2023-08-02每经AI快讯,有投资者在投资者互动平台提问:请问,2023年上半年公司半
2023-08-02偏光镜原理,偏光镜这个很多人还不知道,现在让我们一起来看看吧!1、偏
2023-08-02放纵制售伪劣商品犯罪行为罪(刑法第414条),是指对生产、销售伪劣商品
2023-08-021 紫罗兰之梦2 紫罗兰心语3 紫罗兰花径4 紫罗兰秘语5 紫罗兰之舞6 紫罗
2023-08-02为推动破解民营经济发展中面临的突出问题,进一步提振民营经济发展信心
2023-08-02北京市气象台发布7月29日20时至8月1日11时降水量(毫米):全市平均263 8
2023-08-02“线下实体没有从与互联网的连接中获得增长,相反集体陷入闭店衰退的泥
2023-08-02襄阳樊城王寨街道开展“普法进楼宇法律零距离”公益活动---下一阶段,
2023-08-02综合路透社和法新社报道,当地时间8月2日凌晨,突尼斯总统府在一份声明
2023-08-02在短短几天内,InfinityWard将推出《使命召唤:现代战争2》第五季。尽
2023-08-02“执法人员四处进行宣传,现在焚烧秸秆现象有了好转,镇上环境也更干净
2023-08-02长风万里,昂扬奋进;铁马金戈,卫我山河。在我们身边,有这样一群平凡
2023-08-020471房产来为大家解答以上的问题。极海听雷结局吴邪的病好,极海听雷结
2023-08-02男性应该如何选择一款好用的洗面奶呢?下面为大家推荐三款口碑效果
2023-08-028月1日,成都大运会赛场传来捷报。我省青年运动员、合肥师范学院学生胡
2023-08-02IT之家8月2日消息,世嘉昨日公布了今年最新季度的财报(4月1日~6月30日
2023-08-02Copyright © 2015-2022 亚洲水产网版权所有 备案号:京ICP备2021034106号-51 联系邮箱:5 516 538 @qq.com