飞鲸投研 > > 贝壳号 > 正文

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

贝壳号 | 发布于2021-05-29

【新智元导读】Reddit上又一个论文自动生成的帖子火了！哈佛一个博士用一万篇Nature论文训练GPT-2模型来自动生成摘要，还发布了一个小游戏Engima，允许用户判断两个摘要哪个是生成的，有网友觉得一眼假，还有网友认为生物领域根本看不懂！

哈佛一个小哥用GPT-2模型训练了一万篇Nature论文来写论文的摘要。

根据这个模型生成的摘要，开发了一个小游戏Enigma，让用户来判断哪个是真实的摘要，哪个是生成的。

这个字谜游戏的名字取自恩尼格玛密码机，它是对二战时期纳粹德国使用的一系列相似的转子机械加解密机器的统称。

游戏的模式分为Easy和Hard。

例如下面这个Hard例子，左面的是真实的论文摘要，而右面的则是生成的，你看出来了吗？

由于论文涉及的领域大多数是Nature相关的，区分真实和虚假依赖于领域知识，而GPT-2生成的文本大多在逻辑上可能会有一些问题，所以对于行外人来说这个游戏大多等于随机猜。

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

切换到Easy模式也并没有觉得变简单。。

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

作者在网页中也说明，Hard模式使用更大的模型，生成的摘要也更加有信服度

有Reddit网友也表示，希望有一些机器学习相关的摘要，生物领域实在是看不懂！网友表示赞同，熟悉这个领域的太容易看出来是假的了！

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

还有网友说这游戏太离谱了，越像胡说八道的，越是学术界写出来的论文：

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

这个小游戏的作者是Stefan Zukin，从哈佛大学毕业的博士生，主要研究领域为化学生物。

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

论文自动生

早在2005年，论文自动生成器SCIgen就开始研究这个课题，它能够自动生成无意义的英文计算机科学研究论文，并且包含图片、表格、流程图和参考文献等。这个程序使用用户定制的上下文无关文法来生成论文的各类组成元素。

在当时还没有强大的深度学习模型，只能依靠手工规则。

SCIgen由美国麻省理工学院计算机科学与人工智能实验室的三位研究生杰里米·斯特里布林（Jeremy Stribling）、马克斯·克伦（Max Krohn）和达纳·阿瓜约（Dan Aguayo）编写，源代码以GPL协议发布。

2005年，SCIgen的编写者们将他们使用这个工具生成的Rooter: A Methodology for the Typical Unification of Access Points and Redundancy一文投往该年度的World Multiconference on Systemics, Cybernetics and Informatics，WMSCI，被成功录用为未经同行评审文章，并且作者被邀请到会议上发言。

后来，伦斯勒理工学院、华盛顿大学等的研究人员开发的 PaperRobot，提供从产生 idea、写摘要、写结论到写 “未来研究” 的一站式服务！甚至它还能为你写出下一篇论文的题目，从此论文无忧。

PaperRobot: Incremental Draft Generation of Scientific Ideas 这篇论文在ACL2019一发表，就引起了大量关注。

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

谷歌大脑科学家 David Ha (hardmaru) 评价：「May a thousand (incremental) ideas bloom. 」

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

PaperRobot 的工作流程包括：

(1) 对目标领域的大量人类撰写的论文进行深入的理解，并构建全面的背景知识图 (knowledge graphs, KGs)；

(2) 通过结合从图注意力 (graph attention) 和上下文文本注意力 (contextual text attention)，从背景知识库 KG 中预测链接，从而产生新想法；

(3) 基于 memory-attention 网络，逐步写出一篇新论文的一些关键要素：从输入标题和预测的相关实体，生成一篇摘要；从摘要生成结论和未来工作；最后从未来工作生成下一篇论文的标题。

研究者对这个 AI 论文生产机还进行了图灵测试

PaperRobot 生成生物医学领域论文的摘要、结论和未来工作部分，同时展示人类写作的同领域论文，要求一名生物医学领域的专家进行比较。结果显示，分别就摘要、结论和未来工作部分而言，在 30%、24% 和 12% 的情况下人类专家认为 AI 生成的比人类写作的更好。

至于这批 AI 研究人员为什么选择生物医学领域来做实验，原因很简单：生物医学论文很多，非常多！他们尝试了用自己领域 (NLP) 来做实验，结果并不理想 (NLP 的论文语料还不够多)。

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

编辑按：本文转载至微信公众号 “新智元”贝壳投研经授发布

飞鲸投研从多维度分析，整理了一份《成长50》的名单，可以关注同名公众号："飞鲸投研"：feijingtouyan，进行领取（点击复制）

Tags：新智元

相关推荐

该文观点仅代表作者本人，飞鲸投研系信息发布平台

/阅读下一篇/

特斯拉撞残警车，美国警方确定AP开启！车主：我以为它会减速绕开

24小时热榜

脱水研报

净利润创新高，轻资产业务突出，兴业证券成长空间有多大？

兴业证券的前身是1991年成立的福建兴业银行证券业务部；公司拥有强大的国资背景，为福建国资委控股公司。近年来集团一体化建设全面推进，通过与兴业银行等开展合作，拓
脱水研报:油电产品齐绽放，行业景气度提升，万里扬成就国产变速器龙头！

据信达证券研报分析，近年来我国商用车销量快速增长，增速超过整体汽车销量平均增速。乘用车变速器销量放量带动营收占比提升，公司收入结构愈发清晰。公司收购吉利及奇瑞乘
如果你想多方位了解口子窖，看这里就够了

口子酒历史悠久，底蕴深厚，是当之无愧的历史名酒。在北纬33度，黄淮腹地的濉溪县口子镇，此地水肥土沃，气候宜人，孕育了适合酿酒的五谷杂粮和微生物群。因此，口子人两
揭开被“粉饰”过的利润，CXO企业为何如此偏爱权益投资？

CXO企业不能看估值我是后知后觉的，在已知它们处于高成长赛道之下，没想到能这么猛。如康龙化成，它的动态市盈率已达到170+倍，股价在近一年半的时间里翻了近4倍；
华东医药的三大支柱

2009-2019年，华东医药收入和归母净利润分别复合增长16.3%、22.2%；毛利率和净利率逐步提升，ROE高于20%。公司战果累累，较强的盈利能力背后是三

名家观点

龙头大师兄|暴跌，跑不跑？

一隐秀路大佬就是这波主多南天的主力，今天下午又再度拉回，从同花顺超级盘口看它从水下一路点火，要不是大盘太弱了大概率能走出地天，上次也是在一片绝望中隐秀路大佬引导
老丁说股|下周反弹有预期，但关键的底在哪？

这一周的弱势，始于外资的大幅出逃，不过，周五的弱势，却怪不了人家，参考下北上资金，尽管深港通有一定流出，但也谈不上很大，沪港通更是流入的，所以，周五的弱，纯属于
龙头大师兄|茅台何时止跌？

以岭药业：这个票近期是一路小快步上行，到了今天终于是走了加速，明天溢价问题不大，但周四涨停也说明短线资金进来了，短期估计短线资金还会关注这里，明天预计冲高问题不
老丁说股|短期多方不怂，歇一歇再反弹

10月份已到了最后几天，三季报也进入到了最后的集中披露，而这个时候，就要注意下不及预期的雷股了。怎么规避不及预期的可能雷股？如果对个股基本面不是很了解，还真没什
老丁说股丨二次止跌临近，只需注意一前提

第二段，就是11点之后，不管是中午前的强反击，还是午后的回落，以及随后的僵持，跟北上资金的节奏几乎完全同步了，这意味着，多空双方都选择了观望，然后，才有了北上资

热点题材

全国碳交易市场即将上线、碳交易概念股可关注

川财证券陈雳认为，全国碳交易市场开启后，碳配额和CCER（核证自愿减排量）价格均有望大幅提升。随着双碳目标临近，未来碳配额价格将保持长期上行趋势。清洁能源运营企
能源技术创新重大突破、飞轮储能概念股有望爆发

点评：飞轮储能突破了化学电池的局限，用物理方法实现储能，由于是电能和机械能的相互转化，真正实现零污染。日前，国家发展改革委、国家能源局正式发布《关于加快推动新型
华东水泥均价止跌起涨、水泥概念股可关注

业内人士表示，虽然当前需求一般，但随着下半年基建及房地产项目逐渐开工，届时水泥需求环比增加将会带动销量，有望同步带动水泥价格走高。上峰水泥（000672）、
台积电拟加大车用芯片产量、产业链有望持续高景气，汽车芯片概念股可关注

汽车产业正在快速向电动化、智能化、网联化发展。Strategy Analytics数据显示，2019年纯电动车单车平均半导体价值达到775美元，为燃油车的两倍有
机构密集调研光伏产业链，逆变器龙头股有望表现超预期

安信证券认为，5月份光伏组件、逆变器出口金额均同比增长，海外市场需求和景气度超预期。在央企“十四五”装机规划的约束下，之前核准的绝大部分竞、平价仍将会在今年并

哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

作者在网页中也说明，Hard模式使用更大的模型，生成的摘要也更加有信服度

PaperRobot 的工作流程包括：

研究者对这个 AI 论文生产机还进行了图灵测试

24小时热榜

最新资讯