1/4
智源AI研究院回应大模型论文学术争议
澎湃新闻2022-04-13 14:47:00

“我们已经注意到对《A Roadmap for Big Model》一文的质疑,正在对相关情况进行核实,智源研究院鼓励学术创新和学术交流,对学术不端零容忍,有关进展将尽快通报。”4月13日,北京智源人工智能研究院回复谷歌大脑(Google Brain)的著名科学家Nicholas Carlini对一项中外合作大型学术论文涉嫌剽窃的指控。

此前4月8日,Nicholas Carlini公开撰文,指控一篇于今年3月26日刊登在论文预印网站Arxiv的论文《关于“大模型”的路线图》(“A Roadmap for Big Model”)一文涉嫌严重抄袭。

该文是前不久国内外多家高校和企业共同完成的长达200页的学术综述论文,有多达100名作者,分别来自于清华大学、北京大学等国内高校,哥伦比亚大学、蒙特利尔大学等国外高校,字节跳动、华为、京东、腾讯等企业以及中科院和北京智源等机构。

Nicholas Carlini在文章《机器学习研究中的一个抄袭案例》(“A Case of Plagarism in Machine Learning Research”)中则详细列举了该论文存在大段抄袭其他论文的嫌疑,证据是大规模的文本重叠,疑似被剽窃的论文也包括他自己的论文“Deduplicating Training Data Makes Language Models Better”。

Nicholas Carlini在文章中解释,他们是在阅读这篇论文时发现很多语句都非常的熟悉,然后通过使用论文查重工具发现了更多的证据,进而准确定位《关于“大模型”的路线图》论文中和已有论文中存在剽窃嫌疑的文本内容。

澎湃记者发现,这篇被质疑的论文目前已经被其发表网站Arxiv在页面上备注了该文和Nicholas Carlini的论文有“文本重叠”(text overlap)。

此前3月31日,北京智源社区撰文以《如何炼大模型?200页pdf100+位作者19家单位!北京智源清华唐杰等发布》介绍该篇论文:

“随着以深度学习为代表的AI技术的快速发展,智能模型的训练应用模式逐渐由‘大炼模型’向‘炼大模型’转变。大模型研究在近年来发展迅速,模型的参数量以惊人的速度扩展。北京智源人工智能研究院最近发布的《A Roadmap for Big Model》由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。非常值得关注。”

《关于“大模型”的路线图》中的研究主体“大模型”是近几年人工智能的热门关注领域。人工智能发展到今天,GPT和BERT等参数量巨大的模型被人们开发出来,他们在计算机视觉和自然语言处理等领域取得了前所未有的成就。同时,因为大模型参数量巨大,最近学术界开始将它们当作一类特别的人工智能模型进行研究。

在一篇去年发布的,由斯坦福教授李飞飞等领衔的约百名作者署名论文将此类模型称为“基础模型”(Foundation Model),这篇由清华主要参与的论文关注与此相同含义的“大模型”(Big Model)的未来研究路径。在清华的论文中,作者们介绍到“之前论文提及的'基础模型'在中文语境中也被称为‘大模型’”(“The mentioned foundation model is known as the BMs, and it is called Big Model in the Chinese context.” )。

这起“涉嫌抄袭”事件在国外社交媒体上引起热议。滑铁卢大学教授Gautam Kamath表示,对于一篇有如此多作者的文章,他很惊讶没有一个作者注意到相似之处并且去改正它。

 
作者:澎湃新闻记者 邵文
知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781