1/2
如何让大模型实现通用人工智能?商汤董事长和MOSS负责人指出路径
上观新闻2023-04-13 16:53:00

商汤科技最近发布的“日日新SenseNova”大模型体系引发业内和公众关注。作为一个多模态大模型体系,它具备自然语言处理、数字人视频生成、大规模三维场景和精细化三维物件生成等能力,给用户带来了更多的应用场景。

不少业内专家认为,多模态大模型是实现通用人工智能的必由之路。所谓通用人工智能,就是机器像人一样,可以干很多事,不再局限于某些特定任务。“我们可以把语言、视觉等各个模态的信息连接成一个整体,形成对世界更深的认知,同时结合决策智能大模型,构建起有效的AGI(通用人工智能)实现路径。”商汤科技董事长兼首席执行官徐立说。

复旦大学教授、MOSS大模型研发负责人邱锡鹏认为,通用人工智能研究的一条重要途径,是将视觉、语音等多模态感知能力接入大语言模型,增强大模型与现实世界的交互能力。

开发出全球最大的视觉模型

商汤科技联合创始人、首席科学家王晓刚介绍,非通用人工智能系统的输入可以是多模态数据,包括文字、图片和语音,输出的任务也可以是多种,但是这些任务都是预先设计好的。如果让机器执行一种新的任务,就要重新设计人工智能系统,包括采集样本、对模型进行新的训练。

与之相比,通用人工智能模型聪明得多。用户只要输入合适的提示词,或用自然语言描述一个任务,它就可以生成多模态数据。“我们无须为新的任务改变模型本身,通过设计合适的提示词,就能覆盖海量、复杂的开放式任务,包括各种长尾任务和那些主观描述性的任务。”王晓刚说,“这对于人工智能的大范围推广有非常重要的意义。”

“日日新”的“秒画”平台根据文字生成的图片

微软公司近日发表的测评论文说,GPT-4能力的广度和深度显示,它可以被视为通用人工智能系统的雏形——不仅有很强的自然语言处理能力,而且能识别各种图片,从烹饪食材到网页草图,它都能看懂并执行相关任务。

谈及视觉智能和语言智能,徐立说,目前已知最大语言模型消耗的语言数据量是2万亿个token(标记),而据统计,人类文明产生的高质量语料数据总量是9万亿左右token,所以在发展迅猛的大语言模型训练领域,很快会出现高质量语料被机器“消化”完的局面。“那么更多的世界信息,我们是怎么获得的?人类是视觉动物,80%的信息通过眼睛来获取,人脑神经元处理视觉和语言的连接数比例是10∶1。自然语言是人类对世界的高度压缩表达,我们通过语言可以很快地了解世界,但是一定会有更多的信息从视觉中获得。”

基于这一理念,商汤开发出有320亿参数的视觉大模型,这是目前全球最大的视觉模型。“未来,通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四个方面,像人一样接收各类信息,执行各种任务。”王晓刚说。

国内大模型欠缺“读图”能力

邱锡鹏也认为,通用人工智能大模型不会像ChatGPT那样局限于自然语言处理,而是会处理图片、视频、语音等其他模态的数据,并能通过联网搜索获取新的知识。

在通往AGI的道路上,GPT-4如今处于全球领先地位。用户除了输入文字,还可以输入图片,让它“读图”并输出文字或代码。OpenAI的产品发布会上,公司员工输入一张有4种食材的照片,并问GPT-4:“我们能用这些食材做什么?”它马上会罗列多种菜肴和点心。研发人员还演示了GPT-4能识别他手绘的一张网页草图,并根据草图写出网页的前端代码。虽然这个网页很简单,但它的“读图编程”还是令人惊艳,显示出较高的图片理解和编程能力。

GPT-4 根据网页草图给出了前端代码。

“目前,像GPT-4那样可以理解各种图片的大模型还很少。一些模型可以根据用户输入的文字生成各种风格的图片,但不具备根据用户输入的图片生成文字的能力。”邱锡鹏说。在他看来,“读图”是通用人工智能大模型的基本能力之一。阿里等国内企业已在这方面有所布局,希望早日达到GPT-4的智能水平。

语言和视觉大模型有望融合

除了语言大模型,视觉大模型也有很大的应用价值。业界将百亿级参数的自然语言处理模型称为大语言模型,ChatGPT的参数量达到千亿级。与语言大模型相比,视觉大模型的参数量普遍较少,商汤开发的320亿参数视觉大模型排名全球第一。

视觉大模型可以完成什么任务?发布会上,商汤展示了“如影SenseAvatar”数字人视频生成平台。用户只要输入一段5分钟真人视频素材,这个平台就能生成声音和动作自然、口型准确、会说多种语言的数字人分身。

“如影”平台根据真人视频生成的数字人视频(截屏画面)

“我是一个数字人,我的动作、表情以及我说的话,都是由AI生成的。我可以在数字世界里一直活下去,你也可以哦。”视频里,一个看上去是真人形象的姑娘介绍了“如影”平台。用手机录制一段5分钟人物视频后,上传平台,视觉大模型就能生成他的数字人分身。随后,用户可以为数字人“换装”,再让他成为各类视频的主角,如直播带货、线上教学、主题宣传。这些视频产品都能一键生成,节省大量摄制成本。

一些专家预测,语言大模型和视觉大模型未来会混合,打造出混合式大模型,使语言智能和视觉智能更紧密地融合在一起,加快实现通用人工智能的进程。

知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781