2022,大模型还能走多远

原创 精选
开发 开发工具 人工智能
本文是 2021 行业盘点第一篇——2021 大模型盘点。

[[442868]]

 作者丨云昭

本文是 2021 行业盘点第一篇——2021 大模型盘点。

2021 年是大模型层出不穷的一年。从去年 OpenAI GPT-3 发布开始,今年华为、谷歌、智源、快手、阿里、英伟达等厂商先后推出自己的大模型,人工智能产业开始了新一轮的激烈角逐,而且有愈演愈烈之势。作为探索通用人工智能的路径之一,AI 大模型不仅本身是一个可能产生原始创新与长期影响的领域,还将成为一个平台,催生更多世界级的成果。

概述

自 2018 年 Bert 大模型 的横空问世以来,华为、阿里、腾讯、谷歌、微软、英伟达等国内外各巨头纷纷重兵投入打造自己的大模型,将其视为下一个 AI 领域的必争的高地。

如此百家争鸣,这背后一定有着深层次且必然的原因。

众所周知,“难以落地”已成为制约人工智能“技术上水平”,“应用上规模”,“产业上台阶”的最大瓶颈。而进一步深究,则是高昂的开发成本和技术门槛形成了一道无形的壁垒,使得技术链与产业链严重脱节。这种生态上的脱节,必然导致“小作坊式”的 AI 开发模式。这就意味着耗时耗力、复杂繁琐的数据的收集、标注和训练工作需要重新来过,无疑加重了开发者的负担,企业的应用成本也随之增高。

而大模型的出现,意味着“工业化”开发模式的到来。

得益于大模型的高泛化能力和高通用性,它能把 AI 开发重新整合建立起一套通用的“预训练大模型 + 下游任务微调”流水线。面对不同的应用场景,这套流水线可以得到有效复用。开发者只需要少量行业数据就可以快速开发出精度更高、泛化能力更强的 AI 模型。

大模型发展现状

某种程度上看,大模型的规模发展速度似乎超过了摩尔定律。据统计,每年其参数规模至少提升 10 倍。2021 年,我们可以看到各大学术机构、科技企业都在投入重兵打造自己的大模型,并且对其能力边界、技术路径进行了极大拓展。

1 月,谷歌发布人类历史首个万亿级模型 Switch Transformer。

3 月,北京智源研究院发布悟道 1.0,6 月发布悟道 2.0,参数规模已经超过百亿。

4 月,华为云盘古大模型发布,这是业界首个千亿参数中文语言预训练模型,且并不仅仅局限于人工智能的某一个单独的领域比如自然语言处理 NLP,而是海纳百川,集 AI 多个热门方向于一身的全能型人工智能。

7 月,中科院自动化所也推出了全球首个三模态大模型:紫东·太初。其兼具跨模态理解和生成能力,可以同时应对文本、视觉、语音三个方向的问题。

8 月,实验室已经宣布, 将自研深度学习框架“河图”融入 Angel 生态, 北京大学与腾讯团队将联合共建 Angel4.0 ——新一代分布式深度学习平台, 面向拥有海量训练数据、超大模型参数的深度学习训练场景, 为产业界带来新的大规模深度学习破局之策。

9 月,浪潮发布巨量模型“源 1.0”,参数量达 2457 亿,训练采用的中文数据集达 5000GB,相比于美国的 GPT-3 模型相比,源 1.0 参数规模领先 40%,训练数据集规模领先近 10 倍。

11 月,英伟达与微软联合发布了 5300 亿参数的“MT-NLG”。

近日,阿里达摩院宣布其多模态大模型 M6 最新参数已从万亿跃迁至 10 万亿,规模超过了谷歌、微软此前发布的万亿级模型,成为全球最大的 AI 预训练模型。

如果说参数的直观对比类似外行看热闹,那么,落地能力才是大模型实力的真正较量。目前,在落地层面,各大科技巨头都在进行了相关的落地探索。

华为云盘古大模型在各行业应用方面,已经在能源、零售、金融、工业、医疗、环境、物流等行业的 100 多个场景实际应用, 让企业的 AI 应用开发效率平均提升了 90%。

另外,阿里达摩院研发的 M6,拥有多模态、多任务能力,其认知和创造能力超越传统 AI, 目前已应用在支付宝、淘宝、天猫业务上,尤其擅长设计、写作、问答,在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。

值得注意的是,目前大模型更多的是离线应用,在线应用上,还需要考虑知识蒸馏和低精度量化等模型压缩技术、项目实时性等一系列复杂的项目难题。

大模型的分类

1、按照模型架构划分:单体模型和混合模型。单体模型中比较出名的有:其中 OpenAI 推出的「GPT-3」、微软 - 英伟达推出的「MT-NLG」模型、浪潮推出的「源 1.0」等。混合模型包括谷歌的「Switch Transformer」、智源研究院的「悟道」、阿里的「M6」、华为云的「盘古」等。

其中,谷歌「Switch Transformer」采用 Mixture of Experts (MoE,混合专家) 模式,将模型进行切分,其结果是得到的是一个稀疏激活模型,大大节省了计算资源。

而智源「悟道 2.0」1.75 万亿参数再次刷新万亿参数规模的记录,值得关注的是它不再关注单一领域的模型开发,而是各种领域的融合系统。

2、按照应用领域划分:目前,大模型的热门方向包括 NLP(中文语言)大模型、CV(视觉)大模型、多模态大模型和科学计算大模型等。

目前,自然语言处理领域内热门单体大模型有:「GPT-3」、「MT-NLG」以及「源 1.0」等。惊喜的是,有研究表明,将 NLP 领域大获成功的自监督预训练模式同样也可以用在 CV 任务上,效果十分拔群。

大模型的卡点

大模型性能取得的一系列突破的同时,其背后逐渐凸显的卡点也开始备受社会关注。

首先,打造大模型并非易事,需要消耗庞大的数据、算力、算法等各种软硬件资源。而短期看,这种巨大的资源消耗,不仅对于企业和科研机构来说,无疑是一项沉重的负担,更与全球节能环保以及我国提出的双碳(碳达峰、碳中和)目标,是有所矛盾的。如何在有限资源的条件下实现大模型的低能耗进化,是一个不小的挑战。

其次,大模型尚缺乏统一的评价标准和模块化流程。大模型的研发尚处于初步探索阶段,市场中有条件的企业和机构纷纷展开角逐的同时,不可避免地会造成高质量的集中资源的再度分化,进而产生各种烟囱式的评判标准、分散的算法模型结构,进而可能导致的割裂的探讨评价体系。

再次,创新力度不足。大模型应用价值取决于其泛化能力,而不是参数规模越大越好。大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。目前业界过度强调高参数集、强算力模型的研发,而忽视了网络模型的创新、与行业的协同创新等问题。

最后,落地应用缓慢。业界人士普遍认为:AI 大模型最大挑战在于,如何让更多行业和场景真正付诸落地。目前看应用仍处于企业内部项目为主。如何改变这种闭门造车的局面,如何快速适配给应用场景,才是大模型的最大价值和难点。

大模型何去何从

1、大模型参数红利仍在

从百万、千万、亿再到千亿,万亿,大模型随着参数规模的增加,性能也如研究者预期一样,一直在不断接近人类水平。可以预见,未来一段时间,大模型的规模依旧有待提升。可能出现的变化是,人们不再仅仅增加算力,而更多是通过并行计算、软硬件协同等技术的支撑。值得关注的是,由于实际落地方面的考虑,一些小参数模型也在悄然兴起。

2、大模型走向多领域通用

大模型的初心,是令训练出来的模型具备不同领域的认知力,既能有泛化的能力,又能有自我进化的能力。比如 NLP 领域内的大模型,复用到 CV 领域已被得到极有效的证实;GPT-3 同样展现出了从海量未标记数据中学习,且不限于某一特定任务的通用能力。近期兴起的多模态预训练大模型就是最好的证明。大模型的未来需要创新,大模型将致力于构建通用的人工智能算法底层架构,将模型的认知力从单领域泛化到多领域融合,在不同场景中自我生长,向可持续、可进化的方向发展。

3、更易用的开源平台

大模型开放开源是大势所趋,这也是不少机构所致力推动的。微软、IDEA、智源研究院等大多机构的开源还处于浅层次,只是能调用算法包、排队等待训练的状况。未来的大模型要走出实验室,就需要走向算法体系、标准体系、基础平台、数据集、工程化测试等全方位的开放。

4、标准易用的工作流程

“预训练大模型 + 微调”的方式的确加速了 AI 开发者的步伐,但如果把与之相适应的工作流程给搭建起来,大模型将会在更多场景大放光彩。另外,大模型的评估未来会有标准化成熟的体系来衡量,这个体系也会是行业内公认的标准,规范模型的通用性、易用性,同时用这个标准来衡量大模型的优劣而不是如今自卖自夸式的标榜。

5、大模型能力的端侧化

未来,将大模型的一些运算存储等能力像芯片一样固化在一些端侧硬件设备中,在使用的过程中不用在重装的模型中耗时调用算力与数据,可以实现随时调用随时使用。现下的模型多是重装大模型,使用的话需要调用庞大的算力和运行时间,未来的大模型会逐渐改变这种模式。

大模型会有哪些商业模式

更多人关心大模型未来会有哪些商业模式。可以从三个层面想象:

1、把大模型作为底座。既可以把底座出售或租售给国家的创新中心、政府机构,也可以与之联合合作,做上层开发。

2、做开源。大模型涉及的许多技术问题单靠一家企业来解决是比较难的,可以通过开放技术的方式,用社区的力量共同解决,共享 IP,互惠互利。

3、提供给一般的 ISV(独立软件开发商)。让大模型从实验室走出来,直接去面对千行百业的客户,不太可行。通过把能力开放给 ISV,他们再去接触下游更多客户。有两种接触方式:一种是通过流量计费、或按项目计费;再一种是让使用者免费使用,通过流量广告变现。

总结展望

现如今,大模型的这种盛况,就与深度学习时代极其相似。然而,作为通向认知智能的高阶探索,大模型此后的路还有很远。能否持续提升自身的创新能力、泛化能力、落地能力,将会成为突破变革的关键。

也许在未来几年内,会逐渐形成这样一种状态:大模型作为基础的产业生态,用大算力训练出最高水平的智能,为各种 AI 应用提供源源不断的智能服务。而这一切,都需要时间去证明。

会议推荐

时至今日,人们对人工智能的期待已不止于感知智能,新一代人工智能正逐渐在多模态大模型的支持下向认知智能发起征程。未来人工智能热潮能否进一步打开天花板、形成更大的产业规模,认知智能的突破是关键。

2022 年 5 月 14 日至 15 日的 WOT 全球技术创新大会“认知智能发展新趋势”专题中,多位来自产业界与学术界的人工智能技术专家将围绕多模态多语种大模型与智能搜索推荐等方向,为大家带来深度技术分享。感兴趣的同学详情点击链接:​​http://wot.51cto.com/act/wot2021/dev?www1​​。





责任编辑:薛彦泽 来源: 51CTO技术栈
相关推荐

2020-11-24 19:33:20

Wi-Fi 6Wi-Fi 7频带

2018-05-11 10:36:47

2013-01-22 13:02:41

HTML5canvasWeb

2019-04-09 20:45:01

区块链AI人工智能

2013-01-24 10:26:04

HTML5HTML 5HTML5的未来

2022-06-20 21:52:38

元宇宙数字藏品

2015-08-24 10:43:42

2012-09-13 09:38:20

Win 8应用程序

2013-08-02 13:47:58

智能Android

2023-07-23 19:31:15

AI裁员

2021-09-24 15:37:21

人工智能

2010-03-24 16:44:31

2012-10-10 13:55:53

IT技术周刊

2021-03-14 15:48:59

比特币微博数字货币

2024-01-09 07:29:05

Argo代码库应用程序

2009-09-14 09:40:48

微软Linux代码

2012-04-01 09:31:05

2012-12-04 17:37:58

2019-05-22 09:48:29

区块链智慧城市

2012-11-02 13:56:28

云计算IT
点赞
收藏

51CTO技术栈公众号