一、 AI 带动万亿蓝海市场,“模型+数据+算力”为产业 核心壁垒
(一)AI 产业历经 70 年发展,终将迎来第四次工业革命
AI 历史发展余 70 年,经历多发展阶段,最早可追溯至上世纪初期。AI 目前已渗透至日 常生活方方面面,在医疗保健、汽车、金融、游戏、环境监测、农业、体育、能源管理、安全 等各个领域的大量应用正改变人类的生活、工作和娱乐方式。这些技术的进一步发展将迎来 第四次工业革命。,造成这一现象的原因包括计算机技术的进步(高性能计算、网格和云计算)、 代码共享度提高(GitHub、GitLab、BitBucket 等服务)以及大量开源软件。AI 将为企业和国 家经济系统提供革命改变,商业领域,人工智能带来的优势包括快速揭示大数据中的模式、 快速进行可视化和分析、改进产品设计等等,并进一步有望提升服务水平、增利润、扩大业 务、提高效率和成本结构。
当前正处于第四次工业革命的风口浪尖,正处于新一轮产业变革制高点。当下全球正在发 生的第四次工业革命是人工智能、智慧网联时代,以超大数据、超强算力、超强算法的人工智 能为核心技术,以智能家居、智能音箱、智慧城市、智能汽车和手机为数据入口的智能终端产 品正加速 AI 时代的进化。
(二)产业规模扩容厂商竞入新蓝海,国家政策 AI 发展
全球 AI 产业规模预计 2030 年将达到 1500 亿,未来 8 年复合增速约 40%。目前全球人工 智能企业的数量迅速增长,2022 年,全球人工智能(AI)市场规模估计为 197.8 亿美元,预计 到 2030 年将达到 1591.03 亿美元,从 2022 年到 2030 年,复合年增长率为 38.1%。 从地区上来看,美中欧暂时领先,格局仍未确定。其中 AI 市场美国领先,中国和欧盟并 驾齐驱。截至 2017 年,全球人工智能企业主要集中在美国(2905 家)、中国(670 家)和欧盟 (657 家),合计份额为 70.01%。目前,美国仍是人工智能的核心发源地之一,其 他国家也在迅速跟进人工智能的研发。国内北京人工智能发展领跑全国,上海、广东、江苏、 浙江等地发展逐渐加快。
2022 年中国人工智能产业规模达 1958 亿元,年增长率 7.8%,整体稳健增长。而从应用 格局来看,机器视觉、智能语音和自然语言处理是中国人工智能市场规模最大的三个应用方向。 根据清华大学数据显示,三者占比分别为 34.9%、24.8%和 21%。一方面,政策推动下国内应 用场景不断开放,各行业积累的大量数据为技术落地和优化提供了基础条件。另一方面,以百 度、阿里、腾讯和华为为代表的头部互联网和科技企业加快在三大核心技术领域布局,同时一 系列创新型独角兽企业在垂直领域快速发展,庞大的商业化潜力推动核心技术创新。
AI 场景丰富,多垂直细分领域均有应用。 科技的持续研究和创新正在推动人工智能技术在行业垂直领域的应用,如汽车、医疗、零 售、金融和制造业。例如,2020 年 11 月,英特尔公司收购了 Cnvrg.io,为数据科学家建立和 运行机器学习模型开发和运营平台,以促进其人工智能业务。深度学习和 ANN(人工神经网 络)的进步也推动了人工智能在航空航天、医疗保健、制造和汽车等多个行业的应用,Google 一直在采用 ANN 来改善路线,并处理使用 ANN 收到的反馈。计算机视觉技术的最新进步, 如 GAN(Generative Adversarial Networks)和 SSD(Single Shot MultiBox Detector),已经促成 了数字图像处理技术的诞生,这些技术可以使在低光或低分辨率下拍摄的图像和视频转换为 高清质量,计算机视觉的持续研究为安全与监控、医疗保健和运输等部门的数字图像处理奠定 了基础。
在人工智能不同的垂直应用领域中,广告和媒体部门引领市场在 2022 年占全球收入份额 的 19.5%以上,这一高份额归因于人工智能营销应用程序不断地增长。预计到 2030 年,医疗 保健部门将获得最大份额。基于机器人辅助手术、减少剂量错误、虚拟护理助理、临床试验参 与者标识符、医院工作流程管理、初步诊断和自动图像诊断等用例,医疗保健部门已独树一帜。
在国内,机器视觉领域是人工智能应用最多最广的板块。2022 年机器视觉 相关投融资浪潮高企,工业、泛安防、能源赛道热度高涨,持续受到资本青睐。 近两年来是 AI 产业上市最火爆的细分赛道,涌现了商汤科技、格灵深瞳、云从 科技、奥比中光等 IPO 企业, 2022 年我国机器视觉产品的市场规模达到 830 亿 元。同时,庞大的市场牵引科技研发,我国在全球机器视觉技术创新上已位居世 界前列。截至 2021 年 8 月,中国机器视觉专利申请量占全球机器视觉专利总申 请量的 78.7%;其次是美国,占比为 14.2%。
国家政策不断发力,助力中国 AI 成长。近年来,人工智能产业发展受到国家层面的重视, 相关政策频出。2017 年,国务院出台《新一代人工智能发展规划》,成为中国人工智能发展的 指导性文件;国家发改委、中央网信办、工信部等部门陆续发布人工智能相关细则,部署人工智能发展计划。近五年来,中国政府凭借在人工智能产业发展中强有力的领导地位,发挥资源 聚集的制度优势。国家坚持“市场导向”,秉持开源开放原则,在推动产学研用多主体共享成 果的同时还加强军民深度融合,实现创新资源共享和科技成果双向转化,不断通过政策更好地 引导人工智能产业全方位快速发展。
(三)人工智能发展三驾马车——模型、数据和算力
人工智能产业链按照上下游可以分为人工智能基础层、人工智能技术层、人工智能应用层。 其中,上游人工智能基础层将 AI 分为模型、算力和数据三大要素。AI 模型生产工具包括 AI 算法框架、AI 开放平台、AI 开发平台和预训练模型;AI 算力基础领域包括 AI 芯片、智能服 务器和云服务;AI 数据资源包括 AI 基础数据服务和数据治理。人工智能技术层包括计算机视 觉、智能语音、自然语言处理、知识图谱、机器学习。人工智能应用层则很广泛,涵盖“AI+ 泛安防”、“AI+泛互联网”、人机交互、自主无人系统、“AI+媒体”、“AI+金融”、“AI+医疗”、 “AI+工业”、“AI+零售”、“AI+政务”等应用,涉及经济社会运行的方方面面。
1、模型
人工智能框架一直在蓬勃发展,各种框架在开发者的不断开发和自然选择的基础上不断 迭代。经过激烈的竞争,最终出现了双雄并立的 TensorFlow 和 PyTorch 的两大阵营。随后,迁 移学习(Transfer learning)成为开发大规模人工智能模型的流行技术,使研究人员能够利用预 先训练的模型来提高新任务的性能。在此期间,注意力机制(Attention mechanisms)也出现了, 允许模型有选择地关注输入数据的某些部分。 2017 年,Transformer 模型的引入标志着自然语言处理的重大突破,使模型能够大规模地 生成类似人类的语言。预训练大模型的基本原理是充分利用大规模的数据,以挖掘数据中的知 识和规律,类似接受人类的通识教育。再针对特定的任务,进行参数微调,可以达到智能对话、 智能问答、智能创作、人脸识别等功能,并且进入可大规模、可复制的大工业落地阶段。在算 法模型层面,超大规模模型成为近几年来最热门的发展之一。
2018 年 OpenAI 推出了非常强大的预训练语言模型 Generative Pre-trained Transformer (GPT),结果表明这一模型可以在非常复杂的 NLP 任务中取得非常惊艳的效果,而且并不需 要有监督学习进行模型微调。同年,谷歌的雅各布·德夫林和同事创建并发布了 BERT (Bidirectional Encoder Representations from Transformers)。BERT是一个双向transformer模型, 用于对大量未标记的文本数据进行预训练,以学习一种语言表示形式,这种语言表示形式可用 于对特定机器学习任务进行微调。虽然 BERT 在几项任务中的表现都优于 NLP 领域沿用过的 最先进的技术,但其性能的提高还是归功于双向 transformer、掩蔽语言模型对任务的训练以及 结构预测功能,还包括大量的数据和谷歌的计算能力。此后,基于 BERT 的改进模型包括 DistillBERT、XLNet、RoBERTa、T5 等大量新式预训练语言模型不断涌现。
2019 年,OpenAI 继续推出了带有 15 亿参数的 GPT-2,这一改进后的模型能够生成连贯 的文本段落,做到初步的阅读理解、机器翻译等。接着,英伟达推出了具有 83 亿参数的 Megatron-LM,谷歌继续推出了具有 110 亿参数的 T5 模型,微软推出了 170 亿参数的图灵 Turing-NLG。 2020 年,OpenAI 又推出了超大规模的语言训练模型 GPT-3,参数量达到了 1750 亿之高, 实现了模型参数从亿级到上千亿的跨越。此后,谷歌、华为、阿里巴巴和北京智源等企业和研 究机构纷纷推出超大规模的预训练模型,包括 MT-NLG、Switch Transformer、盘古和悟道 2.0 等。预训练的模型参数数量和训练数据量正以每年 300倍的趋势增长,通过增加模型参数和训 练数据仍是短期内的发展方向。
2022 年 11 月,OpenAI 推出建立在 GPT-3 系列大型语言模型之上的 ChatGPT,并使用监 督和强化学习技术进行微调。ChatGPT 在技术路径上采用“大数据+大算力+强算法=大模型” 的战略,又在“基础大模型+指令微调”方向探索出新道路,基础大模型类似人类的大脑,通 过指令微调进行交互训练,结合实现近似人类的语言智能。ChatGPT 的问世不仅是新一代聊天 机器人的突破,还将为人工智能和整个信息产业带来一场革命。2、数据
在算法模型发展的同时,对于数据规模和质量的要求也在不断提高。以 GPT 的发展历程 来看,用以训练模型的数据集的广度和深度都在不断加强,使得模型的回答具有更高的准确性 和质量,实现模型的不断优化。 GPT 使用 BooksCorpus 数据集来训练语言模型。BooksCorpus 有大约 7000 本未出版的书 籍,有助于在未见过的数据上训练语言模型。另外,这个语料库有大量的连续文本,有助于模 型大范围地学习依赖关系。GPT-2 使用的训练数据集名为 WebText,具有来自 800 多万份文件 的文本数据,总规模为 40GB,与用于训练 GPT-1 模型的图书语料库数据集相比是巨大的。 GPT-3 是在五个不同的语料库中混合训练的,每个语料库都有一定的权重。其中高质量的数据 集被更频繁地取样,并且不止被训练过一个 epoch。使用的五个数据集是 Common Crawl, WebText2, Books1, Books2 和 Wikipedia。用于训练 ChatGPT 的具体数据集没有公开披露,但仍 然是几个大型语料库的组合,并且数据规模比 GPT-3 进一步增大。
3、算力
自从进入互联网时代,人类所能获取和利用的数据呈现爆发式地增长,各行业、各场景的海量数据为人工智能的自主学习和模型训练提供了数据基础。而自人工智能的概念兴起,算法 模型一直在不断优化,从决策树到神经网络,从机器学习到深度学习,并且已在不同的领域中 得到应用。算力是基于芯片的人工智能发展的硬件基础和平台,随着海量数据的产生和算法模 型的不断优化和发展,算力的发展成为了人工智能系统快速发展的核心要素。从 1956-2020 年, 计算机处理能力的 FLOPS 增加了一万亿倍。
近几年,大量复杂的数据的收集和处理都需要硬件能力的相应增长,以应对人工智能发展 的需求。基本上,计算能力是计算机以速度和准确性执行某种任务的能力。正如 OpenAI 的研 究表明,训练最大的人工智能模型所需的计算能力,自 2012 年以来平均以每 3.4 个月翻一倍 的速度增长。而在 2012 年之前的情况并非如此,当时计算能力平均以 2 年的速度翻倍。这意 味着,今天使用的资源正以比以前快七倍的速度翻倍。从另一个角度而言,在线性尺度上,计 算用量在 2019 年之前就增加了 30万倍,表明对人工智能特定硬件的需求呈指数级增长。
(四)互联网行业巨头积极布局,AI 竞赛压力不减
1、微软——投资 OpenAI,探索 AI 在在多场景落地
14 年起推动 AI 领域布局,逐步探索 AI 商业模式落地。作为互联网行业的领先者,微软 过去专注于继续开发 Windows 和 Office 应用程序。2014年,随着首席执行官 Satya Nadalla 的 任命,微软开始向人工智能战略转变,推动微软在人工智能创新方面的发展。2016 年,微软成 立了人工智能实验室,致力于推广和开发基于人工智能的应用程序。2017 年,微软宣布收购 于以深度学习为研究重点的初创公司 Maluuba,并将人工智能的运用延伸到空中。同年,微软 和亚马逊宣布建立合作伙伴关系,意味着微软人工智能开发的工具和服务,如 Cortana,Office 365 将与 Alexa 等亚马逊服务交互。2018 年,微软又相继收购多个 AI 公司,探索深度学习的 商业化模式。
多次投资 OpenAI,在人工智能领域探索更进一步。 2019 年,在微软于首次向 OpenAI 注资后,两家公司开始在微软的 Azure 云计算服务上 合作开发 AI 超级计算技术,同时,OpenAI 也逐步将其云服务从谷歌云迁移到 Azure。有了微 软的算力支持,OpenAI 在 2020 年推出了突破性的成果 GPT-3。同样在 2020 年,微软买断了 GPT-3 基础技术的授权,在 Office、搜索引擎 Bing 和设计应用 Microsoft design 等产品中使用 GPT-3,以优化现有产品。 2021 年,微软再次投资,双方合作正式进入第二阶段。一方面,作为 OpenAI 的云服务 商,微软在 Azure 中集中部署 GPT、DALLE、Codex 等 OpenAI 开发的各类工具。这也形成了 OpenAI 最早的收入来源,即通过 Azure 向企业提供付费 API 和 AI 工具。同时,在获得 OpenAI 新技术商业化许可的情况下,微软开始将 OpenAI 工具与自己的产品深度整合,并推出相应的 产品。2021 年 6 月,微软与 OpenAI 和 GitHub 合作,推出了基于 Codex 的 AI 代码补充工具 GitHub Copilot,于次年 6 月上线。2023 年,微软向 OpenAI 追加投资数十亿美元,彻底拉开了人工智能军备竞赛的帷幕,同时微软将 ChatGPT 整合到其搜索引擎中,标志着 OpenAI 新 技术的商业化进入新阶段。
在 2023 年 3 月,OpenAI 又推出了 ChatGPT 的升级版——GPT-4,迭代速度极快。其包 含的重大升级是支持图像和文本的输入,并且在 GPT-3 原来欠缺的专业和学术能力上得到重 大突破,它通过了美国律师法律考试,并且打败了 90%的应试者。在各种类型考试中,GPT-4 的表现都优于 GPT-3。
2、谷歌——引领人工智能驱动商业化创新
谷歌是人工智能发展中最重要的公司之一。2010 年谷歌推出其第一个人工智能驱动的搜 索引擎算法,称为 Google Instant。2012 年,谷歌推出知识图谱,首次使用人工智能来理解不 同实体之间的关系。2015 年,谷歌推出了 TensorFlow,用于机器学习的开源软件库。2016 年, 谷歌 DeepMind 的 AlphaGo 程序在围棋比赛中击败了世界冠军李世石。2017 年,谷歌推出了 谷歌助理,一个可用于智能手机和智能家居设备的对话式人工智能助理。 自 2017 年,谷歌发布 Transformer 以来,NLP 领域的技术发展得到了质的飞跃,基于谷歌 的成果,OpenAI 在 2018 年发布了 GPT 生成式预训练模型,也就是基于 Transformer Decoder 的 GPT-1,带有 1.1 亿参数,通过大规模、无监督的预训练+有监督的微调,在大型数据集上进 行训练而建立的模型。与此同时,在 2018 年 10 月,谷歌推出了具有开创性的 BERT 模型,具 有 3.4 亿个参数,比 GPT 大四倍并几乎在所有性能方面都超越 GPT。
3、百度——All in AI,十年布局长跑
All in AI,十年布局长跑。百度在 AI 领域的布局早在 2010 年前就开始了。百度早在 2010 年代初就开始投资于人工智能技术。2014 年,百度成立了深度学习研究院(IDL),专注于开 发深度学习算法和其他 AI 技术。2015 年,百度的语音识别软件实现了 5.5%的最低单词错误 率(WER)记录。这是语音识别技术发展的一个重要里程碑,确立了百度在该领域的领先地 位。在 2016 年 9 月的百度世界大会上,整合了视觉、语音、自然语言处理、知识图谱、深度 学习等技术的百度大脑正式对外开放。2017 年,百度推出了阿波罗自动驾驶汽车平台。该平 台为开发者提供一系列工具和资源,以建立自动驾驶系统。2018 年,百度推出了名为百度健 康的医疗部门。该部门专注于使用人工智能来改善医疗诊断、药物开发和医疗保健的其他方面。 2018 年,百度发布了其 AI 芯片“昆仑芯”,该芯片旨在用于人工智能应用,如自动驾驶和语 音识别。
百度在 AGCI 中的全栈布局:算法、算力、数据、应用。百度官方宣布:文心一言云服务 于 2022 年 3 月 27 举行新品发布会。官方展示了文心一言在文学创作、商业文案创作、数理 推算、中文理解、多模态生成五个使用场景中的综合能力。在文心一言的背后,是经过四年迭 代的文心大模型。文心 ERNIE 自 2019 年诞生至今,在语言理解、文本生成、跨模态语义理解 等领域取得多项技术突破,在公开权威语义评测中斩获了十余项世界冠军。文心模型的训练是 基于百度飞浆的框架,在飞浆技术不断迭代的基础上,文新大模型一次性发布了 11 个大模型, 涵盖了基础大模型、任务大模型和行业大模型三个层次的体系,充分满足了行业的应用需求。 例如用于语言生成的 ERNIE 3.0 Titan,用于文本和图像生成的 ERNIE-ViLG 模型。目前,百 度飞桨凝聚了 265 万开发者、服务了 10 万家企业、创建了超过 34 万个模型。
百度自行研发的 AI 芯片,单卡算力达到 128TFLOPS。昆仑芯是基于百度在人工智能领 域多年的产业实践,自主研发的一款人工智能通用处理器芯片。新发布的 R200 人工智能加速 卡基于第二代昆仑芯,采用领先的 7nm 工艺,基于先进的芯片架构,专为深度学习和机器学 习算法的云端和边缘计算设计。与上一代产品相比,R200 全面提升了计算机视觉、自然语言 处理、大规模语音识别、大规模推荐等应用的人工智能负载的运行效率。
在数据层面,百度基于其搜索引擎业务,积累了大量的真实用户数据。这些大规模的数据, 使文心一言形成自身优势,为文心大模型的训练提供数据基础。产品中文心一格和文心百中已 成功落地。文心一格是一个 AI 艺术和创意辅助平台,文心百中是大模型驱动的产业级搜索系 统。
AIGC 的全球巨头争夺战已经开始,深耕 AI 和搜索领域多年的百度正站在一个新的历史 舞台上,将于 2019 年 3 月推出的文心一言模型,是中国科技力量参与全球 AIGC 竞赛的主要代 表。
二、英伟达举办 GTC2023,关注高性能计算相关领域壁垒
Navida 召开 GTC 发布会,展示算力芯片在多领域的突破进展。2023 年 3 月 21 日 ,英 伟达召开 GTC ,CEO 黄仁勋进行了主题演讲,展示英伟达算力芯片咋 AI 应用、加速卡领域 取得进展,目前已成为自然科学、化学制药、视觉解析、数据处理、 机器学习和大模型领域 成为不可或缺的一环。
AI 产业迎来“iPhone”时刻,英伟达 DGX 计算机已成 AI 核心处理器。目前英伟达已向 OpenAI 交付首台 DGX AI 超级计算机,用于加速深度学习、人工智能应用,《财富》100 强企 业中已有一半以上企业开始使用 DGX,例如:BMW 应用 DGX 被用于加速 BMW 汽车自动驾 驶系统的开发和训练;Tencent 应用 DGX 被用于加速腾讯云的人工智能服务的开发和运营;美 国国家航空航天局利用 DGX 被用于加速 NASA 进行气象和环境数据的分析和预测。 从参数上来看,DGX 具备满足高性能计算和 AI 学习的需求。GPU 采用 8 片英伟达 A100 Tensor Core GPU,共有 6912 个 CUDA 核心和 432 个 Tensor Core, 单精度计算性能为 320TFlops.CPU 采用两颗英特尔 Xeon Platinum 8280L 处理器,共有 56 个核心;每个 DGX 系 统配备 1.5TB 的 DDR4 内存;每个 DGX 系统配备 15TB 的 NVMe 存储器,同时支持 100Gb Ethernet 和 Infiniband HDR 网络。DGX 具有强大的计算性能、高效的数据传输速度、大容量的 存储空间和稳定的供电系统,能够满足各种深度学习和人工智能应用的需求。
英伟达推出 AI Foundations 云服务,从 NEMO、PICASSO、BIONEMO 三方面渗透 AI场景。AI Foundations 一站式云服务,从模型的构建到生成应用上线,,协助客户快速构建、优 化和运营大模型,把制造大模型的能力传递到每一个用户。
NVIDIA NeMo 是一个基于 PyTorch 的开源工具包,用于自然语言文本的生成式模型。 提供 80 亿、430 亿、5300 亿参数的 GPT 模型,客户也可以引入自己想要的模型。Nemo 会 定期更新额外的训练数据,可以帮助企业为客服、企业搜索、文档处理、市场分析等场景定制 生产生成式 AI 模型。
PICASSO (Parallel-n-Core Architecture Simulator for Scalable Oltp) 是一个用于模拟大 规模多核处理器架构的开源模拟器,用于训练能够生成图像、视频和 3D 素材的模型。NVIDIA 与 Adobe 宣布扩展双方的长期研究和开发合作关系,共同推动下一代生成式 AI 模型,为加快 优秀创作者和营销人员的工作流程,其中一些模型将采取联合开发的方式,并 NVIDIA Picasso 进入市场。同时,NVIDIA 正与 Getty Images 联合训练负责任授权的生成式文本转图像以及文 本转视频基础模型,这些模型将使用简单的文本提示创建图像和视频,并将在 Getty Images 完 全授权的资产上进行训练。
BioNeMo 服务提供用于化学和生物学的 LLM。NVIDIA BioNeMo 框架用于训练和部署超 算规模的大型生物分子语言模型,帮助科学家更好地了解疾病,并为患者找到治疗方法。该大 型语言模型(LLM)框架将支持化学、蛋白质、DNA 和 RNA 数据格式。
发布 H100 NVL 服务器,相比 A100 DGX 提供 10 倍的计算速度。GTC2023 同时发布 H100 NVLINK,这款 H100 GPU 启用了基本完全的 94GB HBM 显存堆栈。最大区别在于,双 GPU 结构,顶部使用 3 个 NV Link 连接器进行互联,因此可以提供多达 188GB 显存,显存带宽也 不止翻倍,每个 GPU 带宽提供 3.9TB/s,而 H100 SXM为 3.35TB/s,H100 PCIe 为 2TB/s。H100 NVL 综合性能可以达到 H100 SXM 的两倍。
(二)大算力场景下,多项技术瓶颈期待突破
大算力背景下,存算性能呈现剪刀差,存储器件性能远弱于算力性能提升。随着 AI 算力 需求的不断提升,传统存储器件也到达了尺寸的极限。依靠先进制程工艺不断缩小器件面积、 同时提升算力的方式似乎已经走入死路。我们突破 AI 算力困境的方式,有着两条清晰的路线: 架构创新与存储器件创新。“存”“算”之间性能失配,从而导致了访存和成本优化,带宽低、 时延长、功耗高等问题,即通常所说的“存储墙”和“功耗墙访存愈密集,“墙”的问题愈严 重算力提升愈困难。随着以人工智能为代表的访存密集型应用快速崛起访存时延和功耗开销 无法忽视,计算架构的变革显得尤为迫切。
冯诺依曼架构,导致数据传输的 90%功率消耗都在数据传输上,99%的时间都消耗在存 储器读写过程中,导致“存储墙”和“功耗墙”问题。冯诺依曼架构的芯片在工作时,计算单元要 先从内存中读取数据,计算完成后再存回内存,才能最终输出。在过去,存储器与处理器的发 展严重失衡,自上世纪八十年代以来,存储器读取速率的提升远远跟不上处理器性能的增长。 这导致了计算畸形的漏斗结构:无论处理器所在的漏斗“入口”一端处理了多少数据,也只能通 过存储器狭窄的“出口”输出,严重影响了数据处理的效率。
AI 训练未来的瓶颈不是算力,而是 GPU 的“内存墙”。无论是芯片内部、芯片间,还是 AI 加速器之间的通信,都已成为 AI 训练的瓶颈。其中,Transformer 模型中的参数数量(红色) 呈现出 2 年 240 倍的超指数增长,而单个 GPU 内存(绿色)仅以每 2 年 2 倍的速度扩大。尽 管在日常 GPU 使用中,对“内存墙”的存在并不敏感,但是 AI 模型的内存需求,通常是参数 数量的几倍。因为训练需要存储中间激活,通常会比参数(不含嵌入)数量增加 3-4 倍的内存。 于是,AI 训练不可避免地撞上了内存容量以及内存传输带宽的墙。
(三)存算一体化趋势确定,HBM 与 Chiplet 实现降本增效
全球半导体厂商已提出多种解决方案,存内计算电路可基于 SRAM 和 NOR Flash 实现。 AI 对数据的访问和不断调取需要数据需要在存储单元和计算单元之间频繁移动,访存带宽和 功耗成为算法的重要瓶颈之一。存算一体将存储单元与计算单元直接结合在一起,绕过数据在 存储和计算之间的搬运环节。当前 NOR Flash、SRAM 等传统器件相对成熟可率先开展存内计 算产品化落地推动,从方案落地情况来看,英特尔选择基于 SRAM 的可配置存储器,三星选 择在 DRAM 的 DRISA 架构上进行存算一体解决方案。
存算一体架构可突破冯诺依曼瓶颈,提高 AI 芯片能效。存算一体架构消除了计算与存储 的界限,直接在存储器内完成计算,被认为是突破冯诺依曼瓶颈的极具潜力的高能效 AI 芯片 架构。目前主流的存算一体 AI 芯片基于模拟计算架构设计。模拟存算一体架构通常基于 SRAM 或非易失存储器,模型权重保持在存储器中,输入数据流入存储器内部基于电流或电压实现模 拟乘加计算,并由外设电路对输出数据实现模数转换。由于模拟存算一体架构能够实现低功耗 低位宽的整数乘加计算,非常适合边缘端 AI 场景。
HBM 的高带宽技术,从硬件上实现高速传输。高带宽存储器(HBM)可支持更高速率的 带宽,基于 TSV 和芯片堆叠 技术的堆叠 DRAM 架构,可实现高于 256GBps 的突破性带宽, 单颗粒的带宽远超过 DDR4 和 GDDR6。其中 DDR4 是 CPU 和硬件处理单元的常用外挂存 储设备,8 颗 DDR4 颗粒带宽能够达到 25.6 GB/s,是 HBM 的 1/10,而 GDDR6 它单颗粒的带 宽只有 64 GB/s,为 HBM 的 1/4。
先进工艺是芯片算力提升的关键推动力,“后摩尔时代”先进封装不断发力。目前通过工 艺提升芯片算力,主要有两种方式。1)先进制程:单位面积芯片算力会随着工艺节点的进步 而提升,从 65nm 到 90nm 制程下的 GPU,先进工艺节点晶体管密度和工作频率均显著提高, 从而带来芯片整体算力的提升。根据摩尔定律经验,集成电路上可以容纳的晶体管数目每 18 个月便会提升 1 倍,然而随着先进制程进入 3nm 时代,摩尔定律已经受到了物理极限和工艺 成本的双重挑战。2)先进封装:先进封装可以优化连接方式、实现异构集成、提高芯片的功 能密度,从而提升芯片算力,因而是超越摩尔定律方向中的重要赛道。21 世纪初,以 MEMS、 TSV、FC 等为代表的先进封装技术引领封测行业发展,目前平面封装正在向 2.5D/3D chiplet 堆叠异构集成封装技术升级跃迁,为芯片算力提升带来了新思路。
Chiplet 解决方案是底层基础,2.5D 和 3D 封装蓄势待发。Chiplet 技术是将大型单元芯片 划分为多个相同或者不同的小芯片,这些小芯片可以使用相同或者不同的材质、工艺节点制造, 再通过先进的集成技术封装在一起形成一个系统级芯片,降低成本的同时获得更高的集成度。 目前寒武纪思元 370 系列产品就是在封装层面上,采用 Chiplet 技术,将两颗 370 芯片拼凑成 算力更强、带宽更大的处理器模块。
2.5D 封装技术是将芯片并排放置在中介层顶部,通过芯片的微凸块和中介层中的布线联 系起来;3D 封装技术则无需中介层、芯片直接通过 TSV 直接进行高密度互连。通过 2.5D/3D 技术封装技术,可以在单位体积内集成更多的功能单元,并且这些功能单元之间互联很短,密 度很高,因此性能可以得到很大的提升,算力水平也会提高。目前已有多家公司陆续布局 2.5D/3D 封装技术,封装领域将迎来又一次技术革命。
三、AI 商业落地曙光出现,ChatGPT 引爆大算力需求
ChatGPT 是美国 OpenAI 公司开发的一款可实现精确问答的聊天机器人。ChatGPT 是由 GPT(Generative Pretrained Transformer)技术驱动,使用海量语料库进行训练的语言生成器。 与其他语言生成器相比,GPT 技术采取了预训练生成器的方式,能够更好的理解人类语言的描 述和数据中的知识,自动生成匹配内容且自然流畅的语言,并具有实现翻译、撰写邮件等各类 语言相关任务的能力,大大提高了用户体验。因此,在 2022 年 11 月 ChatGPT 推出后,迅速 引爆市场,2 个月内月活跃用户数便达一亿,成为了历史上用户增长最快的消费应用。
ChatGPT 参数量的提升代表了 AI 大模型的最新进展。AI 大模型(人工智能预训练大模 型)指的是兼具“大规模(亿级参数)”和“预训练”两种功能属性的模型。从参数规模来看, AI 大模型的发展可以分为预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。 ChatGPT 的发展也反应了 AI 大模型的发展趋势,2018 年 OpenAI 发布的 ChatGPT 1.0 的模型 参数为 1.17 亿,2019 年的第二代模型参数为 15 亿,ChatGPT 3.0 的参数相比于 ChatGPT2.0 增 长了近百倍,达到了 1750 亿。 ChatGPT 的 AI 文本生成技术也是 AI 音视频、游戏等领域的底层技术,因此 ChatGPT3.0 的突破也将为 ChatGPT4.0 和 AIGC 领域提供更多的可能性,比如生成视频等。根据微软德国 公司 CTO Andreas Braun 对 ChatGPT4.0 的预告,其参数量将为 3.0 的数倍,并拥有多模态模 型。
AI 大模型突破传统 AI 适用性弱的局限,但是依旧面临商业化难的问题。传统的 AI 模型 通常只针对性的针对一个或者一类任务,而 AI 大模型中大规模的参数量可以提升模型的表达 能力,更好的建模海量训练数据中包含的通用知识,再通过“微调”使大模型在特定化的场景 中依旧得到优越的表现。通过“预训练+微调”,AI 大模型已经具有强大的通用性,ChatGPT3.0 通过 prompt-tuning 免去微调步骤实现了更强的通用性。但是由于 AI 大模型的技术成本高昂 并且决策过程难以解释,如何真正的商业化落地始终是 AI 产业中的难题。 ChatGPT 率先在 C 端实现商业化,为 AIGC 产业落地带来曙光。2019 年 OpenAI 与微软 合作,从非盈利性组织转为有限盈利公司,目前 ChatGPT 主要通过三种方式产生商业化收入。 1)API 许可费:将 GPT-3等模型开放给其他商业公司使用,根据用量收取费用。2)与微软深 度合作:集成于微软云计算服务平台 Azure 和搜索引擎 Bing 上。3)订阅:推出付费订阅版 ChatGPT Plus,每月收费 20 美元。从 ChatGPT 的商业模式中,也可以看出生成式 AI 的 to C 端 商业模式已经逐渐浮出水面,为 AIGC 产业实现商业化落地带来了新的希望.
(一)AI 芯片:算力水平是核心竞争力
强大的算力水平是AI 大模型必备的技术支撑。算力水平是数据处理能力强弱的决定性因 素,AI 大模型的参数和语料库能够不断扩容离不开强大的算力支撑,根据英伟达的数据, ChatGPT 3.0 模型需要使用 1024颗英伟达 A100 芯片训练长达一个月的时间。2012-2018 年, 最大的 AI 训练算力消耗已增长 30 万倍,平均每 3 个多月便翻倍,速度远远超过摩尔定律。 IDC 数据显示,2022 年中智能算力规模达到 268 百亿亿次/秒(EFLOPS),已经超过通用算力 规模, AIGC 商业落地蓄势待发,未来对算力的需求更将超乎想象。
GPU/ASIC/FPGA 三种计算架构并行。AI 芯片计算架构的好坏影响芯片能提供的算力水 平,是决定芯片算力的本质因素。计算架构也需要在通用性和高效性之间进行平衡,目前 AI 芯片有 3 种主流计算架构,其中 GPU 计算架构在算力加速芯片中达到 90%。1)GPGPU:负 责非图形相关程序的运算,具有高度可编程性,是最通用、最灵活的芯片,但是算力水平受限。 2)ASIC:高定制化专用计算芯片,针对具体的应场景和算法,性能较高,但是通用性差 3) FPGA:基于现场可编程逻辑阵列的计算芯片,开发成本低、周期短,通用性和高效性介于 GPGPU 和 ASIC 之间。
英伟达主导市场,国内厂商百花待放。目前算力芯片市场主要被欧美和日本厂商主导,其 中英伟达是全球 GPU 领域的绝对龙头。英伟达 2020 年推出的 A100 芯片支持 FP16、FP32 和 FP64 浮点运算,峰值算力高达 624TOPS,预计在今年发布的 H100 芯片在 FP16、FP32 和 FP64 浮点计算方面将比 A100 快 3 倍,是当之无愧的 AI 芯片性能天花板。中国算力芯片领域起步 较晚,但是在国家政策的大力扶持和企业持续的研发投入下,不少国内企业也在这方面取得了 进展。
寒武纪:中国 AI 芯片领导者。寒武纪成立于 2016 年,技术积累深厚,能提供云边端一 体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。 近年来,公司持续加大研发投入,陆续推出了多款 AI 芯片,其中 2021 年推出的思元 370 采用 了 chiplet 的新技术,整体集成了 390 亿个晶体管,最大算力达到 256TOPS(INT8),也是商 用客户里出货量最大、推广最成功的一款产品。公司即将推出的新产品思远 590,性能可对标 英伟达 A100,在美国《芯片法案》禁令影响下,该款芯片有望成为国内市场中替代 A100 的主 力产品。
海光信息:基于 GPGPU 架构的 DCU 产品商业落地。海光信息成立于 2014 年,并于 2019 年切入到 DCU 产品领域,其 DCU 系列产品以 GPGPU 架构为基础,兼容通用的“类 CUDA” 环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、 人工智能、商业计算等应用领域。DCU 系列产品中的深算一号性能指标堪比国际上同类型高 端产品,并在 2021 年实现商业化应用,深海二号正在研发中,也将成为算力芯片市场强有力 的竞争者之一。
龙芯中科:GPGPU 预计 23 年流片。龙芯中科成立于 2010 年,主营业务为处理器及配套 芯片的研制、销售及服务,主要产品与服务包括处理器及配套芯片产品与基础软硬件解决方案 业务。上市之初,公司就有 GPGPU 设计技术的储备,并募集资金 10.5 亿投向高性能通用图形 处理器芯片及系统研发项目,主要针对图形加速、科学计算尤其是人工智能应用的需求。2022 年 9 月 5 日,龙芯中科在业绩说明会上表示,公司 GPGPU 研发项目进展顺利,将于 2023 年 流片,公司有望成为 AI 算力芯片领域新星。
(二)先进封装:“后摩尔时代”先进封装突破极限
通富微电:持续突破先进封装技术。通富微电深耕于集成电路封装测试一体化服务,产品 覆盖面广且技术全面。近年来,公司积极布局 Chiplet、2.5D/3D、扇出型、圆片级、倒装焊等 封装技术,可为客户提供多样化的 Chiplet 封装解决方案,并且已为 AMD 大规模量产 Chiplet 产品。在高性能计算机领域,公司已建成国内顶级 2.5D/3D 封装平台(VISionS)及超大尺寸 FCBGA 研发平台,并且完成高层数再布线技术开发,同时可以为客户提供晶圆级和基板级 Chiplet 封测解决方案。2022 年上半年,公司在 2.5D/3D 先进封装平台方面,再度取得突破性 进展,BVR 技术实现通线并完成客户首批产品验证,2 层芯片堆叠的 CoW 技术完成技术验 证。依托于丰富的国际市场开发经验和坚实的技术基础,公司有望抓住先进封测市场机遇,稳固其行业龙头的地位。
长电科技:半导体封装行业龙头。长电科技是全球领先的集成电路制造和技术服务提供商, 可以提供全方位的芯片成品制造一站式服务,拥有行业领先的半导体先进封装技术(如 SiP、 WL-CSP、FC、eWLB、PiP、PoP 及 XDFOITM 系列等)。2021 年公司推出的面向 3D 封装的 XDFOITM 系列产品,为高性能计算领域提供了业界领先的超高密度异构集成解决方案。子公 司星科金朋与客户共同开发了基于高密度 Fan out 封装技术的 2.5D fcBGA 产品,同时认证通 过 TSV 异质键合 3D SoC 的 fcBGA,提升了集成芯片的数量和性能,为进一步全面开发 Chiplet 所需高密度高性能封装技术奠定了坚实的基础。2022 年,公司推动实施技术开发 5 年 规划,包括对 2.5D/3D chiplet,高密度多叠加存储技术等八大类逾三十项先进技术开展前瞻性 研发,将进一步推动技术和产品价值进一步提升,持续增强市场竞争力。
(三)服务器 PCB:AI 服务器催动 PCB 技术升级
服务器面向数据处理需求迭代,大算力时代引爆 AI 服务器需求。服务器是算力的载体, 普通的服务器主要为智能手机、PC 等提供基础的算力和数据存储支持,多以 CPU 为算力的提 供者、采用串行架构,无法满足大算力时代不断攀升的数据量引发的数据处理需求。AI 服务 器多采用 CPU+GPU/TPU/其他加速卡的异构形式,一般配置四块以上 GPU 卡,可以满足高吞 吐量互联的需求,提供强大的算力支持。由 ChatGPT 引爆的 AIGC 场景增多驱动智能算力的 规模不断增长,因此人工智能服务器的需求量也将不断攀升。
PCB 是服务器的重要组成部分,技术升级势在必行。服务器算力的提升除依靠 CPU、加 速芯片组外,PCLe 总线标准的提升也是必不可少的环节。根据 Intel 规划,服务器平台方案正 由 Purely 转为 Whitley,而 Whitley 中的 Ice Lake 方案也将首次支持 PCLe4.0 总线设计,下一 代 Eagle Stream 平台将同步支持 PCLe5.0。PCB 是 PCle 总线中的关键组件,高等级的总线标 准需要 PCB 层数和基材的支持,其中 PCB 层数需求将从 3.0 的 8-12 层提升至 5.0 的 16 层以 上;CCL 材料的 Df 值也需要同步降低。AI 服务器需求量的提升和 PCB 技术的升级必将带来 PCB 产品的量价齐升。
沪电股份:高端 PCB 行业龙头。沪电股份深耕 PCB 行业 20 年,在技术、质量、成本、 品牌、规模等方面形成相对竞争优势,居行业领先地位。公司坚持差异化竞争战略,重点生产 技术含量高、应用领域相对高端的差异化产品。在高性能计算领域,应用于 AI 加速、Graphics 的产品,应用于 GPU、OAM、FPGA 等加速模块类的产品以及应用于 UBB、BaseBoard 的产 品已批量出货,目前正在预研应用于 UBB2.0、OAM2.0 的产品。公司持续加大在高端产品领 域的研发投入,正在进行的高速 HDI 长期可靠性研究也将强化公司在 AI 加速核心产品市场的 竞争力。
胜宏科技:服务器领域应用实现从 0 到 1。胜宏科技成立于 2006 年,主要从事高密度印 制线路板的研发、生产和销售,主要产品包括双面板、多层板(HDI)等。2021 年,在消费电 子市场疲软的环境下,公司及时调整客户结构和产品结构,并顺利导入通讯、服务器、芯片等 多家国内外优质客户。公司坚持优质客户与高端产品的战略布局,建立起了高速 SI 能力系统, 支持通讯、服务器高端客户的开发,也开展了“平台服务器主板研发”、“服务器硬盘用高频主 板研发”等研发项目,为企业的持续增长注入了活力。
(四)散热:功耗与算力同步提升,散热技术面临挑战
芯片工作温度显著影响性能。芯片算力不断提升的背后是计算效率的提升和功耗的增加。 芯片功耗的增加会使得芯片温度升高,而分子热运动也会随着温度升高而增大,影响到载流子 的定向迁移,使芯片的漏电流及电流增益加大,从而增大芯片的功耗,形成恶性循环。AI 服务器尤为注重纯算力的运算,因此温度升高,AI 服务器降频运行现象尤为明显,散热技术的 升级势在必行。
散热技术向液冷和芯片级演进。在功耗提升的同时,芯片整体尺寸也越来越小,电子芯片 工作过程中所呈现出的热流密度大幅提升,传统的风冷散热已经很难满足当下电子芯片的散 热需求,因此,以导热性能是空气 15-25 倍的液体作为冷却介质将成为未来散热技术的主要发 展方向之一。除冷却介质外,散热部分和核心发热源距离的不同也会影响散热效果。随着散热 技术的升级,目前散热方案正在从房间级、机柜级、服务器级向着芯片级演进。在芯片级液冷技术、相变储热散热技术、蒸发冷却技术这三种芯片级散热方案中,芯片级液冷技术散热性能 好、散热效率高、能耗小、占地空间小、可靠性强,因此将逐渐成为 AI 服务器主流散热方案。
中石科技:热管理解决方案产品可应用于服务器/数据中心。中石科技成立于 1997 年,公 司基于为全球龙头通信设备供应商提供热管理解决方案二十余年的经验,不断丰富产品矩阵, 拓宽下游应用场景。在服务器/数据中心领域,公司提供的主要产品:热模组(尤其是液冷散热 模组)、导热垫片、导热硅脂、导热凝胶、导热相变材料、导热碳纤维垫等;公司目前已向国 内外多家上述终端应用企业批量供货。公司宜兴募投项目的水冷和液冷散热模组等产品已逐 步落地,有望今年交付,将进一步提升公司在服务器/数据中心应用领域的竞争力。
(五)AIoT:从“万物互联”到“万物智联”
AI 技术可以赋予 LoT“人工智能大脑”。人工 ALoT 即“AI+IoT”,指的是人工智能技术 与物联网在实际应用中的落地融合。物联网可以将人与物、物与物连接成为一个整体,通过 LoT 智能设备生成海量数据;AI 技术可以对海量数据进行深度学习、判断用户的习惯,提升 用户体验,两者相辅相成,推动“万物互联”向“万物智联”进化。ChatGPT 的出现使得人工 智能技术在语言交互方面的应用更为广泛,近日推出的插件功能,将进一步促进 AI 技术和其 他产业的融合,AloT 产业也将在 AI 技术升级的推动下不断发展。
瑞芯微:中国领先的 AloT 芯片设计公司。瑞芯微成立于 2001 年,专注于集成电路设计 和研发。近几年,公司跟随市场趋势变化,大力研发 AIoT 产品、开拓相关市场,积极打造 AIoT 生态,已经成为国内领先的 AIoT 芯片供应商。公司 AIoT 旗舰芯片 RK3588 系列是目前国内顶配高端 AIoT 芯片,可以应用于 ARM PC、平板、高端摄像头、NVR、8K 和大屏设备、汽 车智能座舱、云服务设备及边缘计算、AR/VR 等八大方向市场。RK3588 的成功量产,也意味 着瑞芯微 AIoT 大厦的基本成型,AIoT 业务将成为未来营收增长的主力军。
全志科技:中国领先的 AloT 芯片设计公司。全志科技成立于 2007 年,是卓越的智能应 用处理器 SoC、高性能模拟器件和无线互联芯片设计厂商。在 AIoT 领域,公司与行业头部一 线智能音箱标杆客户保持产业深度合作,R 系列芯片产品已实现带屏、无屏音箱全面量产。基 于智能语音的技术积累及生态布局,公司也与智能家电、扫地机器人、陪伴机器人、AI 教育 (学习机、词典笔)等领域重要客户深度合作,推出了 MR 系列、V853 芯片等多款产品,丰 富了在 AIoT 领域的产品矩阵.
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)