软件开发公司 GPU,独孤求败?
1. 川崎前锋最早成立于1955年,球队前身为富士通足球俱乐部,是日本足球联盟元老俱乐部之一。由于部分原因俱乐部在上世纪遭到降级,直到2000年才重返顶级联赛。在2017年之后,队伍的整体表现日渐强大,先后在2017、2018、2020以及2021年获得联赛冠军。随后还夺得了日本天皇杯冠军、日本联赛杯冠军、以及日本超级杯。
中国体育彩票始终重视员工能力的培养,持续加强干部队伍建设,深入推进人才发展机制改革,建立与员工个人成长相配套的培训管理体系和培训课程体系。为了让员工拥有更好的职业发展通道,健全人才选拔评价机制,最大限度让员工们实现个人价值。
据台媒报谈,台积电近期准备启动坐褥英伟达最新Blackwell平台架构GPU,同期因英伟达的客户需求强盛,故此对台积电的晶圆订单加多25%;并有可能令本周放榜的台积电上调本年盈利预期。报谈引述业界音讯指出,亚马逊、戴尔、谷歌、Meta及微软等齐会使用Blackwell架构GPU来勾引AI伺服器,令需求超出预期。
英伟达的利好,让全球对东谈主工智能、GPU和AI芯片有了更多的想法,但这能连接执续吗?
GPU,销量咋样?近来,外媒nextplatform还对AI芯片的销售作念了预测。
外媒引述AMD CEO苏姿丰的数据示意,到 2023 年,数据中心 AI 加速器的总潜在阛阓规模约为 300 亿好意思元,到 2027 年底,该阛阓将以约 50% 的复合年增长率增长至 1500 亿好意思元以上。但一年后,跟着 GenAI 上升的兴起,以及 12 月推出“Antares”Instinct MI300 系列 GPU,苏姿丰示意,AMD 瞻望 2023 年数据中心 AI 加速器阛阓规模将达到 450 亿好意思元,到 2027 年,该阛阓将以超过 70% 的复合年增长率增长至 4000 亿好意思元以上。
这仅适用于加速器,而不适用于劳动器、交换机、存储和软件。
New Street Research 的 Pierre Ferragu 的团队在科技规模作念出了许多出色的责任,他曾尝试分析这家价值 4000 亿好意思元的数据中心加速器的潜在阛阓规模可能会若何,并在 Twitter 上发布了这一预测:
咱们仍然以为这是一个至极大的数字,瞻望在 TAM 预测期驱散时 AI 劳动器、存储和交换机的销售额将达到约 1 万亿好意思元。
在 2024 年开端,咱们从富国银行股票询查公司董事总司理兼时期分析师 Aaron Rakers 那里获取了 GPU 销售预测,并进行了一些电子表格操作。该模子涵盖了 2015 年至 2022 年数据中心的 GPU 销售情况,并推测到 2023 年驱散(预测前卫未驱散)并延长到 2027 年。富国银行的模子也早于AMD 最近几个月作念出的改革预测,AMD 示意 2024 年的 GPU 销售收入将达到 40 亿好意思元。(咱们以为会是 50 亿好意思元。)
不管若何,富国银行的模子露馅,2023 年 GPU 销售额将达到 373 亿好意思元,全年出货量为 549 万台。出货量险些翻了一番——包括悉数类型的 GPU,而不单是是高端 GPU。GPU 收入增长了 3.7 倍。预测 2024 年数据中心 GPU 出货量为 685 万台,增长 24.9%,收入为 487 亿好意思元,增长 28%。2027 年预测 GPU 出货量为 1351 万台,股东数据中心 GPU 销售额达到 953 亿好意思元。在该模子中,Nvidia 在 2023 年的收入阛阓份额为 98%,到 2027 年仅下落到 87%。
Gartner 和 IDC 最近齐发布了一些对于 AI 半导体销售的数据和预测。
近一年前,Gartner 发布了一份对于 2022 年 AI 半导体销售的阛阓询查评释,并预测了 2023 年和 2027 年的销售情况,几周前,它又发布了一份改革后的预测评释,其中预测了 2023 年的销售情况,并预测了 2024 年和 2028 年的销售情况。第二份评释的阛阓询查评释中也包含一些统计数据,咱们将其添加到下表中:
咱们假定缱绻电子居品包括个东谈主电脑和智高东谈主机,但就连勾引这些模子的 Gartner 副总裁兼分析师 Alan Priestly 也知谈,到 2026 年,悉数销售的个东谈主电脑芯片齐将是东谈主工智能个东谈主电脑芯片,因为悉数札记本电脑和台式机的 CPU 齐将包含某种类型的神经辘集处理器。
用于加速劳动器的 AI 芯片是咱们在The Next Platform上重视的重心,这些芯片的收入(咱们假定不包括附带的 HBM、GDDR 或 DDR 内存的价值)在 2023 年为 140 亿好意思元,瞻望到 2024 年将增长 50%,达到 210 亿好意思元。但瞻望 2024 年至 2028 年期间劳动器 AI 加速器的复合年增长率仅为 12% 傍边,销售额将达到 328 亿好意思元。Priestly 示意,定制 AI 加速器(如 TPU 以及亚马逊辘集劳动的 Trainium 和 Inferentia 芯片)(仅举两个例子)在 2023 年仅带来了 4 亿好意思元的收入,到 2028 年也只会带来 42 亿好意思元的收入。
如果 AI 芯片占缱绻引擎价值的一半,而缱绻引擎占系统本钱的一半,那么这些相对较小的数字加起来可能会带来数据中心 AI 系统很是可不雅的收入。雷同,这取决于 Gartner 在那边端正界限,以及你以为应该若何端正界限。
当今,让咱们来望望 IDC 若何看待 AI 半导体和 AI 劳动器阛阓。该公司几周前发布了这张道理的图表:
在此图表中,IDC 汇总了数据中心和边际环境中使用的 CPU、GPU、FPGA、定制 ASIC、模拟勾引、内存和其他芯片的悉数收入。然后,它扣除了缱绻、存储、交换机和其他勾引的收入,因为这些勾引适用于 AI 测验和 AI 推理系统。这不是悉数系统的价值,而是系统中的悉数芯片的价值;因此它不包括机箱、电源、冷却、主板、转接卡、机架、系统软件等。如您所见,此图表包含 2022 年的实质数据,而况仍在估算 2023 年至 2027 年的数据。
在 IDC 的分析中,半导体阛阓中的东谈主工智能部分从 2022 年的 421 亿好意思元增长到 2023 年的 691 亿好意思元,这意味着 2022 年至 2023 年之间的增长率为 64.1%。本年,IDC 以为东谈主工智能芯片收入——这不单是意味着 XPU 的销售,还包括数据中心和边际东谈主工智能系统中的悉数芯片内容——将增长 70%,达到 1175 亿好意思元。如果你缱绻 2022 年至 2027 年之间的数字,IDC 推测数据中心和东谈主工智能系统中的东谈主工智能芯片内容的物料清单总收入将以 28.9% 的复合年增长率增长,到 2027 年达到 1933 亿好意思元。
由此看来,GPU似乎也曾一致的赢家,但曾在英特尔责任的Raja Koduri最近发布了一篇著述,分析了GPU的影响。
GPU莫得敌手?最初,Raja Koduri先共享了一系列的公式。
接下来,他一步步分析了这些公式:
最初看上头这个公式,Raja Koduri强调,您不错将此等式应用于 CPU 架构,因为这在勾引、PC 和云上齐取得了到手。而对于 AI 和其他浮点 + 带宽密集型责任负载,GPU 在此等式上得分最高 - 尤其是 CUDA GPU。而今天NVDA的天文估值即是一个很好的方程式花样。
在Raja Koduri看来,有抱负的竞争敌手应该邃密这个等式,并细目你的次序在你所针对的责任负载规模与现存企业的价值。
再看上头这个公式。
按照Raja Koduri所说,前边的西格玛(sigma)示意每个责任负载。对于不同的型号/责任负载,浮点运点的比率、带宽和容量要求可能不同。测验与推理是生成不同比率的一个例子。
Raja Koduri同期强调,咱们不要健忘,在推理和测验轮回除外,还有加速缱绻的需求 举例:图像和语音处理以及尽人皆知的并行数据分析和模拟算法。您的通用性会影响“N”的大小。此 N 对于 CUDA GPU 来说风趣风趣紧要。对于 CPU 来说,N 以致更大,但随后等式的其余部分启动弘扬作用,它们的性能毛病占主导地位。
分子有 3 个参数 Flops、Bandwidth 和 Capacity。
Raja Koduri重申,Flop 需要通过宽度 (64,32,19, 16,8,4..) 和类型 (float, int..) 进行驱散,责任负载不错夹杂使用这些。雷同,带宽和容量也具有许多端倪结构 - 寄存器、L1、L2、HBM、NVlink、以太网、NVME......
Raja Koduri在著述中还对当代 GPU 性能优化策略的简要先容。
他示意,当咱们初次在 GPU 中引入浮点可编程着色器时,浮点运算与 DRAM 带宽的比率为 1:1。在最新的 GPU 上,对于 16 位以致更高、精度更低的表情,该范围超过 300:1。当今,对于更接近缱绻的内存(如寄存器、L1、L2 等)来说,这个比率变得更好。如果你询查一下最近对于诊治器的大多量优秀的GPU优化责任,它归结为最小化这个比例。使用关闭内存层的次数越多越好。
在Raja Koduri看来,其他策略包括行使未充分行使的浮点点数以异步(Async)花样运行下一个 ALU 受限阶段。命运和技能在寻找漂亮的“overlappable”代码块方面起着紧要作用,这些代码块不会禁止互相的缓存。
不外Raja Koduri强调,异步不适当畏惧的东谈主。您不错对代码进行的每一个百分点的flop-utilization改进齐可能从简数十亿好意思元。
其他常见问题包括——为什么 CPU 东谈主员不插足更多的 FLOPS 和 BANDWIDTH 并赢得 AI 干戈?是否存在基本的架构适度?
Raja Koduri示意,对于这个问题的浅易物理学谜底是“否”。 但是,要将更多带宽引入 CPU,需要对 CPU 结构基础设施进行屡次升级(和融合)。一般来说,折衷决策是延迟。如果有东谈主向您展示他们不错以更低的延迟、更低的功耗和本钱提供更高的带宽。那么尼可站起来,加入他们的宗教。
CPU 想象东谈主员倾向于优先商酌延迟而不是带宽,因为宽泛左证延迟来判断他们的责任负载集。像英特尔 Sapphire Rapids+HBM 这么的居品提供了很好的带宽晋升,但不及以挑战 GPU。
接下来看底下与功耗和本钱关联的公式:
最初看功耗方面,从图中不错看到,Pj/Flop 在主流半导体工艺方面并莫得赫然改善。你独一不错玩的游戏是flop的界说,咱们把它从64裁汰到4..当今可能是1.5。今天 FP16 的 pj/flop 在 0.5-0.7 的范围内。
peta-flop GPU 的快速缱绻,南宁软件开发10^15 * (0.7*10^-12) = 700 瓦。带宽的功率缱绻起来有点辣手,而况可能会踩到供应商的一些特有信息,在这里就不长远分析了。
Pj/Bit 是我看到架构师不错行使的紧要 (10 倍) 契机的方位。我以为本十年的下半年将看到许多道理的尝试,包括围绕近内存、内存缱绻、共封装光子学等的举措。
再看本钱方面,每个节点的缱绻晶圆本钱齐相比上流,内存东谈主员也在行使东谈主工智能的需求。
Raja Koduri示意,在10 年前,他不会将“封装”动作主要本钱成分,但当今这是一件大事。除了先进的封装外,与热能和电力运送关联的本钱也大幅上升。部分本钱在物理上是合理的 - 但其中很大一部分是由生态系统驱动的,试图在英伟达商酌的利润率下扶持他们的利润率。
在Raja Koduri看来,使用替代封装次序不错权贵(2-3 倍)裁汰本钱,幸免上流的有源中介层 + 2.5D/3D 堆叠。但咫尺尚不了了它们是否会很快成为花消者的利益,直到东谈主工智能需求与供应达到更合理的水平。
终末,望望公式的其他部分。
最初看Compatibility(兼容性),这里波及道理的 GPU 历史。
Raja Koduri先容,在2002 年,GPU行业引入了 24 位浮点的可编程着色器(与突出的 ATI R300 一谈),并引入了高等着色话语(HLSL、GLSL、Cg),这些话语主如果基于 C 的话语,具关联键不竭和推广。这对游戏引擎开发东谈主员来说是一个福音,咱们见证了 2002 年至 2012 年间及时渲染的指数级高出。但是对于练习本机 C/C++ 的通用要津员来说,这些话语很恼恨。因此,GPU 主要局限于游戏开发者。
到了2005 年,高性能 IEEE FP32 的推出激勉了 GPGPU 的上升——这要归功于 Mike Houston、Ian Buck 等斯坦福大学学友,他们股东了早期的 GPGPU 话语,如 Brook 和 ATI 建议了一种称为 CTM(Close to the metal)的汇编级概括。诚然这些努力对于演示来说很棒,但它们并莫得越过“兼容性”的门槛,在学术询查除外获取任何严肃的酷好。
而CUDA(以及出色的 Nvidia G80 架构)是第一个将“指针”(pointers)引入 GPU 话语的,并为 C 要津员提供了更快意的概括来使用 GPU。正如他们所说,休息是历史。指针和臆造内存支执亦然将 GPU 动作一流的协处理器集成到悉数操作系统中的环节。这是硬件加速器想象时常冷漠的一个方面,这使得为这些加速器编写驱动要津成为软件工程师的恶梦。
Raja Koduri以为,CUDA的另一个方面莫得得到无为的唱和。如她所说,CUDA 编程模子是 NVIDIA GPU HW 推论模子真是切概括。硬件和软件是共同想象的,并系在HIP(原文:The hardware and software are co-designed and tied at the hip)。诚然许多像 SPMD 这么的 CUDA 模子齐具有可移植性(OpenCL、Sycl、OpenMP、HIP-RocM...),但已毕性能可移植性险些是弗成能的(除非您的架构是精准复制的 CUDA GPU 推论模子)。鉴于涉足 GPU 的要津员将加速动作主要目的,无法匡助您高效地已毕简易性能的话语和器具无法获取 CUDA 的眩惑力。
“CUDA 要津员与 Python/Pytorch 要津员之间有一个道理的对比 - 但这是另一个时候的线程”,Raja Koduri说。
小程序开发Raja Koduri承认,CUDA 改进了 GPU 通用性以眩惑 C/C++ 要津员。
“对于出身于python时期的下一代硬件架构师来说,下一个到手的软硬件协同想象会是什么?”Raja Koduri接着说。
来到Extensibility(推广)方面。
Raja Koduri示意,GPU 架构以增量花样推广了好屡次。我发现令东谈主诧异的是,咱们仍然不错在当代 GPU 上运行 20+ 年前构建的游戏二进制文献。诚然在微不雅架构方面取得了许多高出,但宏不雅层面看起来仍然是一样的。咱们添加了许多新的数据类型、表情、指示推广,同期保执兼容性。以致在保留 SPMD 模子的同期添加了张量单位。这种可推广性使 GPU 省略快速恰当新的责任负载趋势。
一些众人品评 GPU 对于纯张量数学来说至极“低效”——建议并构建了与 GPU 架构不兼容的替代架构。然则,咱们仍在恭候这些架构之一产生挑升想风趣的影响。
再看Accessibility(可及性)方面。
在Raja Koduri看来,这是 GPU 最被低估的上风。您的架构需要可供悉数地区的远掀开发东谈主员窥伺。在这方面,游戏GPU对Nvidia来说是一个巨大的福音。咱们时常看到宇宙各地的年青大学生通过札记本电脑或台式机中的 3060 等中端游戏 GPU 启动初次体验 GPU 加速。Nvidia 在使其开发东谈主员 SDK 可在装有 Windows 和 Linux 的 PC 上窥伺方面作念得至极出色。
但Raja Koduri以为,对缱绻和带宽的需求每年增长 3-4 倍。左证这里列出的第一个原则,CUDA GPU 硬件将被中断。独一的问题是“谁”和“何时”?
在恢复读者的问题时,Raja Koduri示意,Python 和内存是他以为CUDA GPU将会被颠覆的底气。
软件将成为新焦点而在AMD最近收购 Silo AI之后,有分析师以为,软件已成为焦点,东谈主工智能芯片战场发生变化。分析师以为,这一计谋调动正在再行界说东谈主工智能竞赛,其中软件专科常识变得与硬件实力一样紧要。
分析师示意,AMD 最近收购了欧洲最大的私东谈主 AI 现实室 Silo AI,这体现了这一趋势。Silo AI 在开发和部署 AI 模子方面领有丰富的训导,尤其是大型话语模子(LLM),这是 AMD 重视的一个环节规模。
这次收购不仅增强了 AMD 的 AI 软件才能,也加强了其在欧洲阛阓的地位,Silo AI 在欧洲阛阓以开发文化关联的 AI 惩办决策而享有殊荣。
Counterpoint Research 联合东谈主兼连合首创东谈主 Neil Shah 示意:“Silo AI 填补了 AMD 从软件器具(Silo OS)到劳动(MLOps)的紧要才能空缺,匡助定制主权和开源 LLM,同期扩大其在紧要欧洲阛阓的影响力。”
AMD 此前已收购 Mipsology 和 Nod.ai,进一步持重了其接力于打造健硕 AI 软件生态系统的容许。Mipsology 在 AI 模子优化和编译器时期方面的专科常识,加上 Nod.ai 对开源 AI 软件开发的孝顺,为 AMD 提供了一套全面的器具和专科常识,以加速其 AI 计谋。
Cyber media Research 行业询查组副总裁 Prabhu Ram 示意:“这些计谋举措增强了 AMD 为寻求跨平台纯真性和互操作性的企业提供定制开源惩办决策的才能。通过整合 Silo AI 的功能,AMD 旨在提供一套全面的套件,用于开发、部署和经管 AI 系统,无为安静不同客户的需求。这恰当 AMD 动作可窥伺和通达 AI 惩办决策提供商络续发展的阛阓合位,充分行使行业对通达性和互操作性的趋势。”
这种向软件的计谋调动并不局限于AMD。其他芯片巨头如Nvidia和Intel也在积极投资软件公司并开发我方的软件堆栈。
Shah 示意:“如果你望望 Nvidia 的到手,你会发现它不是由硅片驱动的,而是由其在缱绻平台上提供的软件(CUDA)和劳动(带有 MLOps、TAO 等的 NGC)驱动的。”“AMD 意志到了这少量,并一直在投资构建软件(ROCm、Ryzen Aim 等)和劳动(Vitis)功能,为客户提供端到端惩办决策,以加速 AI 惩办决策的开发和部署。”
Nvidia 最近收购了 Run:ai 和 Shoreline.io,这两家公司均专注于 AI 责任负载经管和基础设施优化,这也突显了软件在最大适度提高 AI 系统性能和成果方面的紧要性。
但这并不虞味着芯片制造商会解任近似的轨迹来已毕目的。Techinsights 的半导体分析师 Manish Rawat 指出,在很猛过程上,Nvidia 的 AI 生态系统是通过特巧合期和健硕的开发者社区勾引起来的,这使其在 AI 驱动的行业中站稳了脚跟。
Rawat 补充谈:“AMD 与 Silo AI 的配合标明,AMD 将蚁合元气心灵推广其在 AI 软件方面的才能,在络续发展的 AI 规模与 Nvidia 伸开竞争。”
另一个关联的例子是英特尔收购及时执续优化软件提供商 Granulate Cloud Solutions。Granulate 匡助云和数据中心客户优化缱绻责任负载性能,同期裁汰基础设施和云用度。
芯片和软件专科常识的会通不仅是为了赶上竞争敌手,还为了股东东谈主工智能规模的转换和各异化。
软件在优化特定硬件架构的 AI 模子、提高性能和裁汰本钱方面弘扬着至关紧要的作用。最终,软件不错决定谁左右 AI 芯片阛阓。
Amalgam Insights 首席推论官兼首席分析师 Hyoun Park 示意:“从更大角度来看,AMD 明显正在与 NVIDIA 争夺 AI 规模的霸主地位。归根结底,这不单是是谁制造出更好的硬件的问题,而是谁省略确切支执部署高性能、经管简易且易于永恒支执的企业级惩办决策。尽管 Lisa Su 和 Jensen Huang 齐是科技界最贤慧的高管之一,但唯独其中一东谈主省略最终赢得这场干戈,成为 AI 硬件阛阓的教学者。”
软件专科常识与芯片公司居品的整合正在催生全栈 AI 惩办决策。这些惩办决策涵盖从硬件加速器和软件框架到开发器具和劳动的悉数内容。
通过提供全面的 AI 功能,芯片制造商不错安静更无为的客户和用例,从基于云的 AI 劳动到边际 AI 应用。
举例,Shah 示意,Silo AI 最初带来了训导丰富的东谈主才库,尤其是接力于优化 AI 模子、量身定制的 LLM 等。Silo AI 的 SIloOS 是 AMD 居品的一个至极健硕的补充,允许其客户行使先进的器具和模块化软件组件来定制恰当其需求的 AI 惩办决策。这对 AMD 来说是一个巨大的差距。
Shah 补充谈:“第三,Silo AI 还引入了 MLOps 功能,这对于平台参与者来说是一项环节功能,不错匡助其企业客户以可推广的花样部署、改进和运营 AI 模子。这将匡助 AMD 在软件和硅片基础设施之上开发劳动层。”
芯片制造商从单纯提供硬件转向提供软件器具包和劳动,这对企业科技公司产生了紧要影响。
Shah 强调,这些发展对于企业和东谈主工智能开发东谈主员微调他们的东谈主工智能模子以增强特定芯片上的性能至关紧要,适用于测验和推理阶段。
这一高出不仅加速了居品的上市时候,而且还匡助配联合伴(不管是超大规模企业也曾经管里面部署基础设施)通过改善动力使用和优化代码来提高运营成果并裁汰总领有本钱 (TCO)。
“此外,对于芯片制造商来说,这是一种很好的花样,不错将这些开发东谈主员锁定在他们的平台和生态系统中,并在其基础上通过软件器具包和劳动赚钱。这还不错带来时常性收入,芯片制造商不错再投资并提高利润,投资者可爱这种模式,”Shah 说。
跟着东谈主工智能竞赛的络续发展,对软件的重视必将加重。芯片制造商将连接投资软件公司,开发我方的软件堆栈,并与更无为的东谈主工智能社区配合,打造一个充满活力和转换的东谈主工智能生态系统。
东谈主工智能的以前不仅在于更快的芯片,还在于更智能的软件,它不错开释东谈主工智能的全部后劲并改变咱们的生存和责任花样。
说七说八,全球以为GPU主导的阛阓,会被颠覆吗?
本文作家:半导体行业不雅察软件开发公司,来源:半导体行业不雅察,原文标题:《GPU,独孤求败?》
风险领导及免责要求 阛阓有风险,投资需严慎。本文不组成个东谈主投资建议,也未商酌到个别用户非凡的投资目的、财务现象或需要。用户应试虑本文中的任何成见、不雅点或论断是否恰当其特定现象。据此投资,包袱自夸。