1、根据应用场景的不同:
人工智能服务器根据不同的应用场景可分为深度学习训练型和智能应用演示型。训练任务需要高水平的服务器计算能力,并且为了提供高密度的计算能力,需要训练服务器。代表产品包括中广X785-G30和华为Ascension Atlas 800(9000型、9010型)。演示任务使用经过训练的模型来提供服务,但对计算能力的要求很低。代表产品包括中科曙光X785-G40和华为Ascension Atlas 800(3000型、3010型)。
2、按芯片类型分类:
AI服务器是一种异构服务器,可以根据应用范围定制计算模块结构。它们可以组合成CPU+GPU、CPU+FPGA、CPU+TPU、CPU+AASIC或CPU+多个加速器卡。目前,产品中最常用的方法是CPU+多个GPU。
AI(人工智能)服务器分为4条路径、8条路径和16条路径。一般来说,通用服务器主要采用基于CPU的串行架构,更擅长逻辑计算。人工智能服务器主要采用异构形式的加速器卡,更擅长高吞吐量的并行计算。一般来说,服务器有两个、四个。它可以分为八个路径。人工智能服务器通常只配备1-2个CPU,但GPU的数量非常多。根据GPU的数量,人工智能服务器可以分为四个、八个和十六个路径,其中八个人工智能服务器和八个GPU是最常见的。
AI(人工智能)服务器使用多个芯片组合,导致计算机硬件成本更高。以一个典型的服务器产品为例,对硬件架构进行分解可以更好地理解两种服务器硬件架构之间的差异。以Wave通用服务器NF5280M6为例,根据英特尔官方网站的数据,每台CPU的价格约为6.4亿元,因此服务器芯片的成本约为6.4万至12.8万元。Wave AI服务器NF5688M6使用两个可扩展的第三代Intel Xeon处理器和八个Nvidia A800 GPU的组合。根据英伟达网站,每台A800的价格为1040万元。由于售价为0元,服务器芯片的价格约为96万元。
GPT模型训练需要高计算能力,或者可能产生构建人工智能服务器的需求。随着国内制造商继续使用类似的ChatGPT产品,大型GPT模型的准备、调整和日常运行可能需要较高的计算能力。我相信这将促进国内人工智能服务器市场的扩张。根据OpenAI使用GPT-3 175B模型的早期训练过程的例子,GPT-3 175 B模型的预训练需要大约3640 PFlop/s天的计算能力。我们需要具有最强波浪信息计算能力的AI服务器NF5688M6(PFlop/s)。将使用假设进行计算。假设预训练时间为3天、5天和10天,单个制造商需要购买的人工智能服务器数量分别为243台、146台和73台。
大规模人工智能教育的需求很高,预计智能计算能力的增长将推动AI(人工智能)服务器的扩张。根据IDC数据,2021,中国智能计算能力(半精密(FP16)计算能力)约为155.2 EFLOPS。随着人工智能模型的日益复杂,计算数据的快速增长,以及人工智能应用场景的深入,未来国内智能计算能力有望实现快速增长。2022年,IDC国内智能计算能力规模较上年增长72.7%,达到268.0 EFLOPS;预计到2026年,智能计算能力将达到1271.4 EFLOPS。2022年至2026年的综合年增长率为69.2%。我们认为,作为智能计算的主要基础设施,人工智能服务器将受益于下游需求的增长。