gpu显卡

[TOC]

训练卡与推理卡的区别

维度	训练卡	推理卡
设计目标	主要为了支持深度学习模型的训练，需要处理大量的数据和复杂的计算	主要为了实现已经训练好的模型在实际应用中的快速执行和响应
计算能力	具有强大的并行计算能力，可以处理大规模的矩阵运算和并行任务	优化了对模型推理的支持，强调低延迟和高吞吐量
内存配置	通常配置有大量的显存，用于存储大规模的数据集和模型参数	显存配置较少，主要满足模型推理的需要
功耗和尺寸	由于需要支持大规模计算，功耗和散热需求都比较高	设计更加紧凑，功耗较低，适合部署在边缘设备上
成本考虑	由于其强大的计算能力和大量的显存配置，成本较高	针对性优化，去除了不必要的功能，成本相对较低
使用场景	适用于数据中心、研究机构和高性能计算场所	广泛应用于各种终端设备、边缘计算和实时应用场景
典型型号	A100、V100	T4、P40

英伟达GPU

Nvidia 显卡分类

分类	定位	使用场景	旗舰产品
Geforce(精视)系列	定位消费级显卡	用来打游戏，价格便宜	Geforce RTX 4090
Quadro系列	定位视觉计算	用于专业绘图设计和视频渲染，比如设计(C4D)、建筑(3D MAX)等	-
Tesla(特斯拉)系列	定位大规模并行计算	用于数据中心，比如用于深度学习，做训练、推理等	主流A100，最新款H100
TITAN(泰坦)系列	定位高端工作站和深度学习	高性能、专业应用、价格适中，是专业用户和研究人员的选择	-

注意：

通常，一些Geforce卡（比如 GTX 1080）做深度学习的效果比Tesla T4还好，且价格只有后者的1/3，但仍推荐使用T4是因为Tesla显卡针对GPU集群的并行计算做了优化，而且功耗更低，官方支持周期更长；
Nvidia显卡会区分几个档次：GTX是高端显卡，GTS是中端显卡，GT是普通显卡（也就是入门级显卡）；
Nvidia显卡的后缀分为：SE阉割版（比如GTX 560SE）、TI增强版（比如GTX 750TI）、M移动端（Mobile，笔记本电脑专用）、LE限制版（主要是降频，比如7300LE）等；

Nvidia Tesla系列

维度	H100	A100	V100	T4	P40	P4
推理/训练	训练卡 (最新款,中国断供)	训练卡 (即将停产)	训练卡 (已停产)	推理卡	推理卡	推理卡
双精度性能（FP64）	26 TFLOPS (PCIe) 34 TFLOPS (SXM)	9.7 TFLOPS	7 TFLOPS (PCIe) 7.8 TFLOPS (NVLink)	-	-	-
单精度性能（FP32）	51 TFLOPS (PCIe) 67 TFLOPS (SXM)	19.5 TFLOPS	14 TFLOPS (PCIe) 15.7 TFLOPS (NVLink)	8.1 TFLOPS	12 TFLOPS	5.5 TFLOPS
半精度性能（FP16）	1513 TFLOPS (PCIe) 1979 TFLOPS (SXM)	312 TFLOPS (PCIe) 624 TFLOPS* (NVLink)	112 TFLOPS (PCIe) 125 TFLOPS (NVLink)	65 TFLOPS	-	-
整数运算能力（INT8）	3026 TOPS (PCIe) 3958 TOPS (SXM)	624 TOPS (PCIe) 1248 TOPS (SXM)	250 TOPS	130 TOPS	47 TOPS	22 TOPS
GPU显存	80GB	80GB HBM2	32/16GB HBM2	16GB	24GB	8GB
显存带宽	2TB/s (PCIe) 3.35TB/s (SXM)	1935 GB/s (PCIe) 2039 GB/s (SXM)	900 GB/s	320 GB/s	346 GB/s	192 GB/s
互联技术	NVLink 4.0:900 GB/s PCIe 5.0:128GB/s	NVLink 3.0:600 GB/s PCIe 4.0:64 GB/s	NVLink:300 GB/s PCIe:32 GB/s	-	-	-
外形规格	PCIe 双插槽风冷式 SXM	PCIe 双插槽风冷式 SXM	PCIe 双插槽全高外形 NVLink	PCIe 半高外形	PCIe 双插槽全高外形	PCIe 半高外形
功率	350W (PCIe) 700W (SXM)	300W (PCIe) 400W (SXM)	250W (PCIe) 300W (NVLink)	70W	250W	50W / 75W
架构	Hopper(赫柏)架构	Ampere(安培)架构	Volta(伏特)架构	Turing(图灵)架构	Pascal(帕斯卡)架构	Pascal(帕斯卡)架构
CUDA核心数量	18432	6912	5120	2560	3840	2560
发布时间	2022	2020	2017	2018	2016	2016

高端芯片限购

2022年10月，美国首次正式推出限制AI芯片对华出口的政策，要求高性能芯片如果同时满足以下两个条件的即为受管制的高性能计算芯片：

芯片的I/O带宽传输速率大于或等于600 Gbyte/s
数字处理单元/原始计算单元每次操作的比特长度乘以TOPS 计算出的算力之和大于或等于4800TOPS

此举，直接导致了英伟达的A100、H100（售价2.5-3万美元）等高性能AI芯片无法对华出口。随后，为了挽回中国市场，英伟达在A100、H100基础上做了阉割，推出了A800、H800两款中国定制款芯片，也就是A800是A100的阉割版，H800是H100的阉割版；

阉割版的A800主要限制了带宽，从A100的600GB/s降至400GB/s，对算力基本没限制；
阉割版的H800对算力和带宽都做了限制，带宽从H100的900GB/s降至400GB/s，算力主要限制双精度计算（FP64），以NVLINK版为例，从34TFLOPS降到1TFLOPS；

但是，2023年10月17日，美国商务部又推出了新的限制规则，进一步收紧了限制范围：

针对高性能芯片，满足以下任一标准：

总算力之和≥4800TOPS
总算力≥1600，且性能密度≥5.92

针对次高性能芯片，满足以下任一标准：

2400≤总算力＜4800，且1.6＜性能密度＜5.92
总算力≥1600，且3.2≤性能密度＜5.92

此举，再次导致了英伟达的A800、H800等高性能AI芯片无法对华出口，此外，英伟达L40S、消费级高端显卡RTX4090等产品也受到了限制。不过，英伟达依旧不甘心放弃中国这个庞大的AI芯片市场。于是在2023年第四季度，英伟达又针对中国市场开发出了符合美国最新限制政策的四款AI芯片，包括 HGX H20（算力约为50%A100和15%H100，售价10W人民币）、L20 PCle 和 L2 PCle。同时还开发了符合新规的消费级高端显卡RTX 4090 D。

国产GPU

华为两款GPU

昇腾 310，是华为云ecs唯一在售的gpu型号
昇腾 910B，是国内首款能与Nvidia A100抗衡的AI芯片

维度	Ascend 310	Ascend 910B
半精度(FP16)	8 TFLOPS	256 TFLOPS
整数精度(FP8)	16 TFLOPS	512 TFLOPS
显存	8GB	-
功耗	8W	310W
制程	12nm	7nm
架构	达芬奇	达芬奇
发布日期	2018-10-10	2019-08-23
使用场景	移动端的推理场景,低功耗,物联网	云端的AI训练,高端计算
局限	-	不能做GPT-3(不支持32位浮点)
价格	xxx 元/片	12万元/片

寒武纪

思元590（寒武纪最好的产品，ASIC架构，劣势是通用型不太好），基本支持主流的模型，综合性能接近A100 80%的水平

nvidia显卡