gpu显卡
[TOC]
训练卡与推理卡的区别
维度 | 训练卡 | 推理卡 |
---|---|---|
设计目标 | 主要为了支持深度学习模型的训练,需要处理大量的数据和复杂的计算 | 主要为了实现已经训练好的模型在实际应用中的快速执行和响应 |
计算能力 | 具有强大的并行计算能力,可以处理大规模的矩阵运算和并行任务 | 优化了对模型推理的支持,强调低延迟和高吞吐量 |
内存配置 | 通常配置有大量的显存,用于存储大规模的数据集和模型参数 | 显存配置较少,主要满足模型推理的需要 |
功耗和尺寸 | 由于需要支持大规模计算,功耗和散热需求都比较高 | 设计更加紧凑,功耗较低,适合部署在边缘设备上 |
成本考虑 | 由于其强大的计算能力和大量的显存配置,成本较高 | 针对性优化,去除了不必要的功能,成本相对较低 |
使用场景 | 适用于数据中心、研究机构和高性能计算场所 | 广泛应用于各种终端设备、边缘计算和实时应用场景 |
典型型号 | A100、V100 | T4、P40 |
英伟达GPU
Nvidia 显卡分类
分类 | 定位 | 使用场景 | 旗舰产品 |
---|---|---|---|
Geforce(精视)系列 | 定位消费级显卡 | 用来打游戏,价格便宜 | Geforce RTX 4090 |
Quadro系列 | 定位视觉计算 | 用于专业绘图设计和视频渲染,比如设计(C4D)、建筑(3D MAX)等 | - |
Tesla(特斯拉)系列 | 定位大规模并行计算 | 用于数据中心,比如用于深度学习,做训练、推理等 | 主流A100,最新款H100 |
TITAN(泰坦)系列 | 定位高端工作站和深度学习 | 高性能、专业应用、价格适中,是专业用户和研究人员的选择 | - |
注意:
- 通常,一些Geforce卡(比如 GTX 1080)做深度学习的效果比Tesla T4还好,且价格只有后者的1/3,但仍推荐使用T4是因为Tesla显卡针对GPU集群的并行计算做了优化,而且功耗更低,官方支持周期更长;
- Nvidia显卡会区分几个档次:GTX是高端显卡,GTS是中端显卡,GT是普通显卡(也就是入门级显卡);
- Nvidia显卡的后缀分为:SE阉割版(比如
GTX 560SE
)、TI增强版(比如GTX 750TI
)、M移动端(Mobile,笔记本电脑专用)、LE限制版(主要是降频,比如7300LE
)等;
Nvidia Tesla系列
维度 | H100 | A100 | V100 | T4 | P40 | P4 |
---|---|---|---|---|---|---|
推理/训练 | 训练卡 (最新款,中国断供) |
训练卡 (即将停产) |
训练卡 (已停产) |
推理卡 | 推理卡 | 推理卡 |
双精度性能 (FP64) |
26 TFLOPS (PCIe) 34 TFLOPS (SXM) |
9.7 TFLOPS | 7 TFLOPS (PCIe) 7.8 TFLOPS (NVLink) |
- | - | - |
单精度性能 (FP32) |
51 TFLOPS (PCIe) 67 TFLOPS (SXM) |
19.5 TFLOPS | 14 TFLOPS (PCIe) 15.7 TFLOPS (NVLink) |
8.1 TFLOPS | 12 TFLOPS | 5.5 TFLOPS |
半精度性能 (FP16) |
1513 TFLOPS (PCIe) 1979 TFLOPS (SXM) |
312 TFLOPS (PCIe) 624 TFLOPS* (NVLink) |
112 TFLOPS (PCIe) 125 TFLOPS (NVLink) |
65 TFLOPS | - | - |
整数运算能力 (INT8) |
3026 TOPS (PCIe) 3958 TOPS (SXM) |
624 TOPS (PCIe) 1248 TOPS (SXM) |
250 TOPS | 130 TOPS | 47 TOPS | 22 TOPS |
GPU显存 | 80GB | 80GB HBM2 | 32/16GB HBM2 | 16GB | 24GB | 8GB |
显存带宽 | 2TB/s (PCIe) 3.35TB/s (SXM) |
1935 GB/s (PCIe) 2039 GB/s (SXM) |
900 GB/s | 320 GB/s | 346 GB/s | 192 GB/s |
互联技术 | NVLink 4.0:900 GB/s PCIe 5.0:128GB/s |
NVLink 3.0:600 GB/s PCIe 4.0:64 GB/s |
NVLink:300 GB/s PCIe:32 GB/s |
- | - | - |
外形规格 | PCIe 双插槽风冷式 SXM |
PCIe 双插槽风冷式 SXM |
PCIe 双插槽全高外形 NVLink |
PCIe 半高外形 | PCIe 双插槽全高外形 | PCIe 半高外形 |
功率 | 350W (PCIe) 700W (SXM) |
300W (PCIe) 400W (SXM) |
250W (PCIe) 300W (NVLink) |
70W | 250W | 50W / 75W |
架构 | Hopper(赫柏)架构 | Ampere(安培)架构 | Volta(伏特)架构 | Turing(图灵)架构 | Pascal(帕斯卡)架构 | Pascal(帕斯卡)架构 |
CUDA核心数量 | 18432 | 6912 | 5120 | 2560 | 3840 | 2560 |
发布时间 | 2022 | 2020 | 2017 | 2018 | 2016 | 2016 |
高端芯片限购
2022年10月,美国首次正式推出限制AI芯片对华出口的政策,要求高性能芯片如果同时满足以下两个条件的即为受管制的高性能计算芯片:
- 芯片的I/O带宽传输速率大于或等于600 Gbyte/s
- 数字处理单元/原始计算单元每次操作的比特长度乘以TOPS 计算出的算力之和大于或等于4800TOPS
此举,直接导致了英伟达的A100、H100(售价2.5-3万美元)等高性能AI芯片无法对华出口。随后,为了挽回中国市场,英伟达在A100、H100基础上做了阉割,推出了A800、H800两款中国定制款芯片,也就是A800是A100的阉割版,H800是H100的阉割版;
- 阉割版的A800主要限制了带宽,从A100的600GB/s降至400GB/s,对算力基本没限制;
- 阉割版的H800对算力和带宽都做了限制,带宽从H100的900GB/s降至400GB/s,算力主要限制双精度计算(FP64),以NVLINK版为例,从34TFLOPS降到1TFLOPS;
但是,2023年10月17日,美国商务部又推出了新的限制规则,进一步收紧了限制范围:
针对高性能芯片,满足以下任一标准:
- 总算力之和≥4800TOPS
- 总算力≥1600,且性能密度≥5.92
针对次高性能芯片,满足以下任一标准:
- 2400≤总算力<4800,且1.6<性能密度<5.92
- 总算力≥1600,且3.2≤性能密度<5.92
此举,再次导致了英伟达的A800、H800等高性能AI芯片无法对华出口,此外,英伟达L40S、消费级高端显卡RTX4090等产品也受到了限制。不过,英伟达依旧不甘心放弃中国这个庞大的AI芯片市场。于是在2023年第四季度,英伟达又针对中国市场开发出了符合美国最新限制政策的四款AI芯片,包括 HGX H20(算力约为50%A100和15%H100,售价10W人民币)、L20 PCle 和 L2 PCle。同时还开发了符合新规的消费级高端显卡RTX 4090 D。
国产GPU
华为两款GPU
- 昇腾 310,是华为云ecs唯一在售的gpu型号
- 昇腾 910B,是国内首款能与Nvidia A100抗衡的AI芯片
维度 | Ascend 310 | Ascend 910B |
---|---|---|
半精度(FP16) | 8 TFLOPS | 256 TFLOPS |
整数精度(FP8) | 16 TFLOPS | 512 TFLOPS |
显存 | 8GB | - |
功耗 | 8W | 310W |
制程 | 12nm | 7nm |
架构 | 达芬奇 | 达芬奇 |
发布日期 | 2018-10-10 | 2019-08-23 |
使用场景 | 移动端的推理场景,低功耗,物联网 | 云端的AI训练,高端计算 |
局限 | - | 不能做GPT-3(不支持32位浮点) |
价格 | xxx 元/片 | 12万元/片 |
寒武纪
- 思元590(寒武纪最好的产品,ASIC架构,劣势是通用型不太好),基本支持主流的模型,综合性能接近A100 80%的水平