H200 GPU 服务器采购协商平台

最终合同（修订版）已将附件X直接嵌入主合同，不再需要另签补充协议。4小时重大故障响应、0.5%/天超时违约金、测试证据法律效力等条款远超行业标准。

8/8

原始问题已解决

附件X

已嵌入主合同（无需另签补充协议）

¥332万

合同总价（10+40+40+10 分期）

已解决的问题最终合同已覆盖

已解决1. 付款方式

10% 预付（非定金不可退）→ 40% 清单确认 → 40% 初验后 → 5% 验收尾款 + 5% 质保金（保修期满后付）。质保金条款较强势，可作谈判筹码。

已解决2. 验收机制

分初步验收 + 最终验收，须甲方书面确认。收货/签收/通电/临时使用均不视为验收通过。

已解决3. 维修/备机

24h 响应，3 自然日解决。超时须提供替代方案或备用设备。更换部件质保重新计 12 个月。

已解决4. 原厂免责条款

"供货紧张、原厂排产、市场缺货等商业风险不属于乙方免责事由"— 彻底堵死漏洞。

已解决5. 质保起始日

自最终验收合格之日起算 36 个月。

已解决6. 设备清单框架

发货前须提交品牌/型号/序列号/配件/软件版本完整清单，经甲方书面确认。SSD 品牌和配件问题通过此机制解决。

已解决7. 逾期交付

万分之五/天违约金，超 7 天可解约退款赔损。

已解决8. 其他保护

不得远程锁定设备；风险在最终验收前由卖方承担；争议由买方所在地法院管辖；买方违约金上限 5%。

当前待办重点需立即行动

已完成1. 附件X已嵌入主合同

修订版直接将性能验收标准（Decode ≥ 40 tok/s 等）、72h 压测、GPU 底板维修、备机条款、证据效力等全部写入主合同附件X，不再需要另签补充协议。比单独签补充协议法律效力更强。

已生成完整版合同文档：最终合同-完整版（主合同+附件X）.md，附件X 中的指标表格已填入具体数值，请内部确认后转 .docx 发卖方。

待办2. 审核《设备详细清单》

卖方发货前会提交清单。审核要点：
· SSD 品牌型号（须为企业级 Solidigm/Micron 等）
· 线缆/配件是否完整（IB 光缆、C19/C20 电源线、机柜导轨）
· GPU HGX 底板序列号
· 所有配件包含在 ¥332 万总价内（合同第一条第3款已约定）

仍需确认建议

确认Dell 授权经销商身份

致电 Dell 中国 (400-886-8610) 确认上海砚驰资质，确保 ProSupport 保修可正常激活。

确认操作系统/驱动安装不额外收费

合同写明"全部费用已含"，但建议口头再确认 Ubuntu/Rocky Linux + CUDA 安装在调试服务范围内。

以下为最终合同（SHYC-XAN-2026-04-03）的核心条款解读。设备配置清单将由卖方在发货前另行提交，经买方书面确认后成为合同附件。

最终合同核心条款

条款	内容	评价
总价	¥3,320,000（含设备/包装/运输/保险/装卸/上架/安装调试/技术服务/税费）	全包价，无隐藏费用
交货时间	合同生效 + 首付后 7 自然日内送达	好
付款	10% 预付 → 40% 清单确认 → 40% 初验后 → 5% 验收尾款 + 5% 质保金（保修期满后付）	质保金留至保修期满
预付款性质	预付款，非"定金不可退"；乙方违约 3 工作日内退还	好，保护买方
设备清单	发货前须提交品牌/型号/序列号/配件/软件版本，经甲方书面确认	好，可审核 SSD 品牌
初步验收	货到 3 工作日内验外观/包装/数量/型号	合理
最终验收	须甲方书面确认；收货/签收/通电/临时使用均不视为验收通过	极好
性能标准	附件X直接嵌入主合同，含量化指标+测试命令+整改规则	已嵌入，无需另签
质保	36 个月，自最终验收合格之日起算	好
维修响应	一般故障 24h/3日；重大故障（宕机/XID/掉卡）4h 响应 24h 出方案；备机 24h 交付，逾期买方可自行租赁卖方买单	极强
2次修不好	同一故障 2 次未修好 / 同一部件质保期内 2 次故障 → 整机更换	新增保护
超时违约金	超 10 天未解决 → 0.5%/天（≈¥1.66万/天），不足弥补损失的继续赔偿	极强
测试主导权	甲方主导，乙方无条件配合；测试脚本/日志/截图/录像均为法律证据	极好
解约退款	5 工作日内退全款 + 甲方留置权 + 退运费卖方承担	新增
更换部件质保	维修/更换后重新计算，不少于 12 个月	好
不可抗力	供货紧张/原厂排产/市场缺货等商业风险不属于免责	极好，堵死漏洞
逾期交付	万分之五/天，超 7 天可解约退款赔损	好
买方违约上限	合同总价 5%	有利于买方
远程锁定	卖方不得以付款争议为由远程锁定/停用设备	重要保护
风险承担	最终验收前货物风险由卖方承担	好
争议管辖	甲方（买方）所在地法院	有利于买方
发票	13% 增值税专用发票	好

与初始合同的对比（关键改善）

条款	初始合同	最终合同
付款	10% 定金 + 90% 发货前付清	10+40+40+10 分期，90% 验货后付
验收	7 天无异议 = 通过	双阶段，须书面确认
维修备机	无备机条款	超时须提供备用设备
原厂免责	"原厂不供货不视为违约"	商业风险不属于免责
质保起始	未明确	最终验收合格之日
逾期退出	无	超 7 天可解约退全款
争议管辖	卖方所在地（嘉定）	买方所在地
配置锁定	"以实际供货批次为准"	未经甲方同意不得擅自变更

最终合同已解决此前大部分修改要求。以下是基于最终合同的后续待办清单。

后续行动清单

#	事项	说明	优先级
1	确认附件X指标 + 转 .docx 发卖方	修订版已将附件X直接嵌入主合同（无需另签补充协议）。完整版文档已生成，指标已填入。请确认后转 .docx 发卖方律师。	确认后发出
2	审核《设备详细清单》	卖方发货前提交。重点审：SSD 品牌（须企业级）、线缆/配件完整性、GPU 底板序列号、所有配件含在总价内。	收到后立即
3	确认 Dell 授权经销商	致电 Dell 中国 400-886-8610 确认上海砚驰资质	签约前
4	确认机房基础设施	供电 ≥ 20kW（C19/C20）、制冷 ≥ 10.5kW、机柜深度 ≥ 1100mm、承重 ≥ 200kg	到货前
5	准备验收工具	SGLang 测试脚本 U 盘、fio 测试脚本、nvidia-smi 检查清单	到货前
6	注册云 GPU 灾备	阿里云 PAI / AWS p5 等，跑通"本地→云"切换流程	建议

原始修改要求达成情况

原始要求	状态	最终合同条款
付款分期	已达成	10+40+40+10，预付款可退
验收期限延长	已达成	双阶段 + 须书面确认，无自动验收
量化验收标准	已达成	附件X直接嵌入主合同，含具体指标+测试命令
维修时限+备机	已达成+强化	一般24h/3日，重大4h/24h，备机24h交付，2次修不好整机换
配件清单	已达成	发货前提交完整清单经确认
SSD 品牌	已达成	设备清单须载明品牌型号
原厂免责限制	已达成	商业风险不属于免责
质保起始日	已达成	自最终验收合格之日
延迟交付违约金	已达成	万分之五/天，超 7 天可解约

目标价位

档位	价格	说明
理想价	¥295~305 万	美国 $350K × 1.13 税 × 1.15 渠道 ≈ 295 万
合理价	¥310~320 万	含 ProSupport 3 年 NBD + 安装调试 + 含税
当前报价	¥332 万	合同价格，必须包含所有服务才值这个价

谈判筹码（按杀伤力排序）

强1. "有另一家报价更低"

不要暴露超微报价具体数字，只说"有另一家同配置报价更低"制造竞争压力。

强2. "美国 Newegg 同款 $350K，汇率才 241 万"

对方会说"含税含保不一样"，接住说"那把税票和保修级别写清楚"。

中3. 提高预付比例换价格

"我们可以接受 50% 预付（比行规高），但总价要让。"现金流对经销商很重要。

中4. 暗示后续采购 2~3 台

"这台先打个样，后面可能再追加 2~3 台。"即使只买 1 台也能拿到更好的价。

弱5. 降保修换价格

"保修我们只要基础 3 年就够，不需要 Plus。"如果对方要加钱升保修，就用降保修来换价格。

谈判红线（低于此条件不签）

必须 13% 增值税专票必须含 3 年保修（NBD 优先）必须含运输+上架+调试性能不达标可退货至少 30% 款项挂终验+质保金

谈判节奏建议

先谈付款方式，再谈价格。付款方式对你的风险保障比价格更重要。如果对方坚持"发货前付清"且不让步，建议放弃这家。

拿报价单和合同的矛盾点施压："你报价单说寄修、不提供备机，合同却说上门维修换新——到底是哪个？请写清楚。"

不要急于签约。合同日期是 2026-04-03，说明对方很急。越急越说明有让利空间。

确认 Dell 授权经销商身份。如果不是授权经销商，Dell ProSupport 可能无法激活，332 万就不值。

交付流程 & 付款节点

阶段一：签约 + 预付（T+0）

签署最终合同 · 卖方开始备货

支付预付款 10%（¥33.2 万）— 性质为预付款，非定金不可退

阶段二：清单确认 + 第二笔付款

卖方提交《设备详细清单》（品牌/型号/序列号/配件/软件版本）· 买方审核 SSD 品牌、线缆配件 · 买方书面确认

支付 40%（¥132.8 万）

阶段三：到货 + 安装 + 初验（T+7 起）

设备送达 · 3 工作日内初步验收（外观/包装/数量/型号/配件）· 卖方完成安装、上架、调试 · 初步验收合格

支付 40%（¥132.8 万）

阶段四：性能验收 + 72h 压测 → 最终验收

按《补充协议》执行性能测试（Decode ≥ 34 tok/s · 并发 ≥ 640 tok/s · NVLink NV18）· 72h 稳定性测试（温度/XID/掉卡/带宽）· 全部通过 → 出具书面《最终验收确认》· 质保期开始（36 个月）

阶段五：验收尾款（最终验收合格后）

通过附件 X 全部测试 + 甲方书面确认最终验收合格 → 支付验收尾款

支付验收尾款 5%（¥16.6 万）

阶段六：质保保证金（保修期满 36 个月后）

质保期（36 个月）届满，设备无未解决的重大质量问题 → 30 工作日内支付 · 期间有未解决故障/整改/违约赔偿可继续暂扣 · 此条款较强势，可作为谈判让步筹码

支付质保保证金 5%（¥16.6 万）

核心性能验收指标

测试项	达标值	允许偏差	不达标处理
DeepSeek R1 Decode 速度	≥ 40 tok/s	±15%（≥ 34）	排查 GPU/NVLink/精度
TTFT 首 Token 时间	≤ 3 秒	预热 3 次后测	检查编译优化
40 人并发总吞吐	≥ 800 tok/s	±20%（≥ 640）	检查 Expert Parallel
NVLink 拓扑	全部 NV18	不允许偏差	立即拒收
72h GPU 温度	≤ 83°C	—	检修散热系统
72h XID 错误	零错误	不允许	返厂换 GPU 底板
72h GPU 掉卡	始终 8 颗可见	不允许	返厂检修底板
72h NVLink 带宽	all_reduce ≥ 800 GB/s	—	排查 NVSwitch

本页用最通俗的方式解释这台服务器里每个零件是干什么的，以及它在跑大模型时扮演什么角色。可以理解为一本"弱智友好版硬件说明书"。

整体比喻：一家超级餐厅

把这台服务器想象成一家餐厅，它的工作就是"接收客人的问题（点菜），然后让 AI 生成回答（做菜）"：

· GPU（8 颗 H200） = 8 个顶级厨师，所有"做菜"（AI 推理计算）都是他们干的
· NVLink / NVSwitch = 厨师之间的传菜通道，让 8 个厨师可以一起做一道大菜
· CPU（2 颗） = 餐厅经理，负责接单、排队、分配任务，但自己不做菜
· 内存（2TB DDR5） = 厨房的备菜台，把食材（模型参数）从冰箱（SSD）搬到台上让厨师用
· SSD（8TB） = 冰箱，存放食材（模型文件）。DeepSeek R1 一个模型就 350GB
· IB 网卡（8 张 400G） = 餐厅的外卖窗口，用于和隔壁餐厅（其他服务器）协作
· 管理网卡 = 餐厅的电话，日常管理、远程登录用
· 电源（6 个 2800W） = 餐厅的电力系统
· iDRAC9 = 远程监控摄像头，不在现场也能看到餐厅状态

逐个零件详解

1. GPU — NVIDIA H200 × 8（最重要，占总价 70%+）

是什么：图形处理器，但现在主要用来做 AI 计算。可以理解为"AI 的大脑"。
大模型里干什么：100% 的推理计算都是 GPU 干的。你问 AI 一个问题，GPU 负责一个字一个字地"想"出答案。
为什么要 8 颗：DeepSeek R1 有 6710 亿个参数，一颗 GPU 装不下（一颗只有 141GB 显存），所以要 8 颗一起分担。这叫"张量并行"。
每颗值多少钱：约 ¥25~30 万，8 颗约 ¥200~240 万，占整机成本 70% 以上。
坏了怎么办：8 颗 GPU 是焊在一块底板（HGX）上的，任何 1 颗坏了都要整块底板返厂。这就是为什么 GPU 底板的维修条款那么重要。

2. NVLink / NVSwitch（合同里没单独列 — 这是正常的）

是什么：GPU 和 GPU 之间的高速通道。
大模型里干什么：8 颗 GPU 各自只算模型的一部分，算完需要互相交换中间结果。NVLink 就是这个"交换通道"，速度 900GB/s（比普通网线快 9000 倍）。
为什么合同不单独列：NVLink 和 NVSwitch 是焊在 HGX GPU 底板上的，不是单独的配件。你买"8×H200 HGX 底板"的时候，NVLink（18 条通道）和 NVSwitch（4 颗交换芯片）已经包含在里面了。所以合同写"NVIDIA HGX H200 SXM 141GB × 8"就已经包含了 NVLink，不需要也不应该单独列出。
验收时怎么确认：跑 nvidia-smi topo -m，所有 GPU 之间必须显示 NV18（18 条 NVLink 通道全连通）。如果出现 PHB 或 SYS 字样，说明走了慢速 PCIe，必须拒收。

3. CPU — Intel Xeon 8562Y+ × 2（不太重要）

是什么：中央处理器，普通电脑的"大脑"。但在 AI 服务器里它不是主角。
大模型里干什么：接收用户请求、把数据喂给 GPU、管理内存、处理网络 I/O。类似"调度员"，真正算力 99% 在 GPU。
所以 CPU 差一点没关系？是的。戴尔用的 32 核（8562Y+）比超微的 48 核（8558）少，但对推理速度影响 < 5%。省下的钱比多核划算。

4. 内存 — 64GB DDR5-5600 × 32 = 2TB

是什么：系统内存（不是 GPU 的显存，两回事）。
大模型里干什么：CPU 用来临时存放数据。模型启动时先从 SSD 加载到内存，再从内存搬到 GPU 显存。2TB 内存够用。
和 GPU 显存的区别：GPU 显存（141GB×8=1.1TB）在 GPU 内部，速度极快（4.8TB/s），是真正跑模型的地方。系统内存（2TB）速度慢得多，主要给 CPU 用。

5. SSD — 8TB U.2 × 1

是什么：固态硬盘，存文件的。
大模型里干什么：存模型文件。DeepSeek R1 的模型文件约 350GB（FP8 精度），8TB 能放 20 多个这样的模型。
品牌重要吗：重要。企业级 SSD（如 Solidigm D7-P5520）顺序读 7GB/s，杂牌可能只有 2~3GB/s。加载模型时差距明显：350GB 模型用好盘 50 秒加载完，杂牌要 2 分钟。这就是为什么我们要求合同写明 SSD 品牌。

6. IB 网卡 — NVIDIA ConnectX-7 NDR 400Gb/s × 8

是什么：InfiniBand 高速网卡，速度 400Gb/s（比普通千兆网卡快 400 倍）。
大模型里干什么：用于多台服务器之间通信。如果你有 2 台以上服务器组集群训练/推理，GPU 之间跨机通信就走这个。
只买 1 台需要吗：暂时不需要。单台服务器内部 GPU 通信走 NVLink（焊在底板上），不走 IB 网卡。但 IB 卡是标配，以后扩集群用得上。
线缆的事：IB 网卡本身含在配置里了，但连接线缆没有列。每根 NDR 光缆 ¥1~4 万。如果暂时只用 1 台不组集群，这笔线缆钱可以先不花。

7. 管理网卡 — 万兆双光口 × 1

是什么：普通的以太网网卡，10Gbps。
干什么：日常管理用 — SSH 登录服务器、下载模型文件、提供 API 服务。就是平时你连服务器用的网口。

8. 电源 — 2800W × 6

是什么：把机房的交流电转成服务器需要的直流电。
为什么要 6 个：冗余。8 颗 H200 满载约 5600W + CPU/内存/风扇约 1500W = 总共约 7000W。6 个 2800W 的 PSU 总容量 16.8kW，坏掉 1~2 个仍能运行。
需要注意：普通家用插座（10A/220V=2200W）带不动一个 PSU。必须用机房级 PDU 和 C19/C20 工业插头。

9. iDRAC9 Datacenter — 远程管理卡

是什么：Dell 独有的远程管理系统，业界公认最强。
干什么：不用去机房就能远程开关机、看硬件状态、装系统、看温度、更新固件。相当于给服务器装了一个远程监控摄像头 + 遥控器。
为什么值钱：超微的 IPMI 管理界面像 2005 年的网页，功能少还难用。iDRAC9 支持 MFA 登录、自动固件更新、碳排放监控，安全功能是超微的 3.5 倍。这是选戴尔而不选超微的重要理由之一。

10. TPM 2.0 — 安全芯片

是什么：一颗专门做加密的小芯片。
干什么：安全启动、磁盘加密、密钥存储。防止有人拆硬盘偷数据。对 AI 推理性能没有影响，但企业合规通常要求有。

数据流向：用户提问到 AI 回答的全过程

① 用户发问题 →（通过管理网卡）→ 到达服务器
② CPU 接收请求 → 把问题转成 token（数字序列）
③ CPU 把 token 发给 GPU →（通过 PCIe 总线）→ 到达 8 颗 GPU
④ 8 颗 GPU 协作计算 →（通过 NVLink/NVSwitch 交换中间结果）→ 每秒生成约 40 个 token
⑤ GPU 把生成的 token 发回 CPU → CPU 转成文字
⑥ 文字通过网卡返回给用户

整个过程中，步骤④占了 99% 的时间和算力。所以 GPU 最重要、最贵、最需要关注。

KV Cache 是什么？为什么它决定能同时服务多少人？

一句话：KV Cache 就是 AI 的"短期记忆"。它让 AI 在生成回答时不用每个字都把之前的对话重新算一遍。

生活化比喻：
想象你在写一篇文章。每写一个字，你都需要回头看一遍前面已经写了什么，才能决定下一个字写什么。

· 没有 KV Cache = 每写一个字，都要从第一个字重新读一遍全文。写到第 1000 个字时，你已经重新读了 1000 遍开头。
· 有 KV Cache = 把前面读过的内容做成"笔记"存起来，每次只看笔记就行，不用重头读。

这个"笔记"就是 KV Cache —— K 是 Key（索引），V 是 Value（内容），合在一起就是"这段对话里哪些内容重要、对应什么意义"的压缩记录。

为什么它很吃显存？
每一个用户的每一轮对话都需要一份独立的 KV Cache。对话越长（上下文越大），这份"笔记"就越厚。多个用户同时提问，就需要同时存多份"笔记"。

举例（DeepSeek-R1 671B FP8）：
· 模型权重占 671GB（固定不变，所有用户共享）
· 框架开销约 20GB
· 剩余 437GB 全部给 KV Cache
· 每个用户的 KV Cache 大小取决于上下文长度 —— 越长的对话，每个人占的显存越多，能同时服务的人就越少

DeepSeek-R1 用了 MLA（Multi-head Latent Attention） 技术，把 KV Cache 压缩到传统方案的约 1/10。这就是为什么 437GB 剩余空间能撑住 40 人并发 —— 换成普通架构的模型，可能 5 个人就把显存撑爆了。

和我们的合同有什么关系？
· 合同附件 X 测试 40 人并发吞吐 ≥ 800 tok/s，这实际上就是在测 KV Cache 能不能扛住
· 如果 GPU 显存有问题（退化、少了），KV Cache 空间缩小，并发性能会明显下降
· 这也是为什么验收时要检查"Retired Pages = 0" —— 显存坏块会直接挤压 KV Cache 的可用空间

模型兼容性：这台机器能跑什么？

8 × H200 总显存 = 8 × 141GB = 1,128GB。模型能不能跑，取决于模型权重能不能装进这 1,128GB。

模型	参数量	FP16 权重	FP8 权重	能跑 FP16？	能跑 FP8？
DeepSeek-R1 671B	6710 亿	1,342 GB	671 GB	不行（超 214GB）	可以（剩 457GB）
Qwen3.5-397B-A17B	3970 亿（激活 170 亿）	794 GB	397 GB	可以（剩 334GB）	可以（剩 731GB）
Llama 3.1 405B	4050 亿	810 GB	405 GB	可以（剩 318GB）	可以（剩 723GB）
Llama 3.1 70B	700 亿	140 GB	70 GB	轻松（剩 988GB）	轻松（剩 1058GB）

计算公式：模型权重 = 参数量 × 每参数字节数（FP16=2字节，FP8=1字节）。除权重外还需要 KV Cache（推理时的临时记忆）和框架开销，一般预留 20~40% 余量。
结论：DeepSeek-R1 671B 只能用 FP8 跑（这是业界标准做法，官方就提供 FP8 权重）。Qwen3.5-397B-A17B 可以用 FP16 满精度跑，因为它虽有 3970 亿参数但用了 MoE 架构，权重总共 794GB 装得下。
合同里写 FP8 是对的：不是降级，是 8×H200 跑满血 671B 的唯一方案。如果卖方说"用 FP16 跑 671B"，说明要么模型不是满血版，要么根本没算过显存。

合同配置清单 — 补充说明

合同里写"NVIDIA HGX H200 SXM 141GB × 8"这一项，实际上已经包含了：

· 8 颗 H200 GPU
· 4 颗 NVSwitch 交换芯片
· 18 条 NVLink 4.0 通道（每条 50GB/s，合计 900GB/s）
· HGX 底板 PCB 和散热结构

这些东西是一整块模组，NVIDIA 出厂时就焊好的，不拆卖。所以合同不需要单独列 NVLink/NVSwitch，写"HGX H200 × 8"就等于全包了。

验收时一定要验的：nvidia-smi topo -m 全部显示 NV18 = NVLink 正常。这是整机最关键的验收项，一个都不能少。

本页将 ¥332 万的合同价拆解到每个零件，对比市场行情，分析卖方利润空间，并提供闲鱼/二手渠道的选购指南与验货方法。重要背景：H200 目前在中国属于出口管制 + 进口管制的双重受限芯片，正规渠道极难获得。

前提：H200 在中国的管制现状（2026 年 4 月）

这不是一个"正常市场"，而是一个受双重管制的灰色市场。理解这个背景，才能理解为什么价格算不清楚。

时间	事件	影响
2023.10	美国 BIS 将 H100/H200 对华出口列为"推定拒绝"	正规渠道断供，灰色渠道开始活跃
2024-2025	大规模走私（"Operation Gatekeeper"查获 $1.6 亿）	通过假公司、改标签、经东南亚中转入境
2026.01.15	特朗普政府放松为"逐案审查"，但加征 25% 关税	理论上可以合法买了，但每单要审批 + 交 25% 税
2026.01 同月	中国海关主动阻止 H200 入境（据路透社）	官方措辞"除非确有必要不得采购"，效果等于禁令
2026.01	国会通过 AI OVERWATCH 法案（42:2 票）	试图将 Blackwell 级禁令法典化两年
当前	美国端：可以卖（要审批+25%税）中国端：海关拦截（事实禁令）	正规渠道几乎不可能。国内在售的 H200 基本都是灰色渠道 / 2023-2025 年间入境的库存。

信息来源：Tom's Hardware (2026.01)、Reuters (2026.01.17)、南华早报 (2026.01)、美国司法部 Operation Gatekeeper 公告。
对我们的影响：砚驰卖给我们的这台机器，要么是管制前的库存，要么是通过灰色渠道入境。这意味着：①价格没有"正常市场价"可言，②不能简单用美国官价×汇率来算，③ 卖方的货源本身有溢价。

整机 BOM 成本拆解

下表提供两种汇率参考：¥6.89（2026.04 央行中间价）用于计算"如果能正常合法进口"的理论成本，+50% 灰色溢价用于反映当前中国市场实际行情（据南华早报报道）。
数据来源：Interpromicro、CDW、Newegg、Intel 官网、FS.com 等公开渠道价（2025-2026）。OEM 批量价通常比零售低 20~40%，下表取中间值。

部件	规格	美元单价	数量	美元小计	理论价（¥6.89）	占比
HGX H200 底板	8×H200 SXM + 4×NVSwitch + NVLink	$308,000~315,000	1	~$310,000	¥213.6 万	87%
CPU	Intel Xeon 8562Y+ (32C)	$6,000	2	$12,000	¥8.3 万	3.4%
内存	64GB DDR5-5600 ECC RDIMM	~$200（OEM批量）	32	$6,400	¥4.4 万	1.8%
SSD	8TB U.2 NVMe 企业级	~$1,500	1	$1,500	¥1.0 万	0.4%
IB 网卡	ConnectX-7 NDR 400G	~$1,800	8	$14,400	¥9.9 万	4.0%
电源	2800W 钛金 PSU	~$400	6	$2,400	¥1.7 万	0.7%
机箱+散热+主板	XE9680 6U 系统	~$10,000	1	$10,000	¥6.9 万	2.8%
其他	iDRAC9+管理网卡+TPM	~$1,000	1	$1,000	¥0.7 万	0.3%
硬件裸成本合计（理论正常进口）				~$357,700	~¥246 万	—

汇率说明：按 2026 年 4 月央行中间价 ¥6.89 计算（非之前错误使用的 7.25）。
关键事实：GPU 底板占整机硬件成本 87%。其余全部零件加起来才 ¥33 万。这就是卖方不拆开报价的原因 —— 混在一起卖，你没法直接拿 GPU 价格去比。
但以上是"理想情况"：这个价格假设你能像在美国一样正常买。实际上 H200 在中国受双重管制（见上表），国内拿到的货必然经过灰色渠道或管制前库存，有额外溢价。

从裸成本到合同价：中间加了什么？

层级	计算	说明	金额
美国硬件裸成本	$357,700 × 6.89	假设能合法购买	¥246 万
+ 13% 增值税	×1.13	国内开专票必须	¥278 万
+ 合规渠道 15%	×1.15	物流/安装/正常利润	¥320 万
+ 灰色渠道溢价	—	管制下的实际获取成本	不透明
我们的合同价	—	—	¥332 万

如果一切合法正常：¥246 万成本 + 税 + 15% 渠道费 = 约 ¥320 万。合同价 ¥332 万只多了 ¥12 万，利润率约 4%，几乎没赚。
但现实是：H200 在中国无法正常进口。据南华早报 2026 年 1 月报道，灰色市场 8×H200 服务器报价约 ¥230 万（$33 万），较官方标价溢价约 50%。英伟达给中国客户的 8 芯片模组官方定价约 ¥150 万（据财经头条 2026.01），灰色市场抬到 ¥200~230 万是常态。
换句话说：卖方拿到 GPU 底板的成本可能就已经在 ¥200~230 万这个区间了，加上其余零件 ¥33 万 + 税 + 利润，¥332 万其实不算暴利，甚至可能利润不高。灰色渠道的溢价被卖方和中间商吃掉了，不全是卖方一个人赚的。

市场行情对比（2026 年 4 月，汇率 ¥6.89）

渠道	价格	说明	评价
美国 Interpromicro（Dell XE9680 整机）	$262,000 → ¥181 万	美国裸价，中国买不到（出口管制）	仅供参考
美国 Newegg（同款）	$350,000 → ¥241 万	含美国渠道加价，中国买不到	仅供参考
NVIDIA 官方对华定价（8卡模组）	~¥150 万	据财经头条 2026.01 报道，但海关不放行	理论价，买不到
灰色市场（8×H200 服务器）	~¥230 万	据南华早报 2026.01，官方价溢价 ~50%	灰色渠道
闲鱼（仅 8×H200 HGX 底板）	¥200 万	仅 GPU 底板，无整机、无质保、来源未验证	需验货
我们合同（砚驰 · Dell XE9680 整机）	¥332 万	含安装调试 + 3 年质保 + 13% 专票	管制环境下可接受
超微正式渠道整机	¥350 万	我们拿到的另一份报价	比我们合同贵 ¥18 万

注意：上表中美国价格不能直接换算成"中国应该多少钱"。正规渠道已不通，灰色渠道有 30~50% 溢价。对比应以国内实际可拿到的价格为准。

闲鱼 / 二手渠道 8×H200：便宜多少？

直接比：
· 合同整机内 GPU 底板估算：~¥225 万
· 闲鱼报价（8×H200 HGX 底板）：¥200 万
· 差价：便宜约 ¥25 万（约 11%）

折合单卡：
· 合同内估算：¥225 万 ÷ 8 = ¥28.1 万/卡（~$3.87 万）
· 闲鱼：¥200 万 ÷ 8 = ¥25 万/卡（~$3.45 万）
· 市场公开价区间：$3.0~4.0 万/卡

闲鱼确实更便宜，但：你买的只是一块 GPU 底板，不是整机。自己配齐剩下的「CPU + 内存 + SSD + IB 网卡 + 机箱 + 电源 + 散热 + 管理卡」还要约 ¥34 万，再加上 组装调试人工。最终裸配（不含质保/发票）落地约 ¥234~250 万 左右。

闲鱼淘货指南：怎么找、怎么判断

一、搜索关键词

· H200 HGX / H200 SXM / H200 8卡 / H200 底板
· NVIDIA HGX H200 / 8×H200
· XE9680 / 821GE（整机关键词）
· 注意排除：H200 相机、H200 移动硬盘（会有干扰）

二、照片怎么看（快速判断）

必须看到的特征：
· 8 颗 SXM 模组：两排各 4 颗，印有 NVIDIA logo 的金属散热盖
· 大底板：所有 GPU 焊在同一块板上，尺寸约 60×40cm
· NVSwitch 区域：GPU 下方/中间有一排长条散热片，盖着 4 颗 NVSwitch 芯片

危险信号：
· 如果 GPU 是独立的板卡（带 PCIe 金手指）→ 那是 PCIe 版，不是 SXM，没有 NVLink
· 如果只有 4 颗 GPU → 那是半板，不是 8 卡
· 如果底板上缺 NVSwitch 散热片（中间空旷）→ 可能是拆掉了 NVSwitch 的残板
· 如果标签模糊/被涂改 → 来源存疑

三、必须问卖家的问题

1. 型号确认：是 H200（141GB HBM3e）还是 H100（80GB HBM3）？外观几乎一模一样，价格差一倍
2. 来源：整机拆机？矿场退役？样品？渠道尾货？
3. 通电测试：能否提供 nvidia-smi 截图？显示 GPU 型号 + 显存 141120 MiB
4. NVLink 拓扑：能否提供 nvidia-smi topo -m 截图？全 NV18 = 正常
5. XID / ECC：nvidia-smi -q 查 Retired Pages 和 Remapped Rows，是否为 0
6. 使用时长：GPU 有运行时间计数器，可以查累计使用小时数
7. 保修：有无任何保修？NVIDIA 原厂保修跟机器序列号，拆机板通常无法转保

四、到货验收（最关键）

不管卖家说什么，上机实测才是唯一真相：

#	验证项	命令	正常结果	异常 = 退货
1	是不是 H200	`nvidia-smi -L`	显示 "NVIDIA H200"	显示 H100 或其他
2	显存是否 141GB	`nvidia-smi -q \| grep "FB Memory"`	141120 MiB × 8	少于 141120
3	NVLink 全连通	`nvidia-smi topo -m`	8×8 矩阵全 NV18	出现 PHB/SYS/NODE
4	NVSwitch 活跃	`nvidia-smi nvlink --status`	每卡 18 个 Active	有 Inactive
5	显存无退化	`nvidia-smi -q \| grep -A5 "Retired"`	Retired Pages = 0	有 retired pages
6	无 XID 错误	`dmesg \| grep -i xid`	空输出	有 XID 错误
7	跑分正常	`gpu-burn 600`（烤10分钟）	温度 ≤ 83°C，不掉卡	过热/掉卡/报错
8	推理性能	跑 bench_one_batch	Decode ≥ 34 tok/s	明显低于预期

五、风险总结

闲鱼便宜的代价：
· 无质保：GPU 底板坏了要整块换，一块底板成本 ¥200 万级别，自己承担
· 来源不明：可能是矿场退役（高负载跑过很久）、工程样品、被制裁渠道流出
· H100 冒充 H200：外观几乎一样，不上机看 nvidia-smi 无法区分
· 无发票：没有增值税专票，企业入账困难
· 需要自己攒机：买到底板后还要自配机箱/CPU/内存/SSD/电源/散热，有一定技术门槛

适合什么人：
· 有硬件团队，能自己攒机调试
· 不需要正规发票（个人/小团队研究用途）
· 愿意承担无质保风险
· 预算有限，想用 ¥234~250 万干 ¥332 万的事

不适合什么人：
· 需要正规采购流程、增值税专票、公司入账
· 没有硬件运维能力
· 对业务连续性要求高（坏了没人修）
· 怕买到 H100 冒充品

砍价筹码：怎么跟卖方谈（考虑管制背景）

先认清现实：在管制环境下，卖方的拿货成本本身就有灰色溢价。你不能拿美国裸价直接要求对方按那个价卖 —— 他根本没有合法渠道按美国价拿货。但以下论据仍然有效：

1. 闲鱼价格论据（最有力）
"闲鱼上 8×H200 HGX 底板 ¥200 万。加上其余零件 ¥33 万 + 组装调试，自己攒一台落地不到 ¥250 万。你整机 ¥332 万，多出来的 ¥80 万买的是什么？" —— 卖方必须用质保、发票、售后来证明这 ¥80 万的价值。

2. 灰色市场行情论据
"南华早报报道灰色市场 8×H200 服务器才 ¥230 万。你比灰色市场还贵 ¥102 万，总不能说你的灰色渠道比别人的灰色渠道贵吧？"

3. 超微竞品论据
"超微那边报价 ¥350 万，你 ¥332 万确实便宜了 ¥18 万。但核心配置完全一样，能不能再让一点？"

4. 现实目标价
· 激进目标：¥295~305 万（灰色市场服务器价 ¥230 万 + 正规发票/质保溢价 30%）
· 现实目标：¥310~320 万（让卖方有合理利润，换取 3 年质保 + 专票）
· 当前合同价：¥332 万（管制环境下可接受，但仍有 ¥12~22 万谈判空间）

5. 心理底线
在管制环境下，¥332 万拿到的是品牌整机 + 3 年质保 + 13% 专票 + 安装调试 + 合同法律保障。闲鱼 ¥200 万拿到的只是一块裸板，没有以上任何一项。如果公司需要正规入账，这个差价是有道理的。
但如果不需要发票、有硬件团队、能承受风险 —— 闲鱼方案能省 ¥80~100 万。

机房基础设施准备

XE9680 满载功耗约 10.5kW、重量约 130kg，对机房供电/散热/承重要求极高。签约前务必确认机房能满足以下条件，否则买了也装不了。

项目	最低要求	建议值	备注
供电容量	6 × 2800W = 16.8kW（PSU 额定总功率）	预留 20kW 给单台机器	需 3 路独立 C19/C20 回路（每路 ≥ 32A/240V），或工业三相电直接供电
PDU（配电单元）	支持 C19 插座 × 6	智能 PDU 带电流监控	普通民用插排绝对不行。2800W PSU 使用 IEC C20 插头，需 C19 插座的机柜级 PDU
制冷能力	满足 10.5kW 散热	机柜冷通道 / 精密空调	10kW 发热量相当于 3 台家用 3 匹空调满载。普通办公室空调扛不住
进风温度	≤ 35°C（ASHRAE A1）	18~27°C	环境温度过高会触发 GPU 降频保护，直接影响 Decode 性能
机柜尺寸	42U 标准机柜，深度 ≥ 1100mm	深度 1200mm 以上	XE9680 深度约 920mm + 线缆空间需要 ≥ 1100mm
机柜承重	≥ 200kg（含导轨自重）	≥ 300kg	XE9680 满载约 130kg（6U），轻型机柜可能不安全
地板承重	机柜 + 服务器 + PDU ≥ 400kg	—	高架地板需确认承重；非高架地板一般没问题
UPS（不间断电源）	可选但建议	在线式 UPS ≥ 15kVA	突然断电可能损坏 GPU/数据。如果机房有市电 + 柴发双路可不用单独 UPS
网络接入	至少 1Gbps 以太网口到服务器管理网卡	10GbE + 带外管理	模型下载需要带宽（DeepSeek R1 约 350GB），1G 网口下载一次要 45 分钟
物理安全	独立锁定机柜	门禁 + 监控	单台设备价值 330 万

到货物流与上架实操

130kg 的 6U 服务器不能靠人力搬运。到货当天需要安排叉车、升降平台或至少 4 人搬运。

环节	负责方	需准备的
运输到楼下	卖方（合同约定）	确认卡车能到达机房所在建筑，有无限高限重
搬运至机房	合同约定卖方做	确认有货梯（承重 ≥ 500kg）或一楼机房直接入库
拆箱验外观	双方在场	拍照记录包装完整性，开箱前拍四面照片（作为运损理赔依据）
安装导轨	卖方安装调试	确认机柜有足够的方孔或圆孔安装位（6U = 10.5 个安装孔位）
上架（最关键）	卖方 + 至少 4 人	130kg 推入导轨，液压升降台或机柜电梯最安全
接电/接网	卖方完成	提前布好 6 根 C19-C20 电源线 + 1 根管理网线到机柜
通电测试	双方在场	iDRAC9 web 界面确认所有组件识别正常

单机推理场景下的 IB 网卡说明

你买的 8 张 NDR 400G IB 网卡（MCX75310AAS-NEAT）是用于多机互联的，不是 GPU 之间通信用的。 GPU 之间通过 HGX 底板上的 NVSwitch + NVLink 直接通信（900GB/s），完全不经过 IB 网卡。

场景	IB 网卡是否需要	说明
单台服务器跑 DeepSeek R1 推理	不需要	8 颗 GPU 通过 NVLink 通信，和 IB 网卡无关
多台服务器组集群训练	必需	每台 8 张 IB 卡 + NDR 交换机（约 ¥30~80 万/台）
多台服务器组集群推理（tensor parallel 跨机）	必需	同上
高速数据传输（模型分发）	可选	用 IB 传模型比 10G 以太网快 40 倍，但需要对端也有 IB

结论：如果只买 1 台跑推理，8 张 IB 卡暂时用不上，但它们是 XE9680 标配且占总价比例小（~¥10 万 / ¥332 万 ≈ 3%），不值得为此砍配。留着以后扩集群用。但线缆可以暂时不买 — NDR 光缆每根 ¥1~4 万，8 根要 ¥8~32 万。如果暂时不组集群，可以和卖方确认是否随机附送 IB 线缆；如果不附送且你不需要，就不用为此争论了。

停机灾备应对方案

GPU 底板故障返海外维修可能停机 1-2 个月，必须有预案。

故障场景	预估停机	应对方案
电源/内存/SSD 故障	1~3 天	合同已承诺 3 自然日内解决，锁死这个时限。建议自备 1 条 64GB DDR5 备件（约 ¥800）
单颗 GPU 故障（HGX 底板）	10~60 天	整板返厂。合同写入备机方案或停机赔偿。同时准备云 GPU 降级方案（如阿里云/AWS H100 按量计费）
NVSwitch 故障	10~60 天	底板级故障，同上
CPU 故障	3~7 天	Dell 有国内备件库，响应较快
整机无法启动	1~3 天	iDRAC9 远程诊断 → 定位故障件 → 按件更换

关键建议：提前注册一个云 GPU 服务账号（阿里云 PAI / AWS p5 / Azure ND 系列），和运维团队跑通一次"本地模型切换到云推理"的流程。这样 GPU 底板返厂期间可以快速切到云上，虽然成本高但不至于业务完全停摆。

签约前必做事项

买方可在此提交内部讨论、决策指示、谈判要点等。同时可查看卖方提交的反馈。同设备访问时数据自动共享；跨设备需部署后端（见 README）。

项目	内容
采购标的	Dell PowerEdge XE9680 (6U, 8-GPU) × 1 台
用途	大语言模型（DeepSeek R1 671B / Qwen 系列）本地推理部署
合同号	SHYC-XAN-2026-04-03
合同总价	¥3,320,000 元（含 13% 增值税）
卖方	上海砚驰信息科技有限公司
期望交付	合同生效 + 首付后 7 个自然日内送达（合同约定）

测试项	达标要求	不合格处理
GPU 满载温度	持续 ≤ 83°C	检修散热系统后重测
XID 错误	72h 零 XID 错误	可能需返厂换 GPU 底板
GPU 掉卡	始终 8 颗可见	返厂检修底板
NVLink 带宽	all_reduce ≥ 800 GB/s	排查 NVSwitch
内存 ECC	零不可纠正错误	更换故障内存条
系统稳定性	无宕机/无自动重启	排查原因后重测
GPU 功耗/时钟	功耗 ≥ 600W，无异常降频	排查电源/散热
Decode 性能采样	第 0/24/48/72h 波动 ≤ 10%	排查 GPU 热降频/退化

部件	型号规格	数量
GPU 底板	NVIDIA HGX GPU Baseboard 8×H200 SXM5 141GB（含 4 颗 NVSwitch）	1 套
CPU	Intel Xeon Platinum 8562Y+ (32C/64T)	2 颗
内存	64GB DDR5-5600 ECC RDIMM	32 条（共 2TB）
存储	8TB U.2 NVMe SSD（需注明品牌型号）	1 块
IB 网卡	NVIDIA MCX75310AAS-NEAT NDR 400Gb/s	8 张
管理网卡	万兆双光口网卡（含模块）	1 张
电源	2800W PSU	6 套
管理	iDRAC9 Datacenter	1 套
安全	TPM 2.0	1 套

指标	达标值	允许偏差	说明
Decode 速度（核心）	≥ 40 tok/s	±15%（≥ 34 tok/s）	取 3 次正式测试中位数
Prefill 吞吐	≥ 50 tok/s	—	FP8 精度测试
TTFT 首 Token	≤ 3 秒	—	预热 3 次后测量
单 Token 延迟 ITL	≤ 30 ms	—	—

指标	达标值	偏差
nvidia-smi topo -m 全部 NV18	全部 NV18	不允许
nvidia-smi nvlink --status 全部 Active	全部 Active	不允许
GPU 数量	8 颗	不允许

H200 GPU 服务器采购协商平台

买方入口

卖方入口

已解决的问题 最终合同已覆盖

当前待办重点 需立即行动

仍需确认 建议

最终合同核心条款

与初始合同的对比（关键改善）

后续行动清单

原始修改要求达成情况

目标价位

谈判筹码（按杀伤力排序）

谈判红线（低于此条件不签）

谈判节奏建议

交付流程 & 付款节点

核心性能验收指标

整体比喻：一家超级餐厅

逐个零件详解

1. GPU — NVIDIA H200 × 8（最重要，占总价 70%+）

2. NVLink / NVSwitch（合同里没单独列 — 这是正常的）

3. CPU — Intel Xeon 8562Y+ × 2（不太重要）

4. 内存 — 64GB DDR5-5600 × 32 = 2TB

5. SSD — 8TB U.2 × 1

6. IB 网卡 — NVIDIA ConnectX-7 NDR 400Gb/s × 8

7. 管理网卡 — 万兆双光口 × 1

8. 电源 — 2800W × 6

9. iDRAC9 Datacenter — 远程管理卡

10. TPM 2.0 — 安全芯片

数据流向：用户提问到 AI 回答的全过程

KV Cache 是什么？为什么它决定能同时服务多少人？

模型兼容性：这台机器能跑什么？

合同配置清单 — 补充说明

前提：H200 在中国的管制现状（2026 年 4 月）

整机 BOM 成本拆解

从裸成本到合同价：中间加了什么？

市场行情对比（2026 年 4 月，汇率 ¥6.89）

闲鱼 / 二手渠道 8×H200：便宜多少？

闲鱼淘货指南：怎么找、怎么判断

一、搜索关键词

二、照片怎么看（快速判断）

三、必须问卖家的问题

四、到货验收（最关键）

五、风险总结

砍价筹码：怎么跟卖方谈（考虑管制背景）

机房基础设施准备

到货物流与上架实操

单机推理场景下的 IB 网卡说明

停机灾备应对方案

签约前必做事项

沟通记录

采购需求概述

设备配置要求

后续待办事项

性能验收标准（建议作为合同附件）

测试一：DeepSeek R1 671B 单人推理

测试二：DeepSeek R1 671B 并发推理

测试三：硬件拓扑验证

72 小时稳定性压力测试标准

沟通记录

已解决的问题最终合同已覆盖

当前待办重点需立即行动

仍需确认建议