已解决的问题 最终合同已覆盖
当前待办重点 需立即行动
已生成完整版合同文档:
最终合同-完整版(主合同+附件X).md,附件X 中的指标表格已填入具体数值,请内部确认后转 .docx 发卖方。· SSD 品牌型号(须为企业级 Solidigm/Micron 等)
· 线缆/配件是否完整(IB 光缆、C19/C20 电源线、机柜导轨)
· GPU HGX 底板序列号
· 所有配件包含在 ¥332 万总价内(合同第一条第3款已约定)
仍需确认 建议
最终合同核心条款
| 条款 | 内容 | 评价 |
|---|---|---|
| 总价 | ¥3,320,000(含设备/包装/运输/保险/装卸/上架/安装调试/技术服务/税费) | 全包价,无隐藏费用 |
| 交货时间 | 合同生效 + 首付后 7 自然日内送达 | 好 |
| 付款 | 10% 预付 → 40% 清单确认 → 40% 初验后 → 5% 验收尾款 + 5% 质保金(保修期满后付) | 质保金留至保修期满 |
| 预付款性质 | 预付款,非"定金不可退";乙方违约 3 工作日内退还 | 好,保护买方 |
| 设备清单 | 发货前须提交品牌/型号/序列号/配件/软件版本,经甲方书面确认 | 好,可审核 SSD 品牌 |
| 初步验收 | 货到 3 工作日内验外观/包装/数量/型号 | 合理 |
| 最终验收 | 须甲方书面确认;收货/签收/通电/临时使用均不视为验收通过 | 极好 |
| 性能标准 | 附件X直接嵌入主合同,含量化指标+测试命令+整改规则 | 已嵌入,无需另签 |
| 质保 | 36 个月,自最终验收合格之日起算 | 好 |
| 维修响应 | 一般故障 24h/3日;重大故障(宕机/XID/掉卡)4h 响应 24h 出方案;备机 24h 交付,逾期买方可自行租赁卖方买单 | 极强 |
| 2次修不好 | 同一故障 2 次未修好 / 同一部件质保期内 2 次故障 → 整机更换 | 新增保护 |
| 超时违约金 | 超 10 天未解决 → 0.5%/天(≈¥1.66万/天),不足弥补损失的继续赔偿 | 极强 |
| 测试主导权 | 甲方主导,乙方无条件配合;测试脚本/日志/截图/录像均为法律证据 | 极好 |
| 解约退款 | 5 工作日内退全款 + 甲方留置权 + 退运费卖方承担 | 新增 |
| 更换部件质保 | 维修/更换后重新计算,不少于 12 个月 | 好 |
| 不可抗力 | 供货紧张/原厂排产/市场缺货等商业风险不属于免责 | 极好,堵死漏洞 |
| 逾期交付 | 万分之五/天,超 7 天可解约退款赔损 | 好 |
| 买方违约上限 | 合同总价 5% | 有利于买方 |
| 远程锁定 | 卖方不得以付款争议为由远程锁定/停用设备 | 重要保护 |
| 风险承担 | 最终验收前货物风险由卖方承担 | 好 |
| 争议管辖 | 甲方(买方)所在地法院 | 有利于买方 |
| 发票 | 13% 增值税专用发票 | 好 |
与初始合同的对比(关键改善)
| 条款 | 初始合同 | 最终合同 |
|---|---|---|
| 付款 | 10% 定金 + 90% 发货前付清 | 10+40+40+10 分期,90% 验货后付 |
| 验收 | 7 天无异议 = 通过 | 双阶段,须书面确认 |
| 维修备机 | 无备机条款 | 超时须提供备用设备 |
| 原厂免责 | "原厂不供货不视为违约" | 商业风险不属于免责 |
| 质保起始 | 未明确 | 最终验收合格之日 |
| 逾期退出 | 无 | 超 7 天可解约退全款 |
| 争议管辖 | 卖方所在地(嘉定) | 买方所在地 |
| 配置锁定 | "以实际供货批次为准" | 未经甲方同意不得擅自变更 |
后续行动清单
| # | 事项 | 说明 | 优先级 |
|---|---|---|---|
| 1 | 确认附件X指标 + 转 .docx 发卖方 | 修订版已将附件X直接嵌入主合同(无需另签补充协议)。完整版文档已生成,指标已填入。请确认后转 .docx 发卖方律师。 | 确认后发出 |
| 2 | 审核《设备详细清单》 | 卖方发货前提交。重点审:SSD 品牌(须企业级)、线缆/配件完整性、GPU 底板序列号、所有配件含在总价内。 | 收到后立即 |
| 3 | 确认 Dell 授权经销商 | 致电 Dell 中国 400-886-8610 确认上海砚驰资质 | 签约前 |
| 4 | 确认机房基础设施 | 供电 ≥ 20kW(C19/C20)、制冷 ≥ 10.5kW、机柜深度 ≥ 1100mm、承重 ≥ 200kg | 到货前 |
| 5 | 准备验收工具 | SGLang 测试脚本 U 盘、fio 测试脚本、nvidia-smi 检查清单 | 到货前 |
| 6 | 注册云 GPU 灾备 | 阿里云 PAI / AWS p5 等,跑通"本地→云"切换流程 | 建议 |
原始修改要求达成情况
| 原始要求 | 状态 | 最终合同条款 |
|---|---|---|
| 付款分期 | 已达成 | 10+40+40+10,预付款可退 |
| 验收期限延长 | 已达成 | 双阶段 + 须书面确认,无自动验收 |
| 量化验收标准 | 已达成 | 附件X直接嵌入主合同,含具体指标+测试命令 |
| 维修时限+备机 | 已达成+强化 | 一般24h/3日,重大4h/24h,备机24h交付,2次修不好整机换 |
| 配件清单 | 已达成 | 发货前提交完整清单经确认 |
| SSD 品牌 | 已达成 | 设备清单须载明品牌型号 |
| 原厂免责限制 | 已达成 | 商业风险不属于免责 |
| 质保起始日 | 已达成 | 自最终验收合格之日 |
| 延迟交付违约金 | 已达成 | 万分之五/天,超 7 天可解约 |
目标价位
| 档位 | 价格 | 说明 |
|---|---|---|
| 理想价 | ¥295~305 万 | 美国 $350K × 1.13 税 × 1.15 渠道 ≈ 295 万 |
| 合理价 | ¥310~320 万 | 含 ProSupport 3 年 NBD + 安装调试 + 含税 |
| 当前报价 | ¥332 万 | 合同价格,必须包含所有服务才值这个价 |
谈判筹码(按杀伤力排序)
谈判红线(低于此条件不签)
谈判节奏建议
拿报价单和合同的矛盾点施压:"你报价单说寄修、不提供备机,合同却说上门维修换新——到底是哪个?请写清楚。"
不要急于签约。合同日期是 2026-04-03,说明对方很急。越急越说明有让利空间。
确认 Dell 授权经销商身份。如果不是授权经销商,Dell ProSupport 可能无法激活,332 万就不值。
交付流程 & 付款节点
核心性能验收指标
| 测试项 | 达标值 | 允许偏差 | 不达标处理 |
|---|---|---|---|
| DeepSeek R1 Decode 速度 | ≥ 40 tok/s | ±15%(≥ 34) | 排查 GPU/NVLink/精度 |
| TTFT 首 Token 时间 | ≤ 3 秒 | 预热 3 次后测 | 检查编译优化 |
| 40 人并发总吞吐 | ≥ 800 tok/s | ±20%(≥ 640) | 检查 Expert Parallel |
| NVLink 拓扑 | 全部 NV18 | 不允许偏差 | 立即拒收 |
| 72h GPU 温度 | ≤ 83°C | — | 检修散热系统 |
| 72h XID 错误 | 零错误 | 不允许 | 返厂换 GPU 底板 |
| 72h GPU 掉卡 | 始终 8 颗可见 | 不允许 | 返厂检修底板 |
| 72h NVLink 带宽 | all_reduce ≥ 800 GB/s | — | 排查 NVSwitch |
整体比喻:一家超级餐厅
把这台服务器想象成一家餐厅,它的工作就是"接收客人的问题(点菜),然后让 AI 生成回答(做菜)":
· GPU(8 颗 H200) = 8 个顶级厨师,所有"做菜"(AI 推理计算)都是他们干的
· NVLink / NVSwitch = 厨师之间的传菜通道,让 8 个厨师可以一起做一道大菜
· CPU(2 颗) = 餐厅经理,负责接单、排队、分配任务,但自己不做菜
· 内存(2TB DDR5) = 厨房的备菜台,把食材(模型参数)从冰箱(SSD)搬到台上让厨师用
· SSD(8TB) = 冰箱,存放食材(模型文件)。DeepSeek R1 一个模型就 350GB
· IB 网卡(8 张 400G) = 餐厅的外卖窗口,用于和隔壁餐厅(其他服务器)协作
· 管理网卡 = 餐厅的电话,日常管理、远程登录用
· 电源(6 个 2800W) = 餐厅的电力系统
· iDRAC9 = 远程监控摄像头,不在现场也能看到餐厅状态
逐个零件详解
1. GPU — NVIDIA H200 × 8(最重要,占总价 70%+)
是什么:图形处理器,但现在主要用来做 AI 计算。可以理解为"AI 的大脑"。
大模型里干什么:100% 的推理计算都是 GPU 干的。你问 AI 一个问题,GPU 负责一个字一个字地"想"出答案。
为什么要 8 颗:DeepSeek R1 有 6710 亿个参数,一颗 GPU 装不下(一颗只有 141GB 显存),所以要 8 颗一起分担。这叫"张量并行"。
每颗值多少钱:约 ¥25~30 万,8 颗约 ¥200~240 万,占整机成本 70% 以上。
坏了怎么办:8 颗 GPU 是焊在一块底板(HGX)上的,任何 1 颗坏了都要整块底板返厂。这就是为什么 GPU 底板的维修条款那么重要。
2. NVLink / NVSwitch(合同里没单独列 — 这是正常的)
是什么:GPU 和 GPU 之间的高速通道。
大模型里干什么:8 颗 GPU 各自只算模型的一部分,算完需要互相交换中间结果。NVLink 就是这个"交换通道",速度 900GB/s(比普通网线快 9000 倍)。
为什么合同不单独列:NVLink 和 NVSwitch 是焊在 HGX GPU 底板上的,不是单独的配件。你买"8×H200 HGX 底板"的时候,NVLink(18 条通道)和 NVSwitch(4 颗交换芯片)已经包含在里面了。所以合同写"NVIDIA HGX H200 SXM 141GB × 8"就已经包含了 NVLink,不需要也不应该单独列出。
验收时怎么确认:跑 nvidia-smi topo -m,所有 GPU 之间必须显示 NV18(18 条 NVLink 通道全连通)。如果出现 PHB 或 SYS 字样,说明走了慢速 PCIe,必须拒收。
3. CPU — Intel Xeon 8562Y+ × 2(不太重要)
是什么:中央处理器,普通电脑的"大脑"。但在 AI 服务器里它不是主角。
大模型里干什么:接收用户请求、把数据喂给 GPU、管理内存、处理网络 I/O。类似"调度员",真正算力 99% 在 GPU。
所以 CPU 差一点没关系?是的。戴尔用的 32 核(8562Y+)比超微的 48 核(8558)少,但对推理速度影响 < 5%。省下的钱比多核划算。
4. 内存 — 64GB DDR5-5600 × 32 = 2TB
是什么:系统内存(不是 GPU 的显存,两回事)。
大模型里干什么:CPU 用来临时存放数据。模型启动时先从 SSD 加载到内存,再从内存搬到 GPU 显存。2TB 内存够用。
和 GPU 显存的区别:GPU 显存(141GB×8=1.1TB)在 GPU 内部,速度极快(4.8TB/s),是真正跑模型的地方。系统内存(2TB)速度慢得多,主要给 CPU 用。
5. SSD — 8TB U.2 × 1
是什么:固态硬盘,存文件的。
大模型里干什么:存模型文件。DeepSeek R1 的模型文件约 350GB(FP8 精度),8TB 能放 20 多个这样的模型。
品牌重要吗:重要。企业级 SSD(如 Solidigm D7-P5520)顺序读 7GB/s,杂牌可能只有 2~3GB/s。加载模型时差距明显:350GB 模型用好盘 50 秒加载完,杂牌要 2 分钟。这就是为什么我们要求合同写明 SSD 品牌。
6. IB 网卡 — NVIDIA ConnectX-7 NDR 400Gb/s × 8
是什么:InfiniBand 高速网卡,速度 400Gb/s(比普通千兆网卡快 400 倍)。
大模型里干什么:用于多台服务器之间通信。如果你有 2 台以上服务器组集群训练/推理,GPU 之间跨机通信就走这个。
只买 1 台需要吗:暂时不需要。单台服务器内部 GPU 通信走 NVLink(焊在底板上),不走 IB 网卡。但 IB 卡是标配,以后扩集群用得上。
线缆的事:IB 网卡本身含在配置里了,但连接线缆没有列。每根 NDR 光缆 ¥1~4 万。如果暂时只用 1 台不组集群,这笔线缆钱可以先不花。
7. 管理网卡 — 万兆双光口 × 1
是什么:普通的以太网网卡,10Gbps。
干什么:日常管理用 — SSH 登录服务器、下载模型文件、提供 API 服务。就是平时你连服务器用的网口。
8. 电源 — 2800W × 6
是什么:把机房的交流电转成服务器需要的直流电。
为什么要 6 个:冗余。8 颗 H200 满载约 5600W + CPU/内存/风扇约 1500W = 总共约 7000W。6 个 2800W 的 PSU 总容量 16.8kW,坏掉 1~2 个仍能运行。
需要注意:普通家用插座(10A/220V=2200W)带不动一个 PSU。必须用机房级 PDU 和 C19/C20 工业插头。
9. iDRAC9 Datacenter — 远程管理卡
是什么:Dell 独有的远程管理系统,业界公认最强。
干什么:不用去机房就能远程开关机、看硬件状态、装系统、看温度、更新固件。相当于给服务器装了一个远程监控摄像头 + 遥控器。
为什么值钱:超微的 IPMI 管理界面像 2005 年的网页,功能少还难用。iDRAC9 支持 MFA 登录、自动固件更新、碳排放监控,安全功能是超微的 3.5 倍。这是选戴尔而不选超微的重要理由之一。
10. TPM 2.0 — 安全芯片
是什么:一颗专门做加密的小芯片。
干什么:安全启动、磁盘加密、密钥存储。防止有人拆硬盘偷数据。对 AI 推理性能没有影响,但企业合规通常要求有。
数据流向:用户提问到 AI 回答的全过程
① 用户发问题 →(通过管理网卡)→ 到达服务器
② CPU 接收请求 → 把问题转成 token(数字序列)
③ CPU 把 token 发给 GPU →(通过 PCIe 总线)→ 到达 8 颗 GPU
④ 8 颗 GPU 协作计算 →(通过 NVLink/NVSwitch 交换中间结果)→ 每秒生成约 40 个 token
⑤ GPU 把生成的 token 发回 CPU → CPU 转成文字
⑥ 文字通过网卡返回给用户
整个过程中,步骤④占了 99% 的时间和算力。所以 GPU 最重要、最贵、最需要关注。
KV Cache 是什么?为什么它决定能同时服务多少人?
一句话:KV Cache 就是 AI 的"短期记忆"。它让 AI 在生成回答时不用每个字都把之前的对话重新算一遍。
生活化比喻:
想象你在写一篇文章。每写一个字,你都需要回头看一遍前面已经写了什么,才能决定下一个字写什么。
· 没有 KV Cache = 每写一个字,都要从第一个字重新读一遍全文。写到第 1000 个字时,你已经重新读了 1000 遍开头。
· 有 KV Cache = 把前面读过的内容做成"笔记"存起来,每次只看笔记就行,不用重头读。
这个"笔记"就是 KV Cache —— K 是 Key(索引),V 是 Value(内容),合在一起就是"这段对话里哪些内容重要、对应什么意义"的压缩记录。
为什么它很吃显存?
每一个用户的每一轮对话都需要一份独立的 KV Cache。对话越长(上下文越大),这份"笔记"就越厚。多个用户同时提问,就需要同时存多份"笔记"。
举例(DeepSeek-R1 671B FP8):
· 模型权重占 671GB(固定不变,所有用户共享)
· 框架开销约 20GB
· 剩余 437GB 全部给 KV Cache
· 每个用户的 KV Cache 大小取决于上下文长度 —— 越长的对话,每个人占的显存越多,能同时服务的人就越少
DeepSeek-R1 用了 MLA(Multi-head Latent Attention) 技术,把 KV Cache 压缩到传统方案的约 1/10。这就是为什么 437GB 剩余空间能撑住 40 人并发 —— 换成普通架构的模型,可能 5 个人就把显存撑爆了。
和我们的合同有什么关系?
· 合同附件 X 测试 40 人并发吞吐 ≥ 800 tok/s,这实际上就是在测 KV Cache 能不能扛住
· 如果 GPU 显存有问题(退化、少了),KV Cache 空间缩小,并发性能会明显下降
· 这也是为什么验收时要检查"Retired Pages = 0" —— 显存坏块会直接挤压 KV Cache 的可用空间
模型兼容性:这台机器能跑什么?
8 × H200 总显存 = 8 × 141GB = 1,128GB。模型能不能跑,取决于模型权重能不能装进这 1,128GB。
| 模型 | 参数量 | FP16 权重 | FP8 权重 | 能跑 FP16? | 能跑 FP8? |
|---|---|---|---|---|---|
| DeepSeek-R1 671B | 6710 亿 | 1,342 GB | 671 GB | 不行(超 214GB) | 可以(剩 457GB) |
| Qwen3.5-397B-A17B | 3970 亿(激活 170 亿) | 794 GB | 397 GB | 可以(剩 334GB) | 可以(剩 731GB) |
| Llama 3.1 405B | 4050 亿 | 810 GB | 405 GB | 可以(剩 318GB) | 可以(剩 723GB) |
| Llama 3.1 70B | 700 亿 | 140 GB | 70 GB | 轻松(剩 988GB) | 轻松(剩 1058GB) |
计算公式:模型权重 = 参数量 × 每参数字节数(FP16=2字节,FP8=1字节)。除权重外还需要 KV Cache(推理时的临时记忆)和框架开销,一般预留 20~40% 余量。
结论:DeepSeek-R1 671B 只能用 FP8 跑(这是业界标准做法,官方就提供 FP8 权重)。Qwen3.5-397B-A17B 可以用 FP16 满精度跑,因为它虽有 3970 亿参数但用了 MoE 架构,权重总共 794GB 装得下。
合同里写 FP8 是对的:不是降级,是 8×H200 跑满血 671B 的唯一方案。如果卖方说"用 FP16 跑 671B",说明要么模型不是满血版,要么根本没算过显存。
合同配置清单 — 补充说明
合同里写"NVIDIA HGX H200 SXM 141GB × 8"这一项,实际上已经包含了:
· 8 颗 H200 GPU
· 4 颗 NVSwitch 交换芯片
· 18 条 NVLink 4.0 通道(每条 50GB/s,合计 900GB/s)
· HGX 底板 PCB 和散热结构
这些东西是一整块模组,NVIDIA 出厂时就焊好的,不拆卖。所以合同不需要单独列 NVLink/NVSwitch,写"HGX H200 × 8"就等于全包了。
验收时一定要验的:nvidia-smi topo -m 全部显示 NV18 = NVLink 正常。这是整机最关键的验收项,一个都不能少。
前提:H200 在中国的管制现状(2026 年 4 月)
这不是一个"正常市场",而是一个受双重管制的灰色市场。理解这个背景,才能理解为什么价格算不清楚。
| 时间 | 事件 | 影响 |
|---|---|---|
| 2023.10 | 美国 BIS 将 H100/H200 对华出口列为"推定拒绝" | 正规渠道断供,灰色渠道开始活跃 |
| 2024-2025 | 大规模走私("Operation Gatekeeper"查获 $1.6 亿) | 通过假公司、改标签、经东南亚中转入境 |
| 2026.01.15 | 特朗普政府放松为"逐案审查",但加征 25% 关税 | 理论上可以合法买了,但每单要审批 + 交 25% 税 |
| 2026.01 同月 | 中国海关主动阻止 H200 入境(据路透社) | 官方措辞"除非确有必要不得采购",效果等于禁令 |
| 2026.01 | 国会通过 AI OVERWATCH 法案(42:2 票) | 试图将 Blackwell 级禁令法典化两年 |
| 当前 | 美国端:可以卖(要审批+25%税) 中国端:海关拦截(事实禁令) |
正规渠道几乎不可能。国内在售的 H200 基本都是灰色渠道 / 2023-2025 年间入境的库存。 |
信息来源:Tom's Hardware (2026.01)、Reuters (2026.01.17)、南华早报 (2026.01)、美国司法部 Operation Gatekeeper 公告。
对我们的影响:砚驰卖给我们的这台机器,要么是管制前的库存,要么是通过灰色渠道入境。这意味着:①价格没有"正常市场价"可言,②不能简单用美国官价×汇率来算,③ 卖方的货源本身有溢价。
整机 BOM 成本拆解
下表提供两种汇率参考:¥6.89(2026.04 央行中间价)用于计算"如果能正常合法进口"的理论成本,+50% 灰色溢价用于反映当前中国市场实际行情(据南华早报报道)。
数据来源:Interpromicro、CDW、Newegg、Intel 官网、FS.com 等公开渠道价(2025-2026)。OEM 批量价通常比零售低 20~40%,下表取中间值。
| 部件 | 规格 | 美元单价 | 数量 | 美元小计 | 理论价(¥6.89) | 占比 |
|---|---|---|---|---|---|---|
| HGX H200 底板 | 8×H200 SXM + 4×NVSwitch + NVLink | $308,000~315,000 | 1 | ~$310,000 | ¥213.6 万 | 87% |
| CPU | Intel Xeon 8562Y+ (32C) | $6,000 | 2 | $12,000 | ¥8.3 万 | 3.4% |
| 内存 | 64GB DDR5-5600 ECC RDIMM | ~$200(OEM批量) | 32 | $6,400 | ¥4.4 万 | 1.8% |
| SSD | 8TB U.2 NVMe 企业级 | ~$1,500 | 1 | $1,500 | ¥1.0 万 | 0.4% |
| IB 网卡 | ConnectX-7 NDR 400G | ~$1,800 | 8 | $14,400 | ¥9.9 万 | 4.0% |
| 电源 | 2800W 钛金 PSU | ~$400 | 6 | $2,400 | ¥1.7 万 | 0.7% |
| 机箱+散热+主板 | XE9680 6U 系统 | ~$10,000 | 1 | $10,000 | ¥6.9 万 | 2.8% |
| 其他 | iDRAC9+管理网卡+TPM | ~$1,000 | 1 | $1,000 | ¥0.7 万 | 0.3% |
| 硬件裸成本合计(理论正常进口) | ~$357,700 | ~¥246 万 | — | |||
汇率说明:按 2026 年 4 月央行中间价 ¥6.89 计算(非之前错误使用的 7.25)。
关键事实:GPU 底板占整机硬件成本 87%。其余全部零件加起来才 ¥33 万。这就是卖方不拆开报价的原因 —— 混在一起卖,你没法直接拿 GPU 价格去比。
但以上是"理想情况":这个价格假设你能像在美国一样正常买。实际上 H200 在中国受双重管制(见上表),国内拿到的货必然经过灰色渠道或管制前库存,有额外溢价。
从裸成本到合同价:中间加了什么?
| 层级 | 计算 | 说明 | 金额 |
|---|---|---|---|
| 美国硬件裸成本 | $357,700 × 6.89 | 假设能合法购买 | ¥246 万 |
| + 13% 增值税 | ×1.13 | 国内开专票必须 | ¥278 万 |
| + 合规渠道 15% | ×1.15 | 物流/安装/正常利润 | ¥320 万 |
| + 灰色渠道溢价 | — | 管制下的实际获取成本 | 不透明 |
| 我们的合同价 | — | — | ¥332 万 |
如果一切合法正常:¥246 万成本 + 税 + 15% 渠道费 = 约 ¥320 万。合同价 ¥332 万只多了 ¥12 万,利润率约 4%,几乎没赚。
但现实是:H200 在中国无法正常进口。据南华早报 2026 年 1 月报道,灰色市场 8×H200 服务器报价约 ¥230 万($33 万),较官方标价溢价约 50%。英伟达给中国客户的 8 芯片模组官方定价约 ¥150 万(据财经头条 2026.01),灰色市场抬到 ¥200~230 万是常态。
换句话说:卖方拿到 GPU 底板的成本可能就已经在 ¥200~230 万这个区间了,加上其余零件 ¥33 万 + 税 + 利润,¥332 万其实不算暴利,甚至可能利润不高。灰色渠道的溢价被卖方和中间商吃掉了,不全是卖方一个人赚的。
市场行情对比(2026 年 4 月,汇率 ¥6.89)
| 渠道 | 价格 | 说明 | 评价 |
|---|---|---|---|
| 美国 Interpromicro(Dell XE9680 整机) | $262,000 → ¥181 万 | 美国裸价,中国买不到(出口管制) | 仅供参考 |
| 美国 Newegg(同款) | $350,000 → ¥241 万 | 含美国渠道加价,中国买不到 | 仅供参考 |
| NVIDIA 官方对华定价(8卡模组) | ~¥150 万 | 据财经头条 2026.01 报道,但海关不放行 | 理论价,买不到 |
| 灰色市场(8×H200 服务器) | ~¥230 万 | 据南华早报 2026.01,官方价溢价 ~50% | 灰色渠道 |
| 闲鱼(仅 8×H200 HGX 底板) | ¥200 万 | 仅 GPU 底板,无整机、无质保、来源未验证 | 需验货 |
| 我们合同(砚驰 · Dell XE9680 整机) | ¥332 万 | 含安装调试 + 3 年质保 + 13% 专票 | 管制环境下可接受 |
| 超微正式渠道整机 | ¥350 万 | 我们拿到的另一份报价 | 比我们合同贵 ¥18 万 |
注意:上表中美国价格不能直接换算成"中国应该多少钱"。正规渠道已不通,灰色渠道有 30~50% 溢价。对比应以国内实际可拿到的价格为准。
闲鱼 / 二手渠道 8×H200:便宜多少?
直接比:
· 合同整机内 GPU 底板估算:~¥225 万
· 闲鱼报价(8×H200 HGX 底板):¥200 万
· 差价:便宜约 ¥25 万(约 11%)
折合单卡:
· 合同内估算:¥225 万 ÷ 8 = ¥28.1 万/卡(~$3.87 万)
· 闲鱼:¥200 万 ÷ 8 = ¥25 万/卡(~$3.45 万)
· 市场公开价区间:$3.0~4.0 万/卡
闲鱼确实更便宜,但:你买的只是一块 GPU 底板,不是整机。自己配齐剩下的「CPU + 内存 + SSD + IB 网卡 + 机箱 + 电源 + 散热 + 管理卡」还要约 ¥34 万,再加上 组装调试人工。最终裸配(不含质保/发票)落地约 ¥234~250 万 左右。
闲鱼淘货指南:怎么找、怎么判断
一、搜索关键词
· H200 HGX / H200 SXM / H200 8卡 / H200 底板
· NVIDIA HGX H200 / 8×H200
· XE9680 / 821GE(整机关键词)
· 注意排除:H200 相机、H200 移动硬盘(会有干扰)
二、照片怎么看(快速判断)
必须看到的特征:
· 8 颗 SXM 模组:两排各 4 颗,印有 NVIDIA logo 的金属散热盖
· 大底板:所有 GPU 焊在同一块板上,尺寸约 60×40cm
· NVSwitch 区域:GPU 下方/中间有一排长条散热片,盖着 4 颗 NVSwitch 芯片
危险信号:
· 如果 GPU 是独立的板卡(带 PCIe 金手指)→ 那是 PCIe 版,不是 SXM,没有 NVLink
· 如果只有 4 颗 GPU → 那是 半板,不是 8 卡
· 如果底板上缺 NVSwitch 散热片(中间空旷)→ 可能是拆掉了 NVSwitch 的残板
· 如果标签模糊/被涂改 → 来源存疑
三、必须问卖家的问题
1. 型号确认:是 H200(141GB HBM3e)还是 H100(80GB HBM3)?外观几乎一模一样,价格差一倍
2. 来源:整机拆机?矿场退役?样品?渠道尾货?
3. 通电测试:能否提供 nvidia-smi 截图?显示 GPU 型号 + 显存 141120 MiB
4. NVLink 拓扑:能否提供 nvidia-smi topo -m 截图?全 NV18 = 正常
5. XID / ECC:nvidia-smi -q 查 Retired Pages 和 Remapped Rows,是否为 0
6. 使用时长:GPU 有运行时间计数器,可以查累计使用小时数
7. 保修:有无任何保修?NVIDIA 原厂保修跟机器序列号,拆机板通常无法转保
四、到货验收(最关键)
不管卖家说什么,上机实测才是唯一真相:
| # | 验证项 | 命令 | 正常结果 | 异常 = 退货 |
|---|---|---|---|---|
| 1 | 是不是 H200 | nvidia-smi -L | 显示 "NVIDIA H200" | 显示 H100 或其他 |
| 2 | 显存是否 141GB | nvidia-smi -q | grep "FB Memory" | 141120 MiB × 8 | 少于 141120 |
| 3 | NVLink 全连通 | nvidia-smi topo -m | 8×8 矩阵全 NV18 | 出现 PHB/SYS/NODE |
| 4 | NVSwitch 活跃 | nvidia-smi nvlink --status | 每卡 18 个 Active | 有 Inactive |
| 5 | 显存无退化 | nvidia-smi -q | grep -A5 "Retired" | Retired Pages = 0 | 有 retired pages |
| 6 | 无 XID 错误 | dmesg | grep -i xid | 空输出 | 有 XID 错误 |
| 7 | 跑分正常 | gpu-burn 600(烤10分钟) | 温度 ≤ 83°C,不掉卡 | 过热/掉卡/报错 |
| 8 | 推理性能 | 跑 bench_one_batch | Decode ≥ 34 tok/s | 明显低于预期 |
五、风险总结
闲鱼便宜的代价:
· 无质保:GPU 底板坏了要整块换,一块底板成本 ¥200 万级别,自己承担
· 来源不明:可能是矿场退役(高负载跑过很久)、工程样品、被制裁渠道流出
· H100 冒充 H200:外观几乎一样,不上机看 nvidia-smi 无法区分
· 无发票:没有增值税专票,企业入账困难
· 需要自己攒机:买到底板后还要自配机箱/CPU/内存/SSD/电源/散热,有一定技术门槛
适合什么人:
· 有硬件团队,能自己攒机调试
· 不需要正规发票(个人/小团队研究用途)
· 愿意承担无质保风险
· 预算有限,想用 ¥234~250 万干 ¥332 万的事
不适合什么人:
· 需要正规采购流程、增值税专票、公司入账
· 没有硬件运维能力
· 对业务连续性要求高(坏了没人修)
· 怕买到 H100 冒充品
砍价筹码:怎么跟卖方谈(考虑管制背景)
先认清现实:在管制环境下,卖方的拿货成本本身就有灰色溢价。你不能拿美国裸价直接要求对方按那个价卖 —— 他根本没有合法渠道按美国价拿货。但以下论据仍然有效:
1. 闲鱼价格论据(最有力)
"闲鱼上 8×H200 HGX 底板 ¥200 万。加上其余零件 ¥33 万 + 组装调试,自己攒一台落地不到 ¥250 万。你整机 ¥332 万,多出来的 ¥80 万买的是什么?" —— 卖方必须用质保、发票、售后来证明这 ¥80 万的价值。
2. 灰色市场行情论据
"南华早报报道灰色市场 8×H200 服务器才 ¥230 万。你比灰色市场还贵 ¥102 万,总不能说你的灰色渠道比别人的灰色渠道贵吧?"
3. 超微竞品论据
"超微那边报价 ¥350 万,你 ¥332 万确实便宜了 ¥18 万。但核心配置完全一样,能不能再让一点?"
4. 现实目标价
· 激进目标:¥295~305 万(灰色市场服务器价 ¥230 万 + 正规发票/质保溢价 30%)
· 现实目标:¥310~320 万(让卖方有合理利润,换取 3 年质保 + 专票)
· 当前合同价:¥332 万(管制环境下可接受,但仍有 ¥12~22 万谈判空间)
5. 心理底线
在管制环境下,¥332 万拿到的是品牌整机 + 3 年质保 + 13% 专票 + 安装调试 + 合同法律保障。闲鱼 ¥200 万拿到的只是一块裸板,没有以上任何一项。如果公司需要正规入账,这个差价是有道理的。
但如果不需要发票、有硬件团队、能承受风险 —— 闲鱼方案能省 ¥80~100 万。
机房基础设施准备
| 项目 | 最低要求 | 建议值 | 备注 |
|---|---|---|---|
| 供电容量 | 6 × 2800W = 16.8kW(PSU 额定总功率) | 预留 20kW 给单台机器 | 需 3 路独立 C19/C20 回路(每路 ≥ 32A/240V),或工业三相电直接供电 |
| PDU(配电单元) | 支持 C19 插座 × 6 | 智能 PDU 带电流监控 | 普通民用插排绝对不行。2800W PSU 使用 IEC C20 插头,需 C19 插座的机柜级 PDU |
| 制冷能力 | 满足 10.5kW 散热 | 机柜冷通道 / 精密空调 | 10kW 发热量相当于 3 台家用 3 匹空调满载。普通办公室空调扛不住 |
| 进风温度 | ≤ 35°C(ASHRAE A1) | 18~27°C | 环境温度过高会触发 GPU 降频保护,直接影响 Decode 性能 |
| 机柜尺寸 | 42U 标准机柜,深度 ≥ 1100mm | 深度 1200mm 以上 | XE9680 深度约 920mm + 线缆空间需要 ≥ 1100mm |
| 机柜承重 | ≥ 200kg(含导轨自重) | ≥ 300kg | XE9680 满载约 130kg(6U),轻型机柜可能不安全 |
| 地板承重 | 机柜 + 服务器 + PDU ≥ 400kg | — | 高架地板需确认承重;非高架地板一般没问题 |
| UPS(不间断电源) | 可选但建议 | 在线式 UPS ≥ 15kVA | 突然断电可能损坏 GPU/数据。如果机房有市电 + 柴发双路可不用单独 UPS |
| 网络接入 | 至少 1Gbps 以太网口到服务器管理网卡 | 10GbE + 带外管理 | 模型下载需要带宽(DeepSeek R1 约 350GB),1G 网口下载一次要 45 分钟 |
| 物理安全 | 独立锁定机柜 | 门禁 + 监控 | 单台设备价值 330 万 |
到货物流与上架实操
| 环节 | 负责方 | 需准备的 |
|---|---|---|
| 运输到楼下 | 卖方(合同约定) | 确认卡车能到达机房所在建筑,有无限高限重 |
| 搬运至机房 | 合同约定卖方做 | 确认有货梯(承重 ≥ 500kg)或一楼机房直接入库 |
| 拆箱验外观 | 双方在场 | 拍照记录包装完整性,开箱前拍四面照片(作为运损理赔依据) |
| 安装导轨 | 卖方安装调试 | 确认机柜有足够的方孔或圆孔安装位(6U = 10.5 个安装孔位) |
| 上架(最关键) | 卖方 + 至少 4 人 | 130kg 推入导轨,液压升降台或机柜电梯最安全 |
| 接电/接网 | 卖方完成 | 提前布好 6 根 C19-C20 电源线 + 1 根管理网线到机柜 |
| 通电测试 | 双方在场 | iDRAC9 web 界面确认所有组件识别正常 |
单机推理场景下的 IB 网卡说明
| 场景 | IB 网卡是否需要 | 说明 |
|---|---|---|
| 单台服务器跑 DeepSeek R1 推理 | 不需要 | 8 颗 GPU 通过 NVLink 通信,和 IB 网卡无关 |
| 多台服务器组集群训练 | 必需 | 每台 8 张 IB 卡 + NDR 交换机(约 ¥30~80 万/台) |
| 多台服务器组集群推理(tensor parallel 跨机) | 必需 | 同上 |
| 高速数据传输(模型分发) | 可选 | 用 IB 传模型比 10G 以太网快 40 倍,但需要对端也有 IB |
结论:如果只买 1 台跑推理,8 张 IB 卡暂时用不上,但它们是 XE9680 标配且占总价比例小(~¥10 万 / ¥332 万 ≈ 3%),不值得为此砍配。留着以后扩集群用。 但线缆可以暂时不买 — NDR 光缆每根 ¥1~4 万,8 根要 ¥8~32 万。如果暂时不组集群,可以和卖方确认是否随机附送 IB 线缆;如果不附送且你不需要,就不用为此争论了。
停机灾备应对方案
| 故障场景 | 预估停机 | 应对方案 |
|---|---|---|
| 电源/内存/SSD 故障 | 1~3 天 | 合同已承诺 3 自然日内解决,锁死这个时限。建议自备 1 条 64GB DDR5 备件(约 ¥800) |
| 单颗 GPU 故障(HGX 底板) | 10~60 天 | 整板返厂。合同写入备机方案或停机赔偿。同时准备云 GPU 降级方案(如阿里云/AWS H100 按量计费) |
| NVSwitch 故障 | 10~60 天 | 底板级故障,同上 |
| CPU 故障 | 3~7 天 | Dell 有国内备件库,响应较快 |
| 整机无法启动 | 1~3 天 | iDRAC9 远程诊断 → 定位故障件 → 按件更换 |
关键建议:提前注册一个云 GPU 服务账号(阿里云 PAI / AWS p5 / Azure ND 系列), 和运维团队跑通一次"本地模型切换到云推理"的流程。 这样 GPU 底板返厂期间可以快速切到云上,虽然成本高但不至于业务完全停摆。