致命问题 不改不签
要求:改为 10% 定金 → 50% 到货 → 30% 终验 → 10% 质保金(3年后返还)
要求:改为 30 个自然日验收期。
要求:合同附件写入 Decode ≥ 40 tok/s、72h 零 XID 错误等硬指标,二次不达标可退货退款。
重要问题 必须澄清
· 普通故障:维持合同原文 3 自然日内到场更换
· GPU 底板:10 工作日内整板更换或提供同等配置备机
· 停机 >15 天按合同总额 0.5‰/天赔偿
待确认项 需核实
合同配置清单(合同-图-1)
| 序号 | 配件名称 | 型号 | 数量 | 分析 |
|---|---|---|---|---|
| 1 | GPU 加速卡 | 8×NVIDIA HGX H200 SXM 141GB | 1 套 | 正品 |
| 2 | CPU | Intel Xeon Platinum 8562Y+ (32C) | 2 块 | 正确 |
| 3 | 内存 | 64GB DDR5-5600 RDIMM | 32 条 | 2TB 正确 |
| 4 | 固态硬盘 | 8TB U.2 SSD | 1 块 | 品牌未写 |
| 5 | 网络网卡 | NVIDIA MCX75310AAS-NEAT NDR | 8 张 | 正品 400G |
| 6 | 网络网卡 | 万兆双光口网卡(含模块) | 1 张 | 管理用 |
| 7 | 电源模块 | 2800W PSU | 6 套 | 标准配 |
| 8 | 散热风扇 | High Perf Fans | 6 套 | OK |
| 9 | 远程管理卡 | iDRAC9 Datacenter | 1 套 | 业界最强 |
| 10 | 安全芯片 | TPM 2.0 | 1 套 | OK |
合同关键条款解读
| 条款 | 合同原文要点 | 风险评估 |
|---|---|---|
| 交货时间 | 盖章后 7 个自然日 | 尚可,但 H200 缺货时可能延迟 |
| 运输方式 | 乙方送达,包装/运输/保险/装卸费乙方承担 | 好 |
| 结算方式 | 人民币公对公转账 | 正常 |
| 发票 | 增值税专用发票 13% | 好 |
| 付款 | 10% 定金 + 90% 发货前付清 | 致命 必须改 |
| 验收 | 收货 7 天内无异议视为通过 | 致命 必须改 |
| 初步验收 | 收货后 1 自然日内验外观/数量/规格 | 时间太短,建议 3 天 |
| 质量响应 | 24 小时响应,3 自然日内解决 | GPU 底板 3 天解决不了 |
| 安装调试 | 含运输上架 + 性能验收 + 72h 测试 | 无标准 |
| 质保 | 36 个月,无法维修换新 | 换新时限未写 |
| 远程支持 | 36 个月不限次数 | 好 |
| 原厂免责 | 原厂不能供货不视为乙方违约 | 太宽泛 |
| 违约金 | 逾期千分之五/天,上限 20% | 尚可 |
| 争议解决 | 合同签订地(上海嘉定)法院管辖 | 需确认是否接受 |
报价单 vs 合同 关键矛盾
| 维度 | 报价单(底牌) | 合同(面子) | 真实情况 |
|---|---|---|---|
| 质保方式 | 寄修,不含现场服务 | 上门维修 | 需确认到底是哪个 |
| GPU 维修 | 返海外原厂,1-2 个月,不提供备机 | "无法维修则换新" | 必须写入时限和备机方案 |
| AI 框架 | 不含 PyTorch/TensorFlow 部署 | 未提及 | 需确认调试范围 |
| 操作系统 | 不含 OS 授权费用 | 可按客户要求部署 | 需确认是否收费 |
| 配置变更 | "以实际供货时最新批次为准" | 列明了具体型号 | 合同应锁死,不能随意替换 |
合同修改要求清单
以下是我方对合同的修改要求,按优先级排列。可直接发给对方参考。
| # | 条款 | 当前内容 | 修改要求 | 优先级 |
|---|---|---|---|---|
| 1 | 付款方式 | 10% 定金 + 90% 发货前付清 | 10% 定金 + 50% 到货 + 30% 终验 + 10% 质保金 | 必改 |
| 2 | 验收期限 | 7 天内无异议视为通过 | 30 个自然日验收期 | 必改 |
| 3 | 验收标准 | "性能验收" 无量化指标 | 附件列明 Decode/吞吐/温度/XID 等量化指标 | 必改 |
| 4 | 维修时限 | "24h 响应,3 自然日解决";"无法维修换新"(无时限) | 普通故障锁死合同已有的 3 自然日承诺(不能放宽);GPU 底板单独约定 10 工作日整板换或备机;超时赔偿 | 必改 |
| 5 | 配件清单 | 缺少线缆/模块/导轨 | 补充完整随机配件清单 | 必改 |
| 6 | SSD 品牌 | 仅写 "8TB U.2 SSD" | 写明 Solidigm D7-P5520 或同级别 | 必改 |
| 7 | 免责条款 | 原厂不能供货不视为违约 | 加 30 天上限,超限可解约退全款 | 必改 |
| 8 | 质保起始日 | 未明确 | 从终验通过之日起算 | 建议改 |
| 9 | 技术培训 | 无 | 增加 ≥ 4 小时现场培训条款 | 建议加 |
| 10 | 延迟交付 | 无专项违约金 | 延迟 0.3‰/天,超 30 天可解约 | 建议加 |
目标价位
| 档位 | 价格 | 说明 |
|---|---|---|
| 理想价 | ¥295~305 万 | 美国 $350K × 1.13 税 × 1.15 渠道 ≈ 295 万 |
| 合理价 | ¥310~320 万 | 含 ProSupport 3 年 NBD + 安装调试 + 含税 |
| 当前报价 | ¥332 万 | 合同价格,必须包含所有服务才值这个价 |
谈判筹码(按杀伤力排序)
谈判红线(低于此条件不签)
谈判节奏建议
拿报价单和合同的矛盾点施压:"你报价单说寄修、不提供备机,合同却说上门维修换新——到底是哪个?请写清楚。"
不要急于签约。合同日期是 2026-04-03,说明对方很急。越急越说明有让利空间。
确认 Dell 授权经销商身份。如果不是授权经销商,Dell ProSupport 可能无法激活,332 万就不值。
交付流程 & 付款节点
核心性能验收指标
| 测试项 | 达标值 | 允许偏差 | 不达标处理 |
|---|---|---|---|
| DeepSeek R1 Decode 速度 | ≥ 40 tok/s | ±15%(≥ 34) | 排查 GPU/NVLink/精度 |
| TTFT 首 Token 时间 | ≤ 3 秒 | 预热 3 次后测 | 检查编译优化 |
| 40 人并发总吞吐 | ≥ 800 tok/s | ±20%(≥ 640) | 检查 Expert Parallel |
| NVLink 拓扑 | 全部 NV18 | 不允许偏差 | 立即拒收 |
| 72h GPU 温度 | ≤ 83°C | — | 检修散热系统 |
| 72h XID 错误 | 零错误 | 不允许 | 返厂换 GPU 底板 |
| 72h GPU 掉卡 | 始终 8 颗可见 | 不允许 | 返厂检修底板 |
| 72h NVLink 带宽 | all_reduce ≥ 800 GB/s | — | 排查 NVSwitch |
整体比喻:一家超级餐厅
把这台服务器想象成一家餐厅,它的工作就是"接收客人的问题(点菜),然后让 AI 生成回答(做菜)":
· GPU(8 颗 H200) = 8 个顶级厨师,所有"做菜"(AI 推理计算)都是他们干的
· NVLink / NVSwitch = 厨师之间的传菜通道,让 8 个厨师可以一起做一道大菜
· CPU(2 颗) = 餐厅经理,负责接单、排队、分配任务,但自己不做菜
· 内存(2TB DDR5) = 厨房的备菜台,把食材(模型参数)从冰箱(SSD)搬到台上让厨师用
· SSD(8TB) = 冰箱,存放食材(模型文件)。DeepSeek R1 一个模型就 350GB
· IB 网卡(8 张 400G) = 餐厅的外卖窗口,用于和隔壁餐厅(其他服务器)协作
· 管理网卡 = 餐厅的电话,日常管理、远程登录用
· 电源(6 个 2800W) = 餐厅的电力系统
· iDRAC9 = 远程监控摄像头,不在现场也能看到餐厅状态
逐个零件详解
1. GPU — NVIDIA H200 × 8(最重要,占总价 70%+)
是什么:图形处理器,但现在主要用来做 AI 计算。可以理解为"AI 的大脑"。
大模型里干什么:100% 的推理计算都是 GPU 干的。你问 AI 一个问题,GPU 负责一个字一个字地"想"出答案。
为什么要 8 颗:DeepSeek R1 有 6710 亿个参数,一颗 GPU 装不下(一颗只有 141GB 显存),所以要 8 颗一起分担。这叫"张量并行"。
每颗值多少钱:约 ¥25~30 万,8 颗约 ¥200~240 万,占整机成本 70% 以上。
坏了怎么办:8 颗 GPU 是焊在一块底板(HGX)上的,任何 1 颗坏了都要整块底板返厂。这就是为什么 GPU 底板的维修条款那么重要。
2. NVLink / NVSwitch(合同里没单独列 — 这是正常的)
是什么:GPU 和 GPU 之间的高速通道。
大模型里干什么:8 颗 GPU 各自只算模型的一部分,算完需要互相交换中间结果。NVLink 就是这个"交换通道",速度 900GB/s(比普通网线快 9000 倍)。
为什么合同不单独列:NVLink 和 NVSwitch 是焊在 HGX GPU 底板上的,不是单独的配件。你买"8×H200 HGX 底板"的时候,NVLink(18 条通道)和 NVSwitch(4 颗交换芯片)已经包含在里面了。所以合同写"NVIDIA HGX H200 SXM 141GB × 8"就已经包含了 NVLink,不需要也不应该单独列出。
验收时怎么确认:跑 nvidia-smi topo -m,所有 GPU 之间必须显示 NV18(18 条 NVLink 通道全连通)。如果出现 PHB 或 SYS 字样,说明走了慢速 PCIe,必须拒收。
3. CPU — Intel Xeon 8562Y+ × 2(不太重要)
是什么:中央处理器,普通电脑的"大脑"。但在 AI 服务器里它不是主角。
大模型里干什么:接收用户请求、把数据喂给 GPU、管理内存、处理网络 I/O。类似"调度员",真正算力 99% 在 GPU。
所以 CPU 差一点没关系?是的。戴尔用的 32 核(8562Y+)比超微的 48 核(8558)少,但对推理速度影响 < 5%。省下的钱比多核划算。
4. 内存 — 64GB DDR5-5600 × 32 = 2TB
是什么:系统内存(不是 GPU 的显存,两回事)。
大模型里干什么:CPU 用来临时存放数据。模型启动时先从 SSD 加载到内存,再从内存搬到 GPU 显存。2TB 内存够用。
和 GPU 显存的区别:GPU 显存(141GB×8=1.1TB)在 GPU 内部,速度极快(4.8TB/s),是真正跑模型的地方。系统内存(2TB)速度慢得多,主要给 CPU 用。
5. SSD — 8TB U.2 × 1
是什么:固态硬盘,存文件的。
大模型里干什么:存模型文件。DeepSeek R1 的模型文件约 350GB(FP8 精度),8TB 能放 20 多个这样的模型。
品牌重要吗:重要。企业级 SSD(如 Solidigm D7-P5520)顺序读 7GB/s,杂牌可能只有 2~3GB/s。加载模型时差距明显:350GB 模型用好盘 50 秒加载完,杂牌要 2 分钟。这就是为什么我们要求合同写明 SSD 品牌。
6. IB 网卡 — NVIDIA ConnectX-7 NDR 400Gb/s × 8
是什么:InfiniBand 高速网卡,速度 400Gb/s(比普通千兆网卡快 400 倍)。
大模型里干什么:用于多台服务器之间通信。如果你有 2 台以上服务器组集群训练/推理,GPU 之间跨机通信就走这个。
只买 1 台需要吗:暂时不需要。单台服务器内部 GPU 通信走 NVLink(焊在底板上),不走 IB 网卡。但 IB 卡是标配,以后扩集群用得上。
线缆的事:IB 网卡本身含在配置里了,但连接线缆没有列。每根 NDR 光缆 ¥1~4 万。如果暂时只用 1 台不组集群,这笔线缆钱可以先不花。
7. 管理网卡 — 万兆双光口 × 1
是什么:普通的以太网网卡,10Gbps。
干什么:日常管理用 — SSH 登录服务器、下载模型文件、提供 API 服务。就是平时你连服务器用的网口。
8. 电源 — 2800W × 6
是什么:把机房的交流电转成服务器需要的直流电。
为什么要 6 个:冗余。8 颗 H200 满载约 5600W + CPU/内存/风扇约 1500W = 总共约 7000W。6 个 2800W 的 PSU 总容量 16.8kW,坏掉 1~2 个仍能运行。
需要注意:普通家用插座(10A/220V=2200W)带不动一个 PSU。必须用机房级 PDU 和 C19/C20 工业插头。
9. iDRAC9 Datacenter — 远程管理卡
是什么:Dell 独有的远程管理系统,业界公认最强。
干什么:不用去机房就能远程开关机、看硬件状态、装系统、看温度、更新固件。相当于给服务器装了一个远程监控摄像头 + 遥控器。
为什么值钱:超微的 IPMI 管理界面像 2005 年的网页,功能少还难用。iDRAC9 支持 MFA 登录、自动固件更新、碳排放监控,安全功能是超微的 3.5 倍。这是选戴尔而不选超微的重要理由之一。
10. TPM 2.0 — 安全芯片
是什么:一颗专门做加密的小芯片。
干什么:安全启动、磁盘加密、密钥存储。防止有人拆硬盘偷数据。对 AI 推理性能没有影响,但企业合规通常要求有。
数据流向:用户提问到 AI 回答的全过程
① 用户发问题 →(通过管理网卡)→ 到达服务器
② CPU 接收请求 → 把问题转成 token(数字序列)
③ CPU 把 token 发给 GPU →(通过 PCIe 总线)→ 到达 8 颗 GPU
④ 8 颗 GPU 协作计算 →(通过 NVLink/NVSwitch 交换中间结果)→ 每秒生成约 40 个 token
⑤ GPU 把生成的 token 发回 CPU → CPU 转成文字
⑥ 文字通过网卡返回给用户
整个过程中,步骤④占了 99% 的时间和算力。所以 GPU 最重要、最贵、最需要关注。
合同配置清单 — 补充说明
合同里写"NVIDIA HGX H200 SXM 141GB × 8"这一项,实际上已经包含了:
· 8 颗 H200 GPU
· 4 颗 NVSwitch 交换芯片
· 18 条 NVLink 4.0 通道(每条 50GB/s,合计 900GB/s)
· HGX 底板 PCB 和散热结构
这些东西是一整块模组,NVIDIA 出厂时就焊好的,不拆卖。所以合同不需要单独列 NVLink/NVSwitch,写"HGX H200 × 8"就等于全包了。
验收时一定要验的:nvidia-smi topo -m 全部显示 NV18 = NVLink 正常。这是整机最关键的验收项,一个都不能少。
机房基础设施准备
| 项目 | 最低要求 | 建议值 | 备注 |
|---|---|---|---|
| 供电容量 | 6 × 2800W = 16.8kW(PSU 额定总功率) | 预留 20kW 给单台机器 | 需 3 路独立 C19/C20 回路(每路 ≥ 32A/240V),或工业三相电直接供电 |
| PDU(配电单元) | 支持 C19 插座 × 6 | 智能 PDU 带电流监控 | 普通民用插排绝对不行。2800W PSU 使用 IEC C20 插头,需 C19 插座的机柜级 PDU |
| 制冷能力 | 满足 10.5kW 散热 | 机柜冷通道 / 精密空调 | 10kW 发热量相当于 3 台家用 3 匹空调满载。普通办公室空调扛不住 |
| 进风温度 | ≤ 35°C(ASHRAE A1) | 18~27°C | 环境温度过高会触发 GPU 降频保护,直接影响 Decode 性能 |
| 机柜尺寸 | 42U 标准机柜,深度 ≥ 1100mm | 深度 1200mm 以上 | XE9680 深度约 920mm + 线缆空间需要 ≥ 1100mm |
| 机柜承重 | ≥ 200kg(含导轨自重) | ≥ 300kg | XE9680 满载约 130kg(6U),轻型机柜可能不安全 |
| 地板承重 | 机柜 + 服务器 + PDU ≥ 400kg | — | 高架地板需确认承重;非高架地板一般没问题 |
| UPS(不间断电源) | 可选但建议 | 在线式 UPS ≥ 15kVA | 突然断电可能损坏 GPU/数据。如果机房有市电 + 柴发双路可不用单独 UPS |
| 网络接入 | 至少 1Gbps 以太网口到服务器管理网卡 | 10GbE + 带外管理 | 模型下载需要带宽(DeepSeek R1 约 350GB),1G 网口下载一次要 45 分钟 |
| 物理安全 | 独立锁定机柜 | 门禁 + 监控 | 单台设备价值 330 万 |
到货物流与上架实操
| 环节 | 负责方 | 需准备的 |
|---|---|---|
| 运输到楼下 | 卖方(合同约定) | 确认卡车能到达机房所在建筑,有无限高限重 |
| 搬运至机房 | 合同约定卖方做 | 确认有货梯(承重 ≥ 500kg)或一楼机房直接入库 |
| 拆箱验外观 | 双方在场 | 拍照记录包装完整性,开箱前拍四面照片(作为运损理赔依据) |
| 安装导轨 | 卖方安装调试 | 确认机柜有足够的方孔或圆孔安装位(6U = 10.5 个安装孔位) |
| 上架(最关键) | 卖方 + 至少 4 人 | 130kg 推入导轨,液压升降台或机柜电梯最安全 |
| 接电/接网 | 卖方完成 | 提前布好 6 根 C19-C20 电源线 + 1 根管理网线到机柜 |
| 通电测试 | 双方在场 | iDRAC9 web 界面确认所有组件识别正常 |
单机推理场景下的 IB 网卡说明
| 场景 | IB 网卡是否需要 | 说明 |
|---|---|---|
| 单台服务器跑 DeepSeek R1 推理 | 不需要 | 8 颗 GPU 通过 NVLink 通信,和 IB 网卡无关 |
| 多台服务器组集群训练 | 必需 | 每台 8 张 IB 卡 + NDR 交换机(约 ¥30~80 万/台) |
| 多台服务器组集群推理(tensor parallel 跨机) | 必需 | 同上 |
| 高速数据传输(模型分发) | 可选 | 用 IB 传模型比 10G 以太网快 40 倍,但需要对端也有 IB |
结论:如果只买 1 台跑推理,8 张 IB 卡暂时用不上,但它们是 XE9680 标配且占总价比例小(~¥10 万 / ¥332 万 ≈ 3%),不值得为此砍配。留着以后扩集群用。 但线缆可以暂时不买 — NDR 光缆每根 ¥1~4 万,8 根要 ¥8~32 万。如果暂时不组集群,可以和卖方确认是否随机附送 IB 线缆;如果不附送且你不需要,就不用为此争论了。
停机灾备应对方案
| 故障场景 | 预估停机 | 应对方案 |
|---|---|---|
| 电源/内存/SSD 故障 | 1~3 天 | 合同已承诺 3 自然日内解决,锁死这个时限。建议自备 1 条 64GB DDR5 备件(约 ¥800) |
| 单颗 GPU 故障(HGX 底板) | 10~60 天 | 整板返厂。合同写入备机方案或停机赔偿。同时准备云 GPU 降级方案(如阿里云/AWS H100 按量计费) |
| NVSwitch 故障 | 10~60 天 | 底板级故障,同上 |
| CPU 故障 | 3~7 天 | Dell 有国内备件库,响应较快 |
| 整机无法启动 | 1~3 天 | iDRAC9 远程诊断 → 定位故障件 → 按件更换 |
关键建议:提前注册一个云 GPU 服务账号(阿里云 PAI / AWS p5 / Azure ND 系列), 和运维团队跑通一次"本地模型切换到云推理"的流程。 这样 GPU 底板返厂期间可以快速切到云上,虽然成本高但不至于业务完全停摆。