Wang Guo • 关于大模型的使用成本计算

虽然日常用不了，但是可以简单了解下

$预训练成本 = (模型参数量 ✖ ️ 6 / A 100 卡每秒的计算次数) ✖ ️ 显卡的租用成本 ✖ ️ 训练数据的 t o k e n 量$

常量
- A100 卡每秒的计算次数 = 312 TFLOPS/Watt (官方公布，每秒可以进行 312T 次浮点数计算)
- 显卡租用成本：暂时以微软 Azure 云上公布的 Nvdia A100 的三年期租用价格 $2.2659 / 小时计算，本文按秒来计算，就是每秒租用价格为$ (2.2659/3600) (参考 https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux/#pricing)

eg：

$推理成本（每千个token） = \frac{模型参数量 \times 2 \times 每次推理所需token数}{GPU每秒计算次数 \times 显卡租用成本}$

$单位token推理成本 = \frac{推理成本（每千个token）}{batch size}$

$并行化推理成本 = \frac{单卡推理成本}{并行卡数}$

$优化后推理成本 = 并行化推理成本 \times (1 - 优化效率)$

其中：

请注意，这个公式是一个简化的示例，实际的推理成本计算可能需要考虑更多的因素，如模型的具体架构、硬件的具体性能、电力成本、运维成本等。

eg：GPT4 Turbo

根据之前提供的搜索结果，我们可以构建一个简化的计算公式来估算GPT4 Turbo模型的推理成本。请注意，实际成本可能会因各种因素（如电力消耗、冷却系统、人工维护等）而有所不同，但以下公式提供了一个基本的估算方法。

首先，我们需要以下参数：

根据搜索结果中的一个示例，我们可以构建如下公式： $每千个token推理成本 = \frac{P \times T}{C \times R}$

将示例中的值代入公式：

计算公式变为： $每千个token推理成本 = \frac{8.222 \times 10^{11} \times 1, 000}{10^{14} \times 3.93}$

进行计算： $每千个token推理成本 = \frac{8.222 \times 10^{14}}{3.93 \times 10^{14}}$ $每千个token推理成本 \approx 2.09 美元$

这个计算结果是一个简化的估算，实际成本可能会更高，因为还需要考虑其他因素，如电力成本、冷却系统成本、运维成本以及可能的优化方法等。此外，实际的GPU计算次数和租用成本可能会根据具体使用情况和供应商而有所不同。