【PyTorch][chapter 28] 揭秘 Transformer:缩放定律指南-附录 2:以 FLOPS(每秒浮点运算次数)为单位的计算速度

   FLOPS,即每秒浮点运算次数,是计算的速度。下面是 Nvidia A100H100 GPU 性能表,如图 8 所示。

可以根据表格和计算需求(即 6 ND 估计)估算训练 LLM 所需的 GPU 数量。例如,GPT4 需要 1330 亿petaFLOPs,即 1.33 x 10²⁶ FLOPs(或 1.7 万亿个参数并使用 13 万亿个 token,从而产生 6 x 1.7 x 10¹² x 13 x 10¹²,1.33 x 10²⁶ FLOPs)。假设计算使用稀疏的 FP16 Tensor Core 运行,A100 将提供 624TFLOPS(每秒 6.24 x 10¹⁴ 浮点运算)。据报道,OpenAI 使用了 25,000 台 A100。因此,1.33x10²⁶/(6.24x10¹⁴ x 25,000) = 8525641 秒或 98.67 天,这与报告帖子一致。很好,计算正确!:)

 翻译 

https://medium.com/sage-ai/demystify-transformers-a-comprehensive-guide-to-scaling-laws-attention-mechanism-fine-tuning-fffb62fc2552


 

上一篇:h5小游戏实现获取本机图片


下一篇:蓝队技能-应急响应篇&Rookit后门&进程提取&网络发现&隐藏技术&Linux杀毒&OpenArk