
今天分享的是:Google集群拆解
报告共计:41页
Google集群核心架构与技术特性总结
本文围绕Google集群的Scale up(纵向扩展)与Scale out(横向扩展)两大核心方向,详细拆解了其TPU集群的架构设计、光互联技术、组件占比及行业对比等关键内容。
在Scale up架构方面,Google TPU集群采用3D结构设计,Ironwood架构下的TPU集群以机架为基础单元,一个机架包含16个TPU Tray、64个TPU芯片,通过芯片间互连(ICI)网络实现高效通信。TPU V4 Superpod由64个机架组成,集成4096个芯片,共享256TiB HBM内存,总计算性能超1 ExaFLOP;TPU V7 Superpod则扩展至144个机架、9216个芯片,通过ICI网络实现9.6 Tb/s的连接速度,可访问高达1.77 PB的HBM内存。光互联是Scale up的关键,光路交换机(OCS)通过二维MEMS微镜阵列实现光束精准切换,配合光纤准直器和透镜阵列保障信号传输,TPU V4和V7的光路交换机占比分别为1.1%和0.52%,光模块比例均为1.5。
Scale out扩展方面,Google通过数据中心网络(DCN)实现多个Superpod的互联,可构建包含数十万个TPU的大型集群。OCS技术在此发挥重要作用,作为动态可重构架构,能绕过中断保障服务连续性。对比InfiniBand、NVIDIA Spectrum-X、Broadcom Tomahawk5三种互联方案,十万卡规模集群中,NVIDIA Spectrum-X和Broadcom Tomahawk5的交换机占比均为3.2%,光模块/GPU比例为2.6,在成本控制上更具优势;InfiniBand方案虽交换机占比达9.6%,但在部分性能指标上有其特点。
展开剩余74%此外,文档还对比了NVIDIA和AMD GPU的相关技术,NVIDIA从Hopper到Blackwell架构持续升级NVLink技术,带宽从900GB/s提升至1.8TB/s;AMD MI400系列通过UALink实现1.8TB/s的Scale up网络带宽,搭配3张800G网卡支持2.4Tb/s的Scale out网络传输。
整体来看,Google集群通过3D拓扑结构、光路交换机与光模块的优化配置,实现了Scale up与Scale out的高效协同,其架构设计在芯片密度、互联带宽、冷却效率等方面形成显著特性,为大规模AI计算提供了强大的硬件支撑,也为行业集群建设提供了重要参考。
要不要我帮你整理一份Google集群与NVIDIA、AMD架构核心参数对比表?
以下为报告节选内容
发布于:广东省启天配资提示:文章来自网络,不代表本站观点。