Designed for existing GPU systems, this algorithm optimizes expert placement to reduce data movement, achieving up to a 1.25x speedup specifically in MoE computation. 该算法是针对现有GPU系统设计的优化方案,通过更智能地放置专家来减少数据移动,从而在MoE计算部分实现了高达1.25倍的加速。 既存GPUシステム向けに設計されたこのアルゴリズムは、データ移動を削減するためにエキスパート配置を最適化し、MoE計算部分で最大1.25倍の高速化を達成する。