過去、皆が必死にクラウドに移行していましたが、推論段階のユニットコンピューティングパワーコストにより、多くのチームが気づきました:長期間、大規模なAI推論はクラウド上でお金を使いすぎることが早いです。AIネイティブアプリケーションは、重要な推論タスクをローカルのデータセンターに移行するのにより適しており、ドロップレイテンシーを低下させ、帯域幅とクラウドレンタル費用を節約できます。
メモリの競争は、深層学習のトレーニング初期の典型的な特徴(大きなGPUメモリを持っている者が勝つ)、しかし今日:
GPUに保存されたデータのスループットの限界は、推論QPSに直接影響します。
GPU と CPU/アクセラレータカード間のインタラクション速度はパイプライン性能の上限です
単一のラックのAIクラスターの消費電力は数十キロワットに達することができ、PD設計が不合理であれば、コンピューティングパワーの展開規模が直接停止します。
もしデータセンターのレイアウトが2015年の従来のWeb/データベースビジネスの設計パラダイムに留まっていると、AIのワークロードの下で直接失敗します。
私たちの見解を確認してください:
20人の技術専門家が注目すべき新興ハードウェアトレンドについて @forbes 経由
原文表示