Dulu orang-orang berusaha keras untuk berpindah ke cloud, tetapi biaya daya komputasi per unit pada fase inferensi membuat banyak tim menyadari: inferensi AI dalam skala besar dan jangka panjang menghabiskan uang terlalu cepat di cloud. Aplikasi AI asli lebih cocok untuk menurunkan tugas inferensi kunci ke pusat data lokal, yang dapat mengurangi latensi serta menghemat bandwidth dan biaya sewa cloud.



Pertarungan memori adalah ciri khas awal pelatihan pembelajaran mendalam ( Siapa yang memiliki memori grafis yang lebih besar, dia yang menang ), tetapi hari ini:

Batas maksimum throughput data yang disimpan ke GPU secara langsung mempengaruhi QPS inferensi

Kecepatan interaksi antara GPU dan CPU/kartu akselerasi adalah batas kinerja jalur aliran.

Konsumsi daya kluster AI pada satu kabinet dapat mencapai puluhan kilowatt, desain PD yang tidak wajar akan langsung menghambat skala penyebaran Daya Komputasi.

Jika tata letak pusat data masih terjebak dalam paradigma desain bisnis Web/basis data tradisional tahun 2015, itu akan langsung gagal di bawah beban kerja AI.

Lihat wawasan kami:
20 Ahli Teknologi Tentang Tren Perangkat Keras yang Muncul yang Harus Diperhatikan Bisnis melalui @forbes
VIA4.11%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)