Dans le passé, tout le monde se battait pour passer au cloud, mais le coût unitaire de la puissance de calcul pendant la phase d'inférence a amené de nombreuses équipes à réaliser que : l'inférence AI à long terme et à grande échelle coûte trop cher dans le cloud. Les applications AI natales sont mieux adaptées à la délocalisation des tâches d'inférence critiques vers des serveurs locaux, ce qui permet de réduire la latence tout en économisant sur la bande passante et les frais de location du cloud.
La compétition pour la mémoire est une caractéristique typique des débuts de l'entraînement en apprentissage profond ( celui qui a la plus grande mémoire vidéo gagne ), mais aujourd'hui :
La limite de débit des données stockées sur le GPU influence directement le QPS d'inférence.
La vitesse d'interaction entre le GPU et le CPU/carte d'accélération est la limite de performance du pipeline.
La consommation d'énergie d'un cluster AI sur une seule machine peut atteindre plusieurs dizaines de kilowatts. Une conception PD inappropriée peut directement bloquer l'échelle de déploiement de la puissance de calcul.
Si la configuration du centre de données est encore basée sur le paradigme de conception traditionnel des affaires Web/base de données de 2015, elle risque de rencontrer des problèmes majeurs sous des charges de travail d'IA.
Découvrez nos perspectives : 20 experts en technologie sur les tendances matérielles émergentes que les entreprises doivent surveiller via @forbes
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Dans le passé, tout le monde se battait pour passer au cloud, mais le coût unitaire de la puissance de calcul pendant la phase d'inférence a amené de nombreuses équipes à réaliser que : l'inférence AI à long terme et à grande échelle coûte trop cher dans le cloud. Les applications AI natales sont mieux adaptées à la délocalisation des tâches d'inférence critiques vers des serveurs locaux, ce qui permet de réduire la latence tout en économisant sur la bande passante et les frais de location du cloud.
La compétition pour la mémoire est une caractéristique typique des débuts de l'entraînement en apprentissage profond ( celui qui a la plus grande mémoire vidéo gagne ), mais aujourd'hui :
La limite de débit des données stockées sur le GPU influence directement le QPS d'inférence.
La vitesse d'interaction entre le GPU et le CPU/carte d'accélération est la limite de performance du pipeline.
La consommation d'énergie d'un cluster AI sur une seule machine peut atteindre plusieurs dizaines de kilowatts. Une conception PD inappropriée peut directement bloquer l'échelle de déploiement de la puissance de calcul.
Si la configuration du centre de données est encore basée sur le paradigme de conception traditionnel des affaires Web/base de données de 2015, elle risque de rencontrer des problèmes majeurs sous des charges de travail d'IA.
Découvrez nos perspectives :
20 experts en technologie sur les tendances matérielles émergentes que les entreprises doivent surveiller via @forbes