Sistem, 175 milyar parametreli bir GPT-3 modelini 4 dakikanın altında eğitebiliyor. BERT için ise yalnızca 7.2 saniye gerekiyor.
Büyük bir dil modelini eğitmek, kullandığınız donanıma bağlı olarak haftalar, aylar, hatta yıllar sürebilir. Bu iş yapmanın bir yolu değil – kimse bu kadar uzun süre beklemek için elektriğe ve zamana sahip değil. NVIDIA, Çarşamba günü, 10.000’den fazla H100 Tensor Core GPU tarafından güçlendirilen ve 175 milyar parametreli bir GPT-3 modelini 1 milyar belge üzerinde 4 dakikanın altında eğitebilen Eos süper bilgisayarının en yeni sürümünü tanıttı. Bu, NVIDIA’nın sadece altı ay önce koyduğu MLPerf AI endüstri standardındaki önceki rekorun üç katı hızlıdır.
Eos, büyük bir hesaplama miktarını temsil ediyor. 10.752 GPU’yu NVIDIA’nın Infiniband ağı kullanılarak bir araya getirir (saniyede bir petabayt veri taşıma kapasitesine sahip) ve yüksek bant genişliğine sahip 860 terabayt hafıza (36PB/saniye toplam bant genişliği ve 1,1PB/saniye ara bağlantı) ile 40 exaflops yapay zeka işleme gücü sağlar. Tüm bulut mimarisi, şirketlerin kendi altyapılarını oluşturmadan aylık 37.000 dolara kadar kiralayabilecekleri 1344 düğümden oluşur.
NVIDIA, dokuz testte altı rekor kırdı: GPT-3 için 3.9 dakika, 1024 Hopper GPU kullanarak Stabil Diffusion modelini eğitmek için 2.5 dakika, DLRM için tam 1 dakika, RetinaNet için 55.2 saniye, 3D U-Net için 46 saniye ve BERT-Large modeli için yalnızca 7.2 saniye.
NVIDIA, bu kez kullanılan 10.752 H100 GPU’ya kıyasla haziran ayındaki testlerde kullanılan 3.584 Hopper GPU’ya göre performansın 2.8x ölçekte kaldığını – yani %93 verimlilikle – sürdürebildiğini belirtiyor. Bu etkileyici performans artışı, şirketin cömert yazılım optimizasyonunu kullanarak GPU sayısını üçe katlamasından kaynaklanmıştır.
Dave Salvator, NVIDIA’nın Hızlandırılmış Hesaplama Ürünleri Direktörü, “Ölçeklendirme harika bir şeydir,” dedi. Ancak Salvator, “Ölçeklendirme ile, daha fazla altyapıdan bahsediyorsunuz, ki bu aynı zamanda daha fazla maliyet anlamına gelebilir. Etkili bir şekilde ölçeklenen bir artış, kullanıcıların ‘altyapınızı en iyi şekilde kullanıyoruz, böylece işinizi mümkün olduğunca hızlı bir şekilde hallediyoruz ve organizasyonunuzun yaptığı yatırımdan en iyi değeri alıyoruz’ anlamına gelir,” diye ekledi.
NVIDIA, bu genişletilmiş hesaplama yeteneklerini, şirketin temel model geliştirme çalışmaları, AI destekli GPU tasarımı, sinirsel renderleme, çoklu modlu generatif AI ve otonom sürüş sistemleri dahil olmak üzere çeşitli görevlere uygulamayı planlıyor.
“Her iyi benchmark, pazarın hizmet etmeyi amaçladığı pazarı en iyi yansıtmak için donanıma atacağı iş yüklerini sürekli olarak güncellemelidir,” diyen Salvator, MLCommons’un Stabil Diffüzyon görevlerinde model performansını test etmek için ek bir benchmark eklediğini belirtti. “Bu, şu anda generatif AI pazarının biraz ‘Vahşi Batı’ olduğunu belirten Salvator’a göre önemlidir. Düzenleme ve denetleme eksikliği, “bazen belirli AI performans iddialarıyla karşılaştığımızda, bu özel iddiaları üretmek için giren tüm parametrelerden emin olamıyorsunuz” anlamına gelir. MLPerf, şirketlerin testlerini oluştururken ürettikleri rakamlar için “sonuçların konsorsiyumun diğer üyeleri tarafından gözden geçirildiğini, incelendiğini ve bazen sorgulandığını” sağlar. Salvator, “bu tür bir akran inceleme sürecinin gerçekten bu sonuçlara güvenilirlik kazandırdığını” belirtti.”
YORUMLAR