Bellek Tüketimi Yarıya İniyor

Yapay zeka modellerinin donanım gereksinimlerini kökten değiştirme iddiasıyla sahneye çıkan Google DeepMind, 'TurboQuant' adını verdiği yeni nesil model sıkıştırma (quantization) algoritmasını resmi olarak duyurdu. Teknik makale olarak arXiv'de yayımlanan bulgular, teknoloji dünyasında deprem etkisi yarattı.

Çip Üreticileri Piyasada Sarsıldı

TurboQuant'ın temel iddiası son derece iddialı: Büyük dil modellerinin (LLM) veri hassasiyetini neredeyse hiç kaybetmeksizin bellek tüketimini %60'a kadar düşürmek ve çıkarım (inference) hızını ikiye katlamak. Bu rakamlar doğrulanırsa, halihazırda milyarlarca dolarlık yapay zeka altyapısı yatırımı yapan şirketler mevcut donanım planlarını baştan çizmek zorunda kalacak.

Haberin açıklanmasının hemen ardından bellek üreticilerinin (Micron, SK Hynix, Samsung) Wall Street'teki hisseleri sert düşüş yaşadı. Yatırımcılar, yüksek bant genişlikli HBM belleğe olan talebin azalma riskini fiyatlamaya başladı. Nvidia gibi GPU üreticileri ise bu gelişmenin donanım satışlarını baltalayıp baltalamayacağını değerlendiren açıklamalarla piyasayı sakinleştirmeye çalıştı.