Haber Detayı
Engram nedir? Yapay zekâda maliyetleri düşüren yeni eğitim yöntemi
DeepSeek ve Peking Üniversitesi tarafından geliştirilen Engram yöntemi, büyük dil modellerinde bellek ve hesaplama süreçlerini ayırarak performansı artırmayı ve donanım maliyetlerini düşürmeyi hedefliyor.
DeepSeek, Peking Üniversitesi iş birliğiyle Engram adını verdiği yeni bir yapay zekâ eğitim yöntemini tanıttı.
Bu yaklaşım, bellek depolama ile hesaplama süreçlerini birbirinden ayırarak, büyük dil modellerinde uzun süredir yaşanan performans ve maliyet sorunlarına çözüm getirmeyi hedefliyor.Büyük dil modellerinde bellek darboğazıGeleneksel büyük dil modelleri, bilgiye erişim ve temel hesaplamalar için yüksek bant genişliğine sahip belleklere ihtiyaç duyuyor.
Ancak bu durum, hem sistem performansını sınırlıyor hem de donanım maliyetlerini ciddi şekilde artırıyor.Yüksek bant genişlikli bellek (HBM) ihtiyacının hızla artması, kısa sürede DRAM fiyatlarının yaklaşık 10 haftada 5 katına çıkmasının temel nedenlerinden biri olarak gösteriliyor.
Donanım talebindeki bu ani yükseliş, özellikle büyük ölçekli yapay zekâ projelerini zor durumda bırakıyor.Gereksiz işlemler, kaybolan potansiyelAraştırmacılara göre mevcut modeller, hesaplama derinliğinin büyük bölümünü basit ve tekrarlayan işlemlere harcıyor.
Oysa bu kaynaklar, daha üst düzey akıl yürütme yeteneklerini desteklemek için kullanılabilir.Engram, bu noktada devreye girerek modelin temel bilgileri GPU belleğini doldurmadan hızlıca “bulup çıkarmasını” sağlıyor.
Böylece bellek kapasitesi, daha karmaşık çıkarım ve analiz görevleri için serbest bırakılıyor.Nasıl çalışıyor?Engram, bilgiye erişimi hash’lenmiş N-gramlar üzerinden gerçekleştiriyor.
Bu sayede bellek erişimi, modelin anlık bağlamından bağımsız hâle geliyor ve daha kararlı bir yapı sunuyor.Elde edilen bilgiler, modelin gizli durumu ile uyumlu olacak şekilde bağlam farkındalığına sahip bir kapılama (gating) mekanizması ile ayarlanıyor.
Bu mimari, uzun bağlamlı girdilerin daha verimli işlenmesini sağlarken, sistem seviyesinde önceden yükleme (prefetching) desteğini de minimum performans kaybıyla mümkün kılıyor.Test sonuçları ne gösteriyor?Engram yöntemi, 27 milyar parametreli bir model üzerinde test edildi ve sektörde yaygın olarak kullanılan kıyaslama testlerinde ölçülebilir performans artışları sağladı.Yöntem, Phison’ın yapay zekâ çıkarım hızlandırıcıları gibi donanım dostu çözümlerle birlikte çalışabiliyor.
Statik bilgilerin hızlı bellek yerine sorgulama yoluyla elde edilmesi, yüksek hızlı belleğe olan ihtiyacı önemli ölçüde azaltıyor.SSD ve CXL ile genişleyebilen bellek yapısıPhison’ın sunduğu SSD tabanlı bellek genişletme çözümleri, Engram veya Mixture-of-Experts (MoE) gibi büyük yapay zekâ sistemlerinin toplam bellek kapasitesini daha düşük maliyetle artırmayı mümkün kılıyor.Bu yaklaşım, aynı zamanda GPU bellek darboğazlarını aşmayı hedefleyen CXL (Compute Express Link) standartlarıyla da uyumlu çalışıyor.
Sonuç olarak sistemler, hızlı belleği daha verimli kullanırken toplam bellek kapasitesini ekonomik biçimde büyütebiliyor.Hesaplama maliyeti artmadan daha güçlü modellerEngram, statik örüntü depolamayı dinamik hesaplamadan ayırarak Transformer mimarisini, ek FLOP veya parametre artışı olmadan güçlendiriyor.
DeepSeek, bu yapı için MoE hesaplama modülü ile Engram bellek modülü arasındaki parametre dağılımını optimize eden U şeklinde bir genişleme kuralı da tanımladı.Testler, seyrek parametre bütçesinin yaklaşık %20–25’inin Engram’a ayrılmasının, yalnızca MoE kullanan modellere kıyasla daha iyi ve ölçeklenebilir sonuçlar verdiğini gösteriyor.Çoklu GPU ve ölçeklenebilir bellek avantajıEngram’ın deterministik bilgi erişim mekanizması, bellek kapasitesinin birden fazla GPU arasında doğrusal şekilde ölçeklenmesini sağlıyor.
Çıkarım sırasında asenkron önceden yükleme desteği sunan sistem, alt katmanlardaki statik bilgi yükünü azaltarak dikkat mekanizmalarının küresel bağlama odaklanmasına olanak tanıyor.Sık kullanılan gömülü temsiller için uygulanan hiyerarşik önbellekleme, mevcut GPU ve sistem bellek mimarileriyle uyumlu çalışarak pahalı HBM yükseltmelerine olan ihtiyacı azaltabilir.Donanım maliyetlerine dolaylı etkiBu yaklaşımın, özellikle HBM erişimi Samsung, SK Hynix ve Micron gibi üreticilere kıyasla daha sınırlı olan Çin gibi bölgelerde, pahalı bellek donanımlarına olan baskıyı azaltabileceği belirtiliyor.Erken doğrulama sonuçları, Engram sayesinde modellerin parametre ölçeğini ve akıl yürütme kapasitesini artırırken bellek ihtiyacının daha dengeli yönetilebildiğini ortaya koyuyor.
Bu da uzun vadede DDR5 DRAM fiyatlarındaki ani dalgalanmaların önüne geçilmesine katkı sağlayabilir.