Tether’in Yapay Zeka Araştırma Grubu, Google Research tarafından geliştirilen TurboQuant algoritmasının açık kaynaklı üretim sürümünü yayımladı. QVAC SDK 0.12.0 paketinin parçası olarak sunulan güncelleme, dizüstü bilgisayarlar, telefonlar, uç cihazlar ve merkeziyetsiz ağlarda yerel yapay zeka kullanımını genişletmeyi hedefliyor. Şirket, bu adımla bulut altyapısına bağımlılığı azaltarak cihaz üzerinde daha uzun yapay zeka oturumlarının önünü açmayı amaçlıyor.
Bellek kullanımında dikkat çeken sıkıştırma
Tüketici donanımlarında güçlü yapay zeka modellerinin çalıştırılmasındaki temel sınırlardan biri uzun süredir bellek kapasitesi olarak görülüyordu. Bir yapay zeka asistanı uzun bir belgeyi ya da kapsamlı bir konuşmayı işlerken, bağlam bilgisini KV cache adı verilen bir yapıda tutuyor. Bu alan, özellikle uzun oturumlarda ciddi miktarda bellek tüketebiliyor.
Verilen teknik örneğe göre, yaklaşık 262 bin token düzeyinde bir bağlam penceresinde 4 milyar parametreli bir modelin yalnızca KV cache bölümü yaklaşık 8 GB bellek kullanabiliyor. Dört eşzamanlı oturumda bu miktar, modelin kendi gereksinimi hesaba katılmadan 32 GB seviyesine çıkabiliyor. TurboQuant’ın bu belleği model kalitesine sınırlı etkiyle beş kata kadar sıkıştırabildiği aktarıldı.
Mini sözlük: KV cache, büyük dil modellerinin önceki kelime ve cümlelerden ürettiği anahtar ve değer bilgilerini sakladığı bellek alanıdır. Bu yapı, modelin uzun konuşmaları ve belgeleri bağlamı koruyarak işlemesini sağlar. Bellek yükü arttıkça cihaz üzerinde çalışma zorlaşır; sıkıştırma teknikleri bu nedenle önem taşır.
Bu yaklaşım sayesinde bir kullanıcının, yüz sayfalık bir hukuki belgeyi uzak bir sunucuya yüklemeden dizüstü bilgisayarındaki yapay zeka aracıyla inceleyebilmesi mümkün hale gelebilir. Tether, öğrencilerden araştırmacılara, geliştiricilerden gazetecilere kadar farklı kullanıcı gruplarının mevcut cihazlarında daha uzun ve bağlamı koruyan oturumlar yürütebileceğini belirtti.
Google’ın araştırması, yapay zeka belleğinin çoğu kişinin düşündüğünden çok daha verimli biçimde sıkıştırılabileceğini gösterdi. Bizim çalışmamız ise bu ilerlemeyi geliştiricilerin, girişimlerin ve kullanıcıların doğrudan yararlanabileceği üretim yazılımına taşıyor.
QVAC SDK 0.12.0 ile yerel yapay zeka araçları genişliyor
TurboQuant, QVAC SDK 0.12.0 içinde ve QVAC yığınının temel bileşenlerinden Fabric’e doğrudan entegre edilmiş durumda. Fabric, başlangıçta llama.cpp tabanlı bir çatallanma olarak ortaya çıktı; daha sonra çeşitli araştırma çıktılarının eklendiği daha geniş bir yapıya dönüştü. QVAC SDK ise yerel yapay zeka uygulamaları geliştirmek isteyen ekipler için araçlar, kütüphaneler ve çalışma zamanı bileşenlerini tek pakette topluyor.
Tether, bu güncellemenin özellikle girişimler ve bağımsız geliştiriciler açısından önemli olabileceğini savunuyor. Buna göre daha uzun bağlam pencereleri, daha büyük dosya iş yükleri ve tüketici donanımı ile uç cihazlar arasında daha esnek dağıtım senaryoları mümkün hale geliyor. Böylece büyük yapay zeka ürünlerinin mutlaka pahalı GPU kümelerine dayanması gerektiği varsayımı zayıflayabilir.
Şirketin açıklamalarında veri gizliliği ve bulut bağımlılığı da öne çıktı. Tether Üst Yöneticisi Paolo Ardoino, kullanıcıların uzun belgeleri ya da özel bilgileri işlerken her görevin uzak veri merkezlerinden geçmek zorunda kalmaması gerektiğini söyledi. Ardoino’ya göre TurboQuant, yerel yapay zekaya bu açıdan daha geniş bir hareket alanı sağlıyor.
İnsanlar, uzun bir belgeyi okumasını ya da özel bilgiler üzerinde çalışmasını istedikleri bir yapay zeka asistanını, her seferinde uzak bir veri merkezine bağlı kalmadan kullanabilmeli.
Tether’in daha geniş stratejisi, yapay zekanın kullanıcılara daha yakın çalıştığı kişisel cihazlar ve merkeziyetsiz ağlar etrafında şekilleniyor. Şirket, yapay zeka geliştirmede büyük ölçekli hesaplama altyapısının yanında yazılım verimliliği ve taşınabilirliğin de belirleyici olacağını değerlendiriyor. Üretim sürümünde tam nicemleme hattı, çerçeve uyarlayıcıları, geliştirici dokümantasyonu ve farklı iş yüklerine göre ayarlanmış profillerin yer aldığı bildirildi.




