OpenAI, kripto para sektöründe akıllı sözleşmelerin güvenlik açıklarını tespit ve tamir edebilmek için geliştirilen yeni kıyaslama aracı EVMbench’i, yatırım şirketi Paradigm iş birliğiyle hayata geçirdi. Bu sistem, özellikle Ethereum Sanal Makinesi (EVM) üzerinde çalışan ve blockchain tabanlı finansal işlemleri yöneten uygulamaları odağına alıyor.
EVMbench’in Amacı ve Kapsamı
OpenAI tarafından duyurulan EVMbench, yapay zekâ tabanlı sistemlerin akıllı sözleşmelerdeki güvenlik zafiyetlerini tespit etme, mevcut kodu düzenleme ve simüle edilmiş saldırıları gerçekleştirme yeteneklerini ölçmek üzere geliştirildi. Sektörde yaygın kullanılan bu akıllı sözleşmelerin, çoğu zaman yüksek tutarda kripto varlığın güvenliğini üstlenmesi nedeniyle güvenlik riskleri ciddi önem taşıyor. Bu bağlamda OpenAI, günümüzün gelişmiş yapay zekâ sistemlerinin, yüksek risk içeren ortamlarda nasıl performans gösterdiğini değerlendirmeyi hedefliyor.
Test İçeriği ve Uygulama Yöntemi
EVMbench, üç temel yetkinliği test ediyor: zafiyet tespiti, sorunlu kodu düzeltme ve saldırı senaryoları üzerine deneysel uygulamalar. Test veri setinde, kamuya açık denetimlerin yanı sıra yarışmalar ve denetim geçmişlerinden alınmış, ciddi seviyede risk içeren toplam 120 farklı sorun bulunuyor. Ek olarak, stabilcoin odaklı Tempo blockchain ağından vaka çalışmaları da dahil edilerek, finansal gerçekçiliğin artırılması amaçlanıyor.
Sistemde, simüle edilen saldırılar için mevcut açıkları kullanan veya sıfırdan geliştirilen betikler yardımıyla güvenli, izole ortamlarda testler düzenleniyor. Bütün bu testlerde, daha önce kamuoyuyla paylaşılmış açıklar esas alınıyor.
Yapay zekâ modelleri zafiyet tespit modunda, kodu inceleyerek güvenlik açığı barındıran noktaları işaretliyor. Düzeltme modunda ise fonksiyonelliği bozmadan bu zayıflıkları gidermekle yükümlü. Saldırı modunda, ajanlar kontrollü bir sanal ortamda savunmasız sözleşmelerden fon çekmeye çalışıyor.
Test Sonuçları ve Açık Kaynağa Katkı
OpenAI, kendi oluşturduğu değerlendirme altyapısını kullanarak ileri seviye modellerini test etti. Gözlemler, GPT-5.3-Codex modelinin simüle saldırı senaryolarında önceki sürümlere kıyasla daha yüksek başarı oranına ulaştığını gösteriyor. Ancak zafiyet tespit ve kod düzeltme alanlarındaki sonuçlar, büyük ve karmaşık kod yapıları söz konusu olduğunda, hâlâ zorlukların devam ettiğini ortaya koydu.
Yapılan araştırmada, yapay zekâ tabanlı ajanların, hedeflerin net şekilde belirlendiği durumlarda daha etkili olduğu; çoklu ve geniş kod havuzlarında ise analiz yetkinliklerinin sınırlı kaldığı tespit edildi.
OpenAI, bu araçla siber güvenlikte savunma mekanizmalarını genişletmek istediğini belirterek, açık kaynaklı güvenlik projelerine destek olması amacıyla 10 milyon dolarlık API kredi taahhüdünün de verileceğini duyurdu. EVMbench’in araç seti ve veri setlerinin, akademik ve sektörel araştırmalara katkı sağlamak üzere paylaşılacağı açıklandı.




