Çığır Açan Yapay Zeka Modeli: DeepSeek V3

Çin merkezli bir laboratuvar, bugüne kadar geliştirilen en güçlü “açık” yapay zeka modellerinden biri olarak görülen DeepSeek V3’ü tanıttı.

Bu model, yapay zeka şirketi DeepSeek tarafından geliştirildi ve Çarşamba günü geliştiricilerin indirip ticari uygulamalar dahil olmak üzere çoğu kullanım alanı için değiştirebileceği esnek bir lisansla yayınlandı.

DeepSeek V3, kodlama, çeviri, metin yazımı ve e-posta oluşturma gibi çeşitli metin tabanlı görevleri başarıyla gerçekleştirebiliyor. DeepSeek’in dahili test sonuçlarına göre, bu model sadece “açık” indirilebilir modelleri değil, aynı zamanda yalnızca API aracılığıyla erişilebilen kapalı yapay zeka modellerini de geride bırakıyor.

Rakiplerinden Üstün Performans

DeepSeek V3, özellikle Codeforces adlı bir programlama yarışması platformunda yapılan testlerde, Meta’nın Llama 3.1 405B, OpenAI’nin GPT-4o ve Alibaba’nın Qwen 2.5 72B modellerini geride bırakarak büyük bir fark yarattı.

Ayrıca, modelin performansı Aider Polyglot testinde de oldukça dikkat çekiyor. Bu test, bir modelin mevcut koda entegre edilebilecek yeni kod yazma yeteneğini ölçmek için tasarlanmıştır.

DeepSeek V3’ün başarısının sırrı, 14.8 trilyon token’dan oluşan devasa bir veri setiyle eğitilmiş olması. Token’lar, ham verilerin parçalarını temsil eder ve 1 milyon token yaklaşık 750.000 kelimeye eşittir.

Devasa Boyut ve Maliyet Avantajı

DeepSeek V3, 671 milyar parametreye sahip. Bu, Meta’nın Llama 3.1 405B modelinin parametre sayısının 1.6 katı. Ancak bu büyüklük, modeli çalıştırmak için güçlü donanımlar gerektiriyor. Optimizasyonsuz bir versiyonun, makul bir hızda yanıt verebilmesi için üst düzey GPU’lardan oluşan bir bankaya ihtiyacı var.

Bu büyük yapısına rağmen, DeepSeek V3’ün eğitimi sadece 5.5 milyon dolara mal oldu. Karşılaştırıldığında, OpenAI’nin GPT-4 modelinin geliştirme maliyeti çok daha yüksek.

Çin’in Düzenleyici Etkisi

Modelin siyasi görüşleri, Çin’in düzenlemelerine uyum sağlamak zorunda olduğu için biraz “taraflı.” Örneğin, DeepSeek V3, Tiananmen Meydanı hakkında soru sorulduğunda yanıt vermiyor.

Çin’in internet düzenleyicisi, modellerin “çekirdek sosyalist değerlere” uygun yanıtlar vermesini şart koşuyor. Bu nedenle, birçok Çin yapay zeka sistemi, siyasi spekülasyon gibi hassas konularda yanıt vermekten kaçınıyor.

DeepSeek’in Vizyonu

DeepSeek, “superintelligent” yapay zeka geliştirme hedefiyle dikkat çeken bir şirket. Şirketin arkasındaki finansman, Çin merkezli bir kuantitatif hedge fonu olan High-Flyer Capital Management tarafından sağlanıyor. High-Flyer, yapay zeka modellerini eğitmek için 1 milyar yen (~138 milyon dolar) maliyetle 10.000 Nvidia A100 GPU içeren sunucu kümeleri inşa ediyor.

High-Flyer’ın kurucusu Liang Wenfeng, kapalı kaynaklı yapay zekanın sadece geçici bir engel olduğunu ve diğerlerinin hızla bu farkı kapattığını belirtiyor.

Bize Ulaşın

Bizi Takip Edin

Blog

Kategoriler