DeepSeek, yapay zekanın eğitim maliyetini açıkladı

Çinli yapay zeka geliştiricisi DeepSeek, Nature’da yayımlanan hakemli bir makalede R1 modelinin eğitim maliyetini 294 bin dolar olarak açıkladı. Düşük maliyet iddiası, ABD’li rakiplerle karşılaştırmalı olarak Çin’in yapay zeka yarışındaki konumuna dair tartışmaları yeniden alevlendirdi.

Çin merkezli DeepSeek, R1 adlı akıl yürütme odaklı modelinin eğitim maliyetini 294 bin dolar olarak duyurdu.Bilgi, Nature dergisinde yayımlanan hakemli bir makalede yer aldı.

Makaleye göre eğitimde 512 adet Nvidia H800 çipi kullanıldı.

Ocak ayında yayımlanan önceki sürüm bu maliyet bilgisini içermiyordu.PİYASAYA ETKİ VE ŞİRKETİN GÖRÜNÜRLÜĞÜDeepSeek’in Ocak ayında “daha düşük maliyetli” yapay zeka sistemleri duyurması, Nvidia gibi AI liderlerinin hâkimiyetinin sarsılabileceği endişesiyle küresel yatırımcıların teknoloji hisselerini satmasına yol açmıştı.O tarihten bu yana şirket ve kurucusu Liang Wenfeng kamuoyu önüne nadiren çıktı; yalnızca birkaç ürün güncellemesi paylaşıldı.

Nature makalesinde Liang, ortak yazarlar arasında yer aldı.ABD’Lİ RAKİPLERLE MALİYET KARŞILAŞTIRMASIOpenAI CEO’su Sam Altman, 2023’te “temel model eğitiminin” 100 milyon doların “çok daha üzerinde” bir maliyete çıktığını söylemişti; şirket, yayımlanan sürümler için ayrıntılı rakam vermedi.

Büyük dil modellerinin (LLM) eğitim maliyetleri, haftalar ila aylar süren süreçte güçlü çip kümelerinin çalıştırılması ve büyük hacimli metin-kod verisinin işlenmesi gibi giderleri kapsıyor.İHRACAT KISITLAMALARI VE ÇİP TARTIŞMALARIDeepSeek’in geliştirme maliyetleri ve kullandığı teknolojiye dair bazı açıklamaları, ABD’li şirketler ve yetkililer tarafından sorgulandı.

H800 çipleri, ABD’nin Ekim 2022’de Nvidia’nın daha güçlü H100 ve A100 çiplerinin Çin’e ihracatını yasaklamasının ardından Çin pazarı için tasarlandı.Haziran ayında ABD’li yetkililer, DeepSeek’in ihracat kontrolleri sonrasında temin edilen “büyük miktarda” H100 çipine erişimi olduğunu Reuters’a aktardı.

Nvidia ise o dönemde DeepSeek’in yasal olarak edinilmiş H800’leri kullandığını belirtti.A100 KULLANIMI VE EĞİTİM SÜRECİNature makalesine eşlik eden ek bilgi dokümanında şirket, ilk kez A100 çiplerine sahip olduğunu kabul etti ve bunları küçük bir modelle yapılan hazırlık aşamasında kullandığını belirtti.

Araştırmacılar, “DeepSeek-R1 üzerindeki araştırmamıza ilişkin olarak, daha küçük bir modelle yapılacak deneylere hazırlık için A100 GPU’larını kullandık” dedi.

Bu ilk fazın ardından R1, 512 H800 çipinden oluşan kümede toplam 80 saat eğitildi.Reuters daha önce, DeepSeek’in Çin’in en parlak yeteneklerini çekebilmesinin nedenlerinden birinin, A100 süperbilgisayar kümesi işleten az sayıdaki yerli şirketten biri olması olduğunu bildirmişti.

Orijinal habere git