Haber Detayı
GPT-5.4 neler sunuyor?
Son günlerde sızıntılarla gündeme gelen GPT-5.4 nihayet gün ışığına çıktı. OpenAIın yeni yıldızı yalnızca sohbet etmiyor. Bilgisayar kullanabiliyor, yazılım araçlarını yönetebiliyor ve uzun görevleri baştan sona planlayabiliyor.
OpenAI yapay zeka yarışında sonunda beklenen adımı attı ve GPT-5.4ü tanıttı.
ChatGPT, API ve Codex platformlarında kullanılabilen model, şirketin profesyonel iş yükleri için geliştirdiği en güçlü ve verimli sürüm olarak tanımlanıyor.
Yazılım araçları, web sayfaları ve bilgisayar uygulamaları üzerinde gerçek görevleri tamamlayabilen bir yapıya sahip.
Baştan açıklama yapmakta fayda var; 5.4 ücretli kullanıcılara açıldı ve kademeli olarak dağıtılıyor.
Eğer ChatGPT aboneliğiniz varsa birkaç saat içinde yeni modeli görebilirsiniz.Yeni GPTnin dikkat çeken teknik özelliklerinden biri devasa bağlam penceresi. 1 milyondan fazla token bağlam ve 128 bin token çıktı limiti sunuyor.
Böylece çok uzun belgeleri, kod yığınlarını veya veri setlerini tek oturumda analiz edebiliyor.
Özellikle yazılım geliştirme, finans analizi ve araştırma projeleri gibi uzun soluklu görevlerde bu kapasite kritik önem taşıyor.
OpenAI doğruluk seviyesinde ciddi iyileştirme yapıldığını söyledi.
Şirkete göre taze model verdiği bilgilerde %33 daha az hata yaparken, genel cevaplarda ise %18 daha az yanlış bilgi üretiyor.Gelelim benchmark sonuçlarına.
OpenAIın paylaştığı bilgilere göre GPT-5.4 üst sıralara yerleşti.
GDPval testinde %83.0 oran elde ederek GPT-5.2nin %70.9 skorunu geçti.
Ayrıca SWE-Bench Proda %57.7lik puana imza atarak eski modelleri geride bıraktı.
Toolathlon testinde de sonuç %54.6 oldu ki, GPT-5.2 aynı testte %46.3 almıştı.Tüm testler içinde OSWorld-Verifieda ayrı bir parantez açmak gerekli.
Çünkü bu benchmark yapay zekanın masaüstü ortamını kullanarak görev tamamlama becerisini ölçüyor.
Sistem ekran görüntülerini analiz ediyor, ardından klavye ve fare komutları üreterek görevi tamamlıyor.
GPT-5.4, OSWorldda %75lik orana ulaştı.
Bu testte insan seviyesi %72.4.
Özetle yeni GPT, insan performansını bile geçti.Zaten modelin en dikkat çekici yeniliği de tam burada yatıyor.
Örneğin bir AI agent web sitesine girip veri toplayabiliyor, bu verilerden Excel dosyası hazırlayabiliyor, sunum oluşturabiliyor ve sonuçları raporlayabiliyor.
Böylece yapay zeka yalnızca cevap veren bir araç olmaktan çıkıp gerçek işleri tamamlayan bir yardımcıya dönüşüyor.
OpenAI, 5.4ü yatırım bankası analistlerinin spreadsheet görevleriyle test etti, araç %87.3 oranında başarı yakaladı.
GPT-5.2 ise %68.4 seviyesinde kalmıştı.
Arada gerçekten büyük fark var.Web araştırması tarafında da geliştirmeler var.
BrowseComp benchmarkında GPT-5.4, GPT-5.2ye göre 17 puan daha yüksek performans gösterdi.
GPT-5.4 Pro ise aynı testte %89.3 ile rekor kırdı.
BrowseComp, AI agentların web üzerinde zor bulunan bilgileri araştırma becerisini ölçüyor.
Yeni GPT Prodan bahsetmişken biraz daha detaylara girelim; Pro modeli daha fazla hesaplama kullanıyor, daha uzun süre düşünme sürecine sahip ve karmaşık görevlerde eskisinden çok daha doğru sonuçlar üretebiliyor.
Ancak bunun bir bedeli var.
Bazı görevlerin tamamlanması uzun sürebiliyor.