Haber Detayı

Kullanıcılara göre ChatGPT ancak 8. olabildi. Zirvede sürpriz isimler var!
Chip galeri chip.com.tr
24/11/2025 14:08 (4 hafta önce)

Kullanıcılara göre ChatGPT ancak 8. olabildi. Zirvede sürpriz isimler var!

Yeni bir araştırma, ChatGPT’nin artık kullanıcıların favorisi olmadığını ortaya koydu. İşte Google’dan DeepSeek’e, gerçek kullanıcı deneyimine göre ChatGPT’yi geçen 7 sohbet botu

OpenAI yapay zekâ sohbet botlarını icat eden şirket olmayabilir, ancak ChatGPT’nin bu teknolojiyi popülerleştirdiği tartışılmaz.

Kasım 2022’de ChatGPT-3.5’in yayımlanması, generatif yapay zekânın ana akıma giriş yaptığı an olarak kabul ediliyor.

Bir anda hepimiz, insan benzeri diyalog kurabilen genel amaçlı bir büyük dil modelini (LLM) ücretsiz bir şekilde kullanmaya başladık ve aklımıza gelen her tür soruyu sorabildik.

ChatGPT birkaç ay içinde 100 milyon aylık kullanıcıyı aştı ve o dönem için tarihin en hızlı büyüyen yazılım ürünü oldu.

Ancak OpenAI monopoliği uzun sürmedi.

Altı ay içinde Google Bard’ı (daha sonra Gemini adını aldı) hızlandırılmış biçimde piyasaya sürdü, Anthropic Claude’u duyurdu ve Meta LLaMA’yı yayınladı.

ChatGPT pek çok kişi için yapay zekâ ile kurulan ilk gerçek etkileşimdi.

Ancak bir İngiliz şirketi olan Prolific’in yaptığı bir araştırmada ChatGPT ancak sekizinci olarak herkesi şaşırttı.

ChatGPT; iki Gemini modeli, iki DeepSeek sürümü, iki Grok ve Fransız Mistral Magistral tarafından geçildi.

ChatGPT bağımsız sıralamalarda genelde daha iyi sonuçlar alır.

Prolific’e göre bunun sebebi, önceki testlerde insanların gerçekten önem verdiği şeylerin ölçülmemesiydi.

Şirket bu nedenle “Humaine” adını verdiği kendi değerlendirme metodolojisini geliştirdi.

Burada insanların bir sohbet botunda neye değer verdiği ölçüldü.

Araştırmaya göre beklentilerimiz oldukça net: Ne söylediğimizi anlaması Konu değiştiğinde bocalamaması Net yanıtlar sunması Gerçeğe bağlı kalması Humaine araştırmasının sonuçları, Prolific’in Hugging Face sayfasında açıkça görülebiliyor.

Bu makaleyi hazırladığımız sırada en iyi on yapay zekâ modeli şöyle listelenmişti: Gemini 2.5 Pro (Google) DeepSeek v3 (DeepSeek) Magistral Medium (Mistral AI) Grok 4 (xAI) Grok 3 (xAI) Gemini 2.5 Flash (Google) DeepSeek R1 (DeepSeek) ChatGPT-4.1 (OpenAI) Gemma (Google) Gemini 2.0 Flash (Google) Katılımcılar, iki anonim modeli karşılaştırarak puanlama yaptı.

Değerlendirme dört ana başlık üzerinden yapıldı: 1.

Temel görev performansı & akıl yürütme: Modelin soruları ne kadar iyi yanıtladığı ve beklentiyi anlayıp anlamadığı ölçüldü.2.

Etkileşim akıcılığı & uyarlanabilirlik: Çok turlu sohbetlerde ne kadar tutarlı kaldığına bakıldı.

Eski chatbotların en büyük sorunlarından biri kısa süre önce konuşulanları bile unutmasıydı.

Yeni nesil sistemlerde bu çok daha iyi.3.

İletişim tarzı & sunum: Yanıtların açıklığı, akıcılığı ve “kişilik” hissi incelendi.

Bazı modeller, özellikle ChatGPT gereğinden fazla uyumlu olmakla eleştiriliyor.

Ancak kimse robota benzeyen cevaplar duymak istemiyor.4.

Güven, etik & güvenlik: Her zaman tartışmalı olan güvenlik tarafı burada puanlandı.

Yanıtların şeffaflığı, güven verip vermediği ve etik dışı veya tehlikeli içerik üretip üretmediği değerlendirildi.ChatGPT’nin Gemini, DeepSeek, Mistral ve Grok gibi rakiplerinin gerisinde kalması ilk bakışta şaşırtıcı.

Dünyanın en çok kullanılan sohbet botu hâlâ ChatGPT.

Haftalık aktif kullanıcı sayısı 800 milyon civarında.

Global chatbot kullanımının %48’i ChatGPT’den geliyor.

Yani ChatGPT tek başına diğer tüm rakiplerinin toplamına yakın trafik çekiyor.

DeepSeek %4, Gemini ve Grok ise %2’nin altında.

Ayrıca Humaine araştırmasında OpenAI aslında aşırı temsil ediliyor.

Değerlendirilen 28 modelin dokuzu OpenAI’a ait (omni ve mini sürümleri dahil).

Diğer bazı akademik çalışmalarda da ChatGPT üstün geliyor.

Örneğin 2024’te İtalya’daki sağlık bilimleri üniversite giriş sınavını ChatGPT-4, Microsoft Copilot ve Google Gemini’ye çözdürdüklerinde en başarılı model ChatGPT olmuştu. 2023’te ise ChatGPT’nin baro sınavını geçebildiği görülmüştü.

Kamu tarayıcı arenası olan LMArena sıralamasında ChatGPT şu anda dördüncü sırada (Gemini 2.5 Pro, Claude Sonnet ve Claude Opus’un ardından).

Ancak Prolific’e göre bu sonuçlar tüm tabloyu göstermiyor.

Humaine’in dayandığı “Leaderboard Illusion” makalesi, LMArena sonuçlarının büyük teknoloji şirketlerinin manipülasyonlarına açık olabileceğini ileri sürüyor.

Prolific de tam olarak bunu aşmak istediklerini söylüyor.LMArena sonuçları, teknoloji firmalarının sistemi “hileli” şekilde optimize etmesi veya katılım yanlılığı nedeniyle bozulabiliyor.

Humaine bunu engellemek için tasarlandı.

Çalışma ilk etapta 20.000 katılımcıyla başladı, bugün 25.000’e yakın kullanıcının verisine sahip.

Testler tamamen anonim iki modelin karşılaştırıldığı çok turlu sohbetler üzerinden yapıldı.

Katılımcılar ilgi duydukları konularda modellerle sohbet ederek hangisinin daha iyi olduğunu daha sağlıklı değerlendirdi.

Başarı puanı şöyle hesaplandı: Kazanan modele 1 puan Berabere kalanlara 0,5 puan Toplam 28 model olduğu düşünülürse maksimum puan 27.

Ortalama ise 13,5 civarında.

Gemini 2.5 Pro’nun mevcut puanı 18.75, yani testlerin büyük bölümünü kazandığı net.

Her model için 1.400–2.300 arası karşılaştırma yapıldı, bu da sonuçların güvenilir olduğunu gösteriyor.

Katılımcılar İngiltere ve ABD’den farklı yaş grupları, ırklar ve siyasi görüşlerden seçildi.

En büyük sonuç farklılığının yaş grupları arasında olduğu görüldü.

Ancak bunlar sıralamayı kökten değiştirecek kadar büyük farklar değil.Kullanıcı geri bildirimlerine göre en iyi yapay zekâ sohbet botu Google Gemini 2.5 Pro.

Model her kategoride güçlü sonuçlar aldı.

Google’ın araştırmaya katılan dört modeli de ilk 10’a girdi: altıncı, dokuzuncu ve onuncu sırayı da Google aldı.

Gemini 2.5; Google’ın “düşünebilen model” olarak konumlandırdığı yeni nesil akıl yürütme yapay zekâsı.

Mart 2025’te duyuruldu, Pro sürümü ise Haziran’da kullanıma sunuldu.

Sadece Humaine değil; LMArena’da da şu anda ilk sırada yer alıyor.

AI şirketi Vellum’un uyarlayıcı akıl yürütme testinde de rakiplerini geçti.

Ancak daha teknik sınavlar olan lise matematik ve “Humanity’s Last Exam” gibi testlerde ChatGPT daha yüksek skor alıyor.

Humaine’in gösterdiği şey şu: Gemini doğru cevaplardan fazlasını sunuyor ve tavrı, açıklığı ve adaptasyonu kullanıcıyla daha iyi bağ kuruyor.Araştırmada iki DeepSeek modeli yer aldı: DeepSeek v3 ikinci, DeepSeek R1 ise yedinci oldu.

Ocak 2025’te DeepSeek büyük ses getirmişti.

App Store ve Google Play’de en çok indirilen ücretsiz uygulama olmuştu.

Üstelik üretim maliyeti rakiplerine göre çok daha düşüktü.

Şubat 2025’te trafik zirve yaptı; o tarihten sonra düşüş eğilimine girdiyse de Humaine sonuçları hâlâ güçlü bir performans sergilediğini gösteriyor.

DeepSeek v3; özellikle İletişim Tarzı & Sunum kategorisinde birinci oldu.

Yaşça büyük kullanıcılarla daha iyi performans gösterdiği belirtiliyor.Top 10’daki diğer şirketlere göre daha az bilinen Fransız Mistral AI’ın üçüncü sırayı alması büyük başarı.

Testte iki modelle yer aldı: Magistral Medium (3. sırada) NeMo (24. sırada) Magistral Medium Haziran 2025’te yayınlanan oldukça yeni bir model.

NeMo’dan bir yıl sonra geldi ve aradaki kalite farkı açıkça görülüyor.

Mistral AI; Google DeepMind ve Meta AI eski çalışanlarının kurduğu Paris merkezli bir girişim. 2025’in başlarında Fransa Cumhurbaşkanı Macron’un “Le Chat’i indirin” çağrısıyla ülke gündemine oturmuştu.

Araştırmada başarı gösteren model, Mistral’ın “sınır seviyesi multimodal akıl yürütme modeli” olarak tanımladığı Magistral Medium.

Adaptasyon ve iletişim stilinde güçlü olsa da Güven, Etik & Güvenlik kategorisinde yalnızca 12. olabilmesi şaşırtıcı.

Çünkü Mistral, genel olarak en az veri toplayan platformlardan biri olarak biliniyor.xAI’ın iki modeli de ilk beşe girdi.

Grok 4 dördüncü, Grok 3 ise beşinci oldu.

Bu özellikle şaşırtıcı çünkü Grok, 2024–2025 boyunca tartışmalı yanıtlarıyla sık sık gündem oldu.

Ancak Humaine’de özellikle Güven, Etik & Güvenlik kategorisinde yüksek puan almış.

Bu da sorunlu davranışların yeni sürümlerde azaltıldığına işaret ediyor.

Grok’un “fun mode” olarak bilinen, küfürlü ve politik açıdan uygunsuz yanıtlar veren modu Aralık 2024 sonunda kaldırılmıştı.

Ayrıca artık yanıt üretirken Elon Musk’ın görüşlerini araştırdığına dair davranışlar da görülmüyor.

Son dönemde Grok’un büyümesi olağanüstü.

Ağustos 2024’te 51.000 olan ziyaret sayısı, Temmuz 2025’te 687 milyona ulaştı.

Yani yıllık bazda %1.000.000+ büyüme.

Kullanıcı etkileşimi de oldukça yüksek; ortalama oturum süreleri Claude dışında tüm modelleri aşıyor.

Humaine’de Grok 4 genel olarak daha iyi performans gösterse de bazı kategorilerde ve bazı demografilerde Grok 3 daha önde.

Örneğin etik kategorisinde Afrika kökenli Amerikalı katılımcılar Grok 3’ü birinci sıraya koymuş.

Genel kullanıcı deneyimi açısından bakıldığında Grok, Humaine’de ChatGPT’yi açık farkla geride bıraktı.

Yine de OpenAI’nin küçük bir tesellisi var: Bu yılın başında yapılan satranç turnuvasında ChatGPT, Grok’u yenmişti.

İlgili Sitenin Haberleri