Haber Detayı
Avukatlık sınavını bile geçen yapay zeka, aslında o kadar da zeki değil mi?
Oxford'dan gelen yeni araştırma, dev şirketlerin güvendiği testlerin "muhakeme" yerine "ezber" ölçtüğünü gösteriyor. Birinci sınıf matematik probleminde doğru cevap veren AI, aslında mantık yürütme konusunda usta olmayabilir.
Yapay zeka modellerinin avukatlık baro sınavlarını geçtiğine veya doktora derecesine eşdeğer zeka sergilediğine dair çıkan haberlerin güvenilirliği sorgulanmaya başlandı.
Oxford İnternet Enstitüsü’nden çıkan yeni bir araştırma, AI performansını ölçmek için kullanılan yaygın test araçlarının büyük çoğunluğunun güvenilmez ve yanıltıcı olabileceğini gösteriyor.Araştırmacılar, sektör ve akademi tarafından kullanılan, yapay zakanın mantık yürütme yeteneklerinden kodlama görevlerindeki performansına kadar her şeyi test eden tam 445 farklı karşılaştırma testini derinlemesine inceledi.
Uzmanlar, bu testlerin yaklaşımlarını değerlendirdi ve sunulan sonuçların göründüğü kadar kesin olmayabileceğine dair ciddi işaretler buldu.Bu güvensizliğin ana nedenleri arasında, bir testin ölçmeyi amaçladığı becerinin bulanık tanımlanması ve modelleri karşılaştırmaya yarayan istatistiksel yöntemlerin şeffaf bir şekilde açıklanmaması yer alıyor.
Araştırmacıların tespit ettiği en kritik sorun ise şu: "Birçok karşılaştırma testi, hedeflenen yetenekleri geçerli bir şekilde ölçemiyor." Yani, bir test belirli bir beceriyi ölçtüğünü iddia etse bile, aslında modelin gerçek kabiliyetini tam olarak yakalayan bir yöntem kullanmıyor.Muhakeme mi, ezber mi?
GSM8K testi örneğiAraştırmacılar, bu durumu çarpıcı bir örnekle açıklıyor: Grade School Math 8K (GSM8K) karşılaştırma testi.
Bu test, büyük dil modellerini ilkokul seviyesindeki matematik problemleriyle "çok adımlı matematiksel muhakemeye" zorlamak için tasarlandı.Ancak araştırmacılar, testin bir modelin gerçekten mantık yürütüp yürütmediği konusunda kesin bir bilgi vermediğini savunuyor.
Çalışmanın baş yazarı Adam Mahdi, durumu şöyle örneklendiriyor: "Birinci sınıftaki bir öğrenciye iki artı beşin kaç olduğunu sorduğunuzda 'yedi' cevabını alırsınız.
Bu doğru bir cevaptır.
Ancak sadece bu toplama işlemini yapabildiği için, o öğrencinin matematiksel muhakemede ustalaştığı sonucuna varabilir miyiz?
Muhtemelen hayır."Çalışma, GSM8K skorlarının zaman içinde yükseldiğini gösteriyor.
Bu artış ilk bakışta modellerin gelişimini gösterse de, aynı zamanda veri kirlenmesine de işaret edebiliyor.
Kirlenme, test sorularının modelin eğitim veri setine sızmasıyla veya modelin bir çözüme mantık yürüterek varmak yerine cevapları ezberlemeye başlamasıyla gerçekleşiyor.
Araştırmacılar, aynı performansı ölçmek için yeni sorular kullandıklarında, modellerin başarılarında önemli düşüşler yaşadığını fark etti.Bu çalışma, AI testleri üzerine yapılan en kapsamlı incelemelerden biri olsa da, ölçüm sisteminin iddia edildiği kadar kusursuz olmadığını gösteren ilk uyarı değil.
Geçen yıl Stanford'daki araştırmacılar da, popüler AI testlerini analiz ederek "aralarında geliştiriciler ile politika yapıcıların güvendiği testler de dahil olmak üzere büyük kalite farklılıkları" bulmuştu.
Bu araştırmalar, performans ölçümlerinin iyi niyetli tasarlanmış olsa bile, şirketler için kolayca birer pazarlama aracına dönüşebileceğini bir kez daha hatırlatıyor.