Apple tarafından yapılan bir araştırma, OpenAI, Google ve Meta gibi devlerin kullandığı Büyük Dil Modelleri (LLM)'nin düşünüldüğü kadar gelişmiş olmadığını gösterdi. LLM'ler, mantıksal düşünme yetenekleriyle öne çıkarılsa da, araştırmalar bu yeteneklerinin sadece desen tanıma olduğunu ve gerçek anlamda bir mantıksal düşünme olmadığını ortaya koyuyor.
Yapay Zekâ Modellerinde Mantıksal Düşünce Testi
LLM'ler genellikle mantıksal düşünme yeteneklerini test etmek için GSM8K gibi popüler bir test kullanır. Ancak, bu testin yaygın kullanımı nedeniyle, modellerin bu soruların yanıtlarını zaten öğrenmiş olma riski bulunuyor. Apple araştırmacıları, bu durumu incelemek için GSM-Symbolic adlı yeni bir test geliştirdi. Bu testte, mantıksal sorunlar aynı kalmakla birlikte, isimler, rakamlar ve karmaşıklık gibi değişkenler değiştirilerek modelin gerçekten mantıksal düşünme yeteneğine sahip olup olmadığı incelendi.
Sonuçlar, tüm modellerde değişkenler değiştiğinde performansın önemli ölçüde düştüğünü gösterdi. Araştırmada, OpenAI'nın o1 modeli en iyi performansı gösterse de, yine de performansta önemli bir düşüş gözlemlendi.
Desen Tanıma mı, Gerçek Mantık mı?
Araştırmada en çarpıcı bulgulardan biri, LLM'lerin sorulara fazladan bilgi eklendiğinde başarısız olmasıydı. Örneğin, "Oliver cuma günü 44 kivi toplar. Cumartesi günü 58 kivi toplar. Pazar günü, cuma gününün iki katı kadar kivi toplar, ancak beşi ortalamadan daha küçüktür. Oliver’ın kaç kivisi var?" gibi bir soruda, modellerin anlamsız bilgiyi işlemden çıkarmakta zorlandığı ve bu nedenle sonuçların ciddi şekilde bozulduğu görüldü.
Sonuçlar ve Rakipler Arasındaki İlişki
Apple araştırmacıları, LLM'lerin matematiksel kavramları tam olarak anlayamadıklarını ve gereksiz bilgileri ayırt etmekte zorlandıklarını vurguladı. Ancak araştırmayı yapanların Apple çalışanı olduğunu ve Apple’ın Google, Meta ve OpenAI gibi rakipleriyle rekabet halinde olduğunu da belirtmek gerekiyor. Yine de bu bulgular, LLM'lerin mantıksal düşünme yetenekleri konusunda dikkatli olunması gerektiğini gösteriyor.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...