"GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models" başlıklı çalışmaya göre, gelişmiş büyük dil modelleri (LLM'ler) bile ilkokul seviyesindeki matematik problemlerini çözmekte zorluk çekiyor.
Araştırmanın Detayları
Araştırmada, LLM'lerin matematiksel yeterliliklerini test etmek amacıyla 8.000 ilkokul seviyesi matematik sorusundan oluşan GSM8K veri seti kullanıldı. Ancak, problemlerin ifade biçimleri değiştirilerek oluşturulan GSM-Sembolik testinde, yapay zekanın performansında ciddi bir düşüş gözlemlendi.
İlk test setinde yapay zekanın performansı %0,3 ile %9,2 oranında düşerken, daha karmaşık olan GSM-Sembolik test setinde bu düşüş %17,5 ile %65,7 arasında değişti.
Bu sonuçlar, büyük dil modellerinin matematiksel muhakeme yeteneklerinde sınırlamalar olduğunu gözler önüne serdi. Yapay zekanın, karmaşık formülasyonlarla karşılaştığında daha az başarılı olduğu anlaşıldı.