Apple'ın 7 milyar parametreye sahip yeni dil modeli DCLM-7B, önceki en yüksek performanslı DCLM modeli MAP-Neo'yu kriterlerde %6.6 oranında geçmeyi başardı.
Apple, yapay zeka teknolojilerine odaklanan Apple Intelligence araştırma ekibi aracılığıyla, iki yeni küçük dil modeli yayınladı. Küçük dil modellerinin popüler olduğu bu dönemde Apple'ın da bu trende katılması dikkat çekti. Küçük olmasına rağmen yüksek performans gösteren bu dil modelleri, üretken yapay zeka modellerini eğitmek için kullanılıyor.
Apple'ın Makine Öğrenimi ekibi tarafından, açık kaynaklı DataComp for Language Models (DCLM) projesi kapsamında üretilen iki model, Llama 3 ve Gemma gibi önde gelen eğitim modelleriyle yarışıyor. Bazı kriterlerde bu daha küçük modellerle benzer performans gösteren Apple'ın dil modelleri, bazı ölçütlerde ise onları geride bırakıyor.
Harvard ve Stanford gibi üniversiteler ile Toyota gibi şirketlerin yer aldığı DataComp for Language Models projesinin, en etkili veri iyileştirme stratejilerine odaklandığını belirtmekte fayda var.
Apple'ın Yayınladığı Dil Modellerinin Kullanımı
Apple'ın yeni dil modelleri, standart bir framework sağlayarak ChatGPT ya da Claude gibi yapay zeka motorlarını eğitmek için kullanılıyor. Bu bağlamda modeller, bir mimari, parametreler ve veri kümelerinin filtrelenmesini içeriyor. Veri kümelerinin filtrelenmesiyle, yapay zeka motorlarının yararlanabileceği daha yüksek kaliteli veriler sağlanıyor.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...