Artificial Intelligence

DeepMind, yeni dil modelinin kendi boyutunun 25 katı olan diğerlerini yenebileceğini söylüyor

RETRO (“Geri Alma-Geliştirilmiş Transformatör” için) olarak adlandırılan AI, sinir ağlarının performansını kendi boyutunun 25 katıyla eşleştirerek çok büyük modelleri eğitmek için gereken süreyi ve maliyeti azaltır. Araştırmacılar ayrıca, veri tabanının yapay zekanın öğrendiklerini analiz etmeyi kolaylaştırdığını ve bunun da önyargı ve toksik dili filtrelemeye yardımcı olabileceğini iddia ediyor.

Firmanın büyük dil modellerinde araştırmasına liderlik eden DeepMind’den Jack Rae, “Her şeyi ezberlemek yerine anında bakabilmek, insanlar için olduğu gibi çoğu zaman faydalı olabilir” diyor.

Dil modelleri, bir cümlede veya konuşmada hangi kelimelerin daha sonra geleceğini tahmin ederek metin üretir. Bir model ne kadar büyükse, eğitim sırasında öğrenebileceği dünya hakkında daha fazla bilgi, bu da tahminlerini daha iyi hale getirir. GPT-3’ün 175 milyar parametresi vardır—verileri depolayan ve model öğrendikçe ayarlanan bir sinir ağındaki değerler. Microsoft’un dil modeli Megatron, 530 milyar parametreye sahiptir. Ancak büyük modeller aynı zamanda eğitmek için büyük miktarda bilgi işlem gücü gerektirir ve bu da onları erişilemez hale getirir. en zengin kuruluşlar hariç hepsi.

RETRO ile DeepMind, AI’nın öğrendiği miktarı azaltmadan eğitim maliyetini düşürmeye çalıştı. Araştırmacılar modeli, çevrimiçi bir kod deposu olan GitHub’dan gelen çok sayıda haber makalesi, Wikipedia sayfası, kitap ve metin üzerinde eğitti. Veri seti İngilizce, İspanyolca, Almanca, Fransızca, Rusça, Çince, Swahili ve Urduca dahil olmak üzere 10 dilde metin içerir.

RETRO’nun sinir ağı yalnızca 7 milyar parametreye sahiptir. Ancak sistem, yaklaşık 2 trilyon metin pasajı içeren bir veritabanı ile bunu telafi ediyor. Hem veritabanı hem de sinir ağı aynı anda eğitilir.

RETRO metin oluşturduğunda, yazdığına benzer pasajları aramak ve karşılaştırmak için veritabanını kullanır, bu da tahminlerini daha doğru hale getirir. Sinir ağının belleğinin bir kısmını veritabanına dış kaynak sağlamak, RETRO’nun daha azıyla daha fazlasını yapmasını sağlar.

Fikir yeni değil, ancak ilk kez büyük bir dil modeli için bir arama sistemi geliştirildi ve bu yaklaşımdan elde edilen sonuçların ilk kez etrafındaki en iyi dil AI’larının performansına rakip olduğu gösterildi.

Daha büyük her zaman daha iyi değildir

RETRO, DeepMind tarafından bu hafta yayınlanan diğer iki çalışmadan yararlanıyor, biri modelin boyutunun performansını nasıl etkilediğine ve diğeri bu AI’ların neden olduğu potansiyel zararlara bakıyor.

Büyüklüğü incelemek için DeepMind, 280 milyar parametreli Gopher adlı büyük bir dil modeli oluşturdu. Test için kullandıkları 150’den fazla ortak dil zorluğunun %82’sinde son model modelleri geride bıraktı. Araştırmacılar daha sonra bunu RETRO ile karşılaştırdılar ve 7 milyar parametreli modelin Gopher’ın çoğu görevdeki performansıyla eşleştiğini buldular.

Etik çalışması, büyük dil modellerinde bulunan iyi bilinen sorunların kapsamlı bir araştırmasıdır. Bu modeller, eğitim aldıkları makale ve kitaplardan önyargılar, yanlış bilgiler ve nefret söylemi gibi zehirli diller alır. Sonuç olarak, bazen ne anlama geldiğini bilmeden eğitim metninde karşılaştıklarını akılsızca yansıtarak zararlı ifadeler tükürürler. Rae, “Verileri mükemmel bir şekilde taklit eden bir model bile önyargılı olacaktır” diyor.


Source link

Başa dön tuşu

Reklam Engelleyici Algılandı

Lütfen reklam engelleyiciyi devre dışı bırakarak bizi desteklemeyi düşünün