Şimdiye kadar en iyi NLP modeli? Google BERT 11 Dil Görevinde Yeni Standartlar Belirledi

Yeni Google AI makalesi BERT: Dil Anlayışına Yönelik Derin Yönlü Trafoların Ön Eğitimi, makine öğrenmesi topluluğundan övgüler alıyor. Google araştırmacıları, 11 doğal dil işleme görevi için sanatın durumunu yeniden tanımlayan, hatta zorlu soru cevaplama alanındaki insan performansını aşan, derinlemesine çift yönlü bir Transformer modeli sunmaktadır. Kağıttan bazı önemli noktalar:

  • NLP araştırmacıları, günümüzün geniş miktarda mevcut dil verilerini ve yeni eğitim öncesi yaklaşımları geliştirmek için olgunlaşan transfer öğrenme tekniklerini kullanıyor. Önce bir dil modelleme hedefi üzerine bir model mimarisi eğitiyorlar ve ardından denetimli bir aşağı akış görevi için ince ayar yapıyorlar. Aylien Araştırma Bilimcisi Sebastian Ruder, blogunda önceden eğitilmiş modellerin “NLP üzerinde önceden belirlenmiş ImageNet modellerinin bilgisayar vizyonu üzerindeki etkisiyle aynı etkide bulunabileceğini” söylüyor.
  • BERT modelinin mimarisi, iki yönlü bir Transformer enkoderidir. Bir Transformer kullanımı hiç şaşırtıcı değil - bu yeni bir eğilim çünkü Transformers'ın tekrarlayan sinir ağı mimarisine kıyasla uzun mesafeli bağımlılıkları yakalamadaki eğitim verimliliği ve üstün performansı. Bu arada çift yönlü kodlayıcı, BERT'yi OpenAI GPT'den (soldan sağa bir Transformer) ve ELMo'dan (bağımsız olarak eğitilmiş soldan sağa ve sağdan sola LSTM'nin bir birleşimi) ayıran bir öne çıkma özelliğidir.
  • BERT, 24 Transformer bloğu, her katmanda 1024 gizli ünite ve 340M parametreleri ile büyük bir modeldir.
  • Model, BooksCorpus (800 milyon kelime) ve İngilizce Vikipedi (2.5 milyar kelime) dahil, 3.3 milyar kelimelik bir korpus üzerinden 40 çağda önceden eğitilmiştir.
  • Model, eğitim için 16 TPU kapsülü üzerinde çalışıyor.
  • Eğitim öncesi süreçte, araştırmacılar, iki yönlü bir temsili eğitmek için girdi belirteçlerinin bir yüzdesini (yüzde 15) rastgele maskelemeyi içeren bir yaklaşım benimsemiştir. Bu metodu Maskeli Dil Modeli (MLM) olarak adlandırırlar.
  • Önceden eğitilmiş bir dil modeli, soru cevaplama ve doğal dil çıkarımı gibi dil görevleri için hayati olan cümleler arasındaki ilişkileri anlayamaz. Bu nedenle araştırmacılar, herhangi bir tek dilli korpustan önemsiz bir şekilde üretilebilecek bir ikili cümle tahmin görevini önceden eğitmişlerdir.
  • Farklı veri kümeleri için ince ayarlı model, GLUE kriterini yüzde 80,4'e (yüzde 7,6 mutlak iyileştirme), MultiNLI doğruluğunu yüzde 86,7'ye (yüzde 5,6 kesin iyileştirme), SQuAD v1.1 Test F1 ila 93,2'ye (1,5 mutlak iyileştirme) göre artırdı ve benzeri toplamda 11'den fazla dil görevi.

Makalenin ilk yazarı, doğal dil görevleri için derin öğrenme modelleri geliştirmede birincil araştırma ilgisi olan bir Google kıdemli araştırma bilimcisi olan Jacob Devlin'dir. Daha önce Microsoft Translate’in cümle temelli çeviriden sinir makine çevirisine (NMT) geçişini 2014’ten 2017’e Microsoft Research’de Temel Araştırma Bilimcisi olarak yönlendirdi.

Google Beyin Araştırma Bilimcisi Thang Luong coşkuyla tweetledi “NLP'nin yeni bir dönemi birkaç gün önce başladı: büyük eğitim öncesi modeller (Transformer 24 katmanları, 1024 dim, 16 kafa) + büyük hesaplama, ihtiyacınız olan tek şey.”

Çin AI başlangıcı Tricorn'un Baş Bilimcisi Baoxun Wang, Google gazetesini bu hafta Çin'in Suzhou kentindeki Yapay Zeka Endüstrisi İttifakı konferansında yaptığı açılış konuşmasında “bir kilometre taşı” olarak övdü. Rapor, Wang’in “Google’ın şiddetli estetik geleneği” olarak adlandırdığı ifadeyi temsil eden çok büyük miktarda veriden ve hesaplama ve iyi cilalanmış mühendislik çalışmalarından yararlanıyor.

Önceden eğitilmiş model ve kod önümüzdeki iki hafta içinde piyasaya sürülecek. Kağıt arXiv'de.

Güncelleme:

Google, makalenin Github ile ilgili kodunu ve verilerini açtı.

Gazeteci: Tony Peng | Editör: Michael Sarazen

Günlük AI haberleri için bizi Twitter'da @ Synced_Global'da takip edin

Hiçbir hikayeyi kaçırmak istemediğinizi biliyoruz. Haftalık AI güncellemelerini almak için popüler Synced Global AI Weekly'e abone olun.