2020 Yılı İçin Dönüştürücü Yapılarındaki Yenilikler

2020 Yılı İçin Dönüştürücü Yapılarındaki Yenilikler

Bu yazıda doğal dil işleme teknolojilerindeki son gelişmeleri ve özellikle öne çıkan üç modeli ele alacağız.

Özetle:

  • Reformer nedir? Uygulama alanları nelerdir?
  • Longformer nedir? Başarı oranı nedir?
  • ELECTRA nasıl çalışır?

 Mariya Yao tarafından Topbots'da yayınlanan ve doğal dil işleme modelleriyle ilgili gelişmeler hakkında yazıyı okurlarımız için türkçeye çevirdik.

2020 Yılı İçin Dönüştürücü Yapılarındaki Yenilikler


Doğal dil işleme (NLP) teknolojilerinde bilgi transferinin ve önceden eğitilmiş modellerin kullanılması dil anlama ve üretme görevlerini yeni sınırlara doğru itti. Bilgi transferi ve dönüştürücü uygulamalarının NLP görevlerine uygulanması son araştırmaların ana konu maddesine dönüştü.

Önde gelen önceden eğitilmiş modeller pek çok farklı NLP görevlerinde dikkate değer performans artışına yol açtı. Bu gelişmelerin ardından duygu analizi, sohbet robotları ve metin özetleme gibi uygulamalar yaygınlaşmaya başladı. Fakat iyi performans çoğu zaman muazzam işlem gücü gerektiriyor ve bu da pek çok araştırmacı için erişilebilir bir kaynak değil.

Bu sorunu çözmek için farklı araştırma grupları önceden eğitilmiş dil modellerine kesinlikten ödün vermeden işlem verimliliği ve parametre verimliliği katmak için çalışmalara başladı. Bu sene yayınlanan yeni yaklaşımlar arasında en az üç yöntem yapay zeka topluluğu tarafından çok beğenildi. NLP araştırmalarındaki gelişmelerden haberdar olmanız için bu araştırma belgelerini kolay okunacak bir şekilde özetledik.


2020 Yılının En Gelişmiş Dönüştürücüleri


1. REFORMER: DÖNÜŞTÜRÜCÜ, NIKITA KITAEV, ŁUKASZ KAISER, ANSELM LEVSKAYA


Orjinal Özet

Büyük dönüştürücü modelleri pek çok görevde en gelişmiş sonuçlar ortaya koyuyorlar, fakat bu modellerin eğitilmesi, özellikle uzun diziler için oldukça maliyetlidir. Dönüştürücülerin verimliliğini artırmak için iki teknik öneriyoruz. Birincisi biz, nokta çarpımını bölgesel olarak duyarlı hash ile değiştireceğiz ve zorluk düzeyini O(L2) seviyesinden O(L log L) seviyesine doğru değiştireceğiz. Burada L dizi uzunluğunu belirtiyor. Ayrıca biz standard kalıntı yerine iki taraflı kalıntı katmanı kullanacağız ve böylücü aktivasyonları N kez değil, sadece eğitim sürecinde kullanacağız. Burada N katman sayısıdır. Sonuç model, Reformer dönüştürücü modelleriyle eşit performans gösterse de, bellek açısından çok daha verimli olacak ve uzun dizilerde daha hızlı performans gösterecek.


Bizim Özetimiz

Öncü dönüştürücü modelleri o kadar büyük ki, sadece büyük labaratuvarlarda eğitilebiliyorlar. Bu sorunu çözmek için Google Research takımı dönüştürücü verimliliğini geliştirecek olan bazı teknikler öneriyor. Özellikle (1) aktivasyonları her katmanda tutmak yerine sadece bir kez tutmayı sağlayan iki taraflı katmanları ve (2) maliyetli işlem gücü gereksinimini azaltmak için nokta çarpımı yerine bölgesel olarak duyarlı hash kullanmak öneriliyor. Yürütülen bazı metin görevleri öne sürülen Reformer modelinin tam dönüştürücülerle aynı performansa sahip olduğunu, fakat daha hızlı çalışarak, bellek açısından daha verimli olduğunu gösteriyor.

2020 Yılı İçin Dönüştürücü Yapılarındaki Yenilikler




Bu Tezin Öz Düşüncesi Nedir?

  • Öncü dönüştürücü modelleri yüksek miktarda parametre ve bazı diğer etkenler nedeniyle muazzam işlem kaynakları gerektiriyorlar.

    • Her katmana ait aktivasyonun geriye yayılım için tutulması gerekiyor

    • Ortalama ileri besleme katmanı bellek kullanımının büyük bir kısmından sorumlu

    • L uzunluğundaki dizi üzerindeki dikkat karmaşıklığı O(L2) seviyesindedir

  • Bu sorunları çözmek için araştırma takımı aşağıdaki özellikleriyle birlikte Reformer modelini öneriyor:

    • İki taraflı katmanlar kullanarak aktivasyonların tek kopyasının tutulması

    • İleri besleme katmanlarındaki aktivasyonların bölünmesi ve onların parçalar halinde işlenmesi

    • Yerel olarak duyarlı hash bazlı işlem dikkat hesaplama


Yapay zeka topluluğu ne düşünüyor?

  • Tez öncü derin öğrenme konferansı ICLR 2020'de sunulmak üzere seçildi


Olası Uygulama Alanları nelerdir?

  • Metin üretimi

  • Görsel içerik üretimi

  • Müzik üretimi


Kod Uygulamasını Nereden Bulabilirsiniz?

  • Google tarafından yayınlanan resmi kod uygulaması GitHub üzerinde bulunuyor.

  • Reformer'in PyTorch uygulaması da GitHub üzerinde bulunuyor.


2. LONGFORMER: UZUN BELGE DÖNÜŞTÜRÜCÜ, IZ BELTAGY, MATTHEW E. PETERS, ARMAN COHAN


Orjinal Özet

Dönüştürücü bazlı modeller, dizi uzunluğu ile ikinci dereceden ölçeklenen kendi kendine dikkat operasyonları nedeniyle uzun dizileri işleyemez. Bu kısıtlamanın üstesinden gelmek için, binlerce token veya daha uzun belgeleri işlemek için dizi uzunluğuyla lineer olarak ölçeklenen dikkat mekanizmasına sahip Longformer'i tanıtıyoruz.

Longformer'ın dikkat mekanizması, standart öz dikkatin yerini alan bir değişikliktir ve yerel pencereli bir dikkat mekanizması ile görev odaklı küresel dikkat mekanizmasını birleştirmektedir.

Uzun dizili dönüştürücülerle ön çalışmanın ardından Longformer'in karakter seviyesinde dil modellemesini ve gelişmiş sonuçlarını text8 ve enwik8 üzerinde değerlendirdik. Önceden eğitilmiş Longformer RoBERTa'yı uzun belge görevlerinde ve WikiHop ve TriviaQA gibi gelişmiş sonuç dizilerinde sürekli olarak geride bıraktı.


Bizim Özetimiz

Kendi kendine dikkat dönüştürücü yapısının başarısının arkasındaki en önemli etkenlerden birisidir. Fakat aynı zamanda dönştürücü bazlı modelleri uzun belgelere uygulamayı zorlaştırmaktadır. Var olan teknikler genellikle uzun girdiyi pek çok küçük parçaya ayırarak ardından karmaşık yapıyı bu parçalardaki bilgiyi bir araya getirmek için kullanır. Allen Yapay Zeka Enstitüsü tarafından yapılan araştırma bu sorun için daha şık bir çözüm getiriyor. 

Önerilen Longformer modeli yerel pencereli dikkat ile görev odaklı küresel dikkati birleştiren bir dikkat örüntüsü kullanıyor. Dikkat mekanizması dizi uzunluğuna lineer olarak ölçekleniyor ve binlerce tokenden oluşan belgeyi işleyebiliyor. Deneyler Longformer'in karakter seviyesinde dil modelleme görevlerinde en gelişmiş sonuçlara ulaştığını gösteriyor. Ayrıca önceden eğitildiği zaman uzun belge görevlerinde sürekli olarak RoBERTa'yı geride bırakıyor.

2020 Yılı İçin Dönüştürücü Yapılarındaki Yenilikler



Bu Tezin Öz Düşüncesi Nedir?

  • Dönüştürücü bazlı modeller, dizi uzunluğu ile ikinci dereceden ölçeklenen kendi kendine dikkat operasyonları nedeniyle uzun dizileri işleyemez.

  • Bu sorunu çözmek için araştırmacılar dönüştürücü yapısının geliştirilmiş versiyonu olan Longformeri sunuyorlar. Longformer aşağıdaki özelliklere sahip:

    • Bellek kullanımını dizi uzunluğuyla karesel olarak değil, lineer olarak ölçeklendiriyor

    • Yeni bir dikkat mekanizması oluşturuyor


Başarı Oranı Nedir?

  • Longformer karakter seviyesinde dil modelleme görevlerinde en gelişmiş sonuçlara ulaşıyor:

    • text8 için 1.10 BPC

    • enwik8 için 1.00 BPC

  • Önceden eğitim ile birlikte Longformer altı görevde RoBERTa'dan daha iyi performans gösterdi:

    • WikiHop'ta 75.0'a karşı 72.4 kesinlik;

    • TriviaQA'da 75,2'ye karşı 74,2 F1 puanı;

    • HotpotQA'da 64,4'e karşı 63,5 ortak F1 puanı;

    • OntoNotes özdeşlik çözümleme görevinde ortalama 78.6 ve 78.4 F1 puanı;

    • IMDB sınıflandırması görevinde 95.7'ye karşı 95.3 kesinlik;

    • Hyperpartisan sınıflandırması görevinde 94.0 ile 87.4 arasında F1 puanı.

  • Özellikle uzun belgelerde dikkate değer performans artışı görüldü.


Bir Sonraki Araştırma Alanları Nelerdir?

  • Diğer dikkat örüntülerini keşfederek, girdi ile daha iyi ve verimli adaptasyon sağlamak.

  • Longformer'i özetleme gibi diğer uzun belge görevlerinde kullanmak


Olası Uygulama Alanları Nelerdir?

  • Belge sınıflandırma

  • Soru cevap

  • Özdeşlik çözümlemesi

  • Özetleme

  • Semantik arama


Uygulama Kodunu Nereden Bulabilirsiniz?

  • Longformer'ın kod uygulaması GitHub'da açık kaynaklı olarak paylaşılmıştır.


3. ELECTRA: ÜRETİCİ YERİNE AYRIŞTIRICI OLARAK ÖNCEDEN METİN EĞİTİMİ KODLAYICISI, KEVIN CLARK, MINH-THANG LUONG, QUOC V. LE, CHRISTOPHER D. MANNING


Orjinal Özet

BERT gibi Maskelenmiş Dil Modelleme (MLM) ön eğitim yöntemleri bazı tokenleri değiştirerek girdiyi bozarak, ardından orjinal tokenleri yeniden oluşturmak için model eğitirler. NLP görevlerine aktarıldıkları zaman iyi sonuçlar verseler de genel olarak muazzam miktarda işlem gücü gerektirirler. Alternatif olarak token belirleme isimli daha verimli ön eğitim görevi sunuyoruz. Girdiyi maskelemek yerine bizim yaklaşımımız bazı tokenleri küçük üretici ağından alınan olası alternatiflerle değiştiriyor. Ardından model eğitmek yerine, değiştirilen tokenlerin orjinal belirteçlerini tahmin ediyor ve eğittiğimiz ayrıştırıcı modelle bozulmuş girdideki her bir tokenin üretici örneği ile değiştirilip değiştirilmediğini kontrol ediyoruz.

Deneyler sonucunda yeni ön eğitim görevinin MLM'den daha verimli olduğunu görüyoruz. 

Çünkü görev maskelenmiş küçük bir grup yerine tüm girdi tokenlerini belirliyor. Sonuç olarak bizim yaklaşımımızla eğitilmiş bağlam temsilleri aynı boyut, veri ve işlem ile BERT'ten daha iyi sonuçlar veriyor. Kazanç özellikle küçük modellerde görünüyor. Yaklaşımımız, dörtte bir daha az işlem gücü kullanmasına rağmen RoBERTa ve XLNet ile karşılaştırılabilir bir performans sergiliyor.


Bizim Özetimiz

BERT ve XLNet gibi modellerle ön eğitimli görevler küçük girdi parçalarını maskeliyor ve orjinal girdiği toparlamak için ağ geliştiriyor. Bu iyi çalışsa da veri açısından verimli bir yöntem değil ve sadece küçük miktarda token (genellikle yüzde 15) kullanıyor. Alternatif olarak Stanford Üniversitesi ve Google Brain araştırmacıları değiştirilen token belirteci isimli ön eğitim görevi öneriyorlar. Maskeleme yerine bazı tokenleri küçük bir dil modeli tarafından üretilen olası alternatiflerle değiştirmeyi öneriyorlar Ardından önceden eğitilmiş ayrıştırıcı ole her bir tokenin orjinal olup olmadığını kontrol ediyorlar. Sonuç olarak model küçük bir miktar maskelenmiş token yerine tüm girdi tokenlerini kullanmış oluyor. Bu da işlemi daha verimli hale getiriyor. Deneyler bu yaklaşımın NLP görevlerinde oldukça hızlı ve verimli sonuçlar verdiğini gösteriyor.

2020 Yılı İçin Dönüştürücü Yapılarındaki Yenilikler



Bu Tezin Öz Fikri Nedir?

  • Maskelenmiş dil modellemesine dayanan ön eğitim yöntemleri, eğitim için tokenlerin sadece küçük bir kısmını kullandıkları için hesaplama açısından verimsizdir.

  • Araştırmacılar, değiştirilmiş belirteç algılama adı verilen yeni bir ön eğitim görevi öneriyorlar:

    • Bazı tokenler küçük üretici ağ tarafından sunulan örneklerle değiştiriliyor

    • Ayrıştırıcı model önceden eğitiliyor ve orjinal ile değiştirilmiş tokenleri ayrıştırıyor

  • Yaklaşım ELECTRA olarak adlandırılıyor

    • Sadece küçük bir maskelenmiş token grubu yerine tüm girdi tokenlerini ele alıyor



Yapay zeka topluluğu ne düşünüyor?

  • Tez öncü derin öğrenme konferansı ICLR 2020'de sunulmak üzere seçildi


Olası Uygulama Alanları Nelerdir?

  • İşlem verimliliği açısından ELECTRA yaklaşımı önceden eğitilmiş metin kodlayıcılarının daha erişilebilir olmasını sağlayacaktır.


Uygulama Kodunu Nereden Bulabilirsiniz?

  • Orijinal TensorFlow uygulaması GitHub'da paylaşıldı.


Kaynak: https://www.topbots.com/key-updates-to-transformer-architecture-2020/ 

Etiketler:

tez yapay zeka teknoloji

Size ne düşünüyorsunuz

Yorum

Piyasanın korku & açgözlülük endeksi
Korku (Ko)
Açgözlülük (Aç)
  • 3 gün
  • Dün
  • Bugün
Detaylar İçin Tıklayın powered by : alternative.me

bfmedia/data

BTC $ 9087,1
XRP $ 0,1765
ETC $ 5,6598
ETH $ 226,12
ADA $ 0,0986
LTC $ 41,326
USDT $ 1,0001
TRX $ 0,0167
powered by : bittrex.com
Piyasanın korku & açgözlülük endeksi
Korku (Ko)
Açgözlülük (Aç)
  • 3 gün
  • Dün
  • Bugün
Detaylar İçin Tıklayın powered by : alternative.me

bfmedia/data

BTC $ 9087,1
XRP $ 0,1765
ETC $ 5,6598
ETH $ 226,12
ADA $ 0,0986
LTC $ 41,326
USDT $ 1,0001
TRX $ 0,0167
powered by : bittrex.com