Her İki Dünyanın En İyisi: Doğrusal Model Ağaçlar

Doğrusal model ağacı (LMT) en sevdiğim ML modellerinden biridir - ve iyi sebeplerden dolayı. Doğrusal model ağaçlar, daha iyi tahminler üreten ve her iki modelden daha iyi içgörülere yol açan karma bir model oluşturmak için doğrusal modelleri ve karar ağaçlarını birleştirir. Doğrusal model ağacı basitçe düğümlerinde doğrusal modelleri olan bir karar ağacıdır. Bu, karar ağacı algoritması ile öğrenilen düğümlü, parça parça lineer bir model olarak görülebilir. LMT'ler, regresyon problemleri (örneğin, popülasyon araçları yerine lineer regresyon modelleri ile) veya sınıflandırma problemleri (örneğin, popülasyon modları yerine lojistik regresyon ile) için kullanılabilir.

Yukarıdaki doğruluk ve yorumlanabilirlik eksenleri boyunca makine öğrenimi modellerinin sezgisel bir şemasıdır. Sağ üst kadran, hem yüksek performans hem de yüksek yorumlanabilirlik ile en iyisidir. Bu tablo, LMT'lerin hem yüksek oranda yorumlanabilir hem de yüksek performanslı olduğunu göstermektedir.

Her zamanki ticaret araçlarım Python, scikit-learn ve pandalardır. Ancak, scikit-learn LMT'nin bir uygulamasını içermiyor ve açık kaynaklı bir sürüm bulamadım, bu yüzden Convoy'da kullanmak için kendim uyguladım. Uygulama bu yazının altında bağlantılı. Gönderinin geri kalanında, LMT'yi yukarıda çerçeve çiziminde listelenen diğer modellerle karşılaştıracağız.

LMT - Diğerleri

Aşağıda açık kaynak kodlu auto-mpg veri seti ile LMT'leri göstereceğiz. Auto-mpg veri seti, 1970'lerden ve 1980'lerin başlarından itibaren 398 aracın yakıt tüketimini içerir. Araç ağırlığı, model yılı, beygir gücü, hızlanma, motor hacmi ve silindir sayısına bağlı olarak yakıt tüketimini (mpg) tahmin edeceğiz. Bu yazının dibine bağlı olan jüpyter notebook, bu veri ve model binasının tam olarak keşfedilmesini içeriyor. Sonuçlar burada özetlenecektir.

Yukarıdaki tablo, bu veri setinde mpg'yi tahmin etme görevindeki dört farklı algoritmanın performansını göstermektedir. Gradient Boostting Trees (GBT) 'in en iyi performansı vermesi şaşırtıcı değildir, çünkü bu algoritma genellikle en iyi tahmine dayalı performansı sağlar. Bununla birlikte, LMT de neredeyse aynı derecede iyi performans gösteriyor ve aşağıda göreceğimiz gibi başka yararları da var. Lineer regresyon ve tek bir karar ağacı diğer iki modele kıyasla düşük performans gösterir.

LMT ve GBT

GBT, MSE ile prediktif performansta harika bir iş çıkardı. Bir sonraki soru, araçların gaz kilometresini ne yönlendiriyor? GBT modelinde değişken önemde buna daldık ve aşağıdakileri elde ettik:

GBT’nin değişken öneme sahip özelliği, ağırlığın en önemli özellik olduğunu ve ardından da benzer şekilde beygir gücü, hızlanma, yer değiştirme ve model_year olduğunu söylüyor. Ne yazık ki, GBT bize sayısal büyüklüğü veya etkisinin işareti veya bu özelliklerin ilişkisi hakkında hiçbir şey söylemez.

LMT, toplam 3 yaprak düğümü için sadece 2 bölme üretir. İlk önce beygir gücünde = 78, beygir gücü>> 78 için beygir gücünde = 97'dir. Üç alt-popülasyona düşük güç, orta güç ve yüksek güç adını vereceğiz.

Ağırlıkları lineer model ağacından incelemek bize, yakıt verimliliğini neyin etkilediğini diğer modellerden elde ettiğimizden çok farklı bir anlayışla ortaya koyuyor. LMT'nin belirlediği farklı alt popülasyonlar arasında bazı ortak noktalar olsa da, bazı önemli farklılıklar da görüyoruz.

Özelliklerin düşük, orta ve yüksek güç grupları arasında çeşitlilik ve dağılım açısından farklı davrandığını not etmek önemlidir. Aşağıdaki grafiğe bakın ve sonra yukarıdaki grup başına özellik ithalatına göre dağılımlarını karşılaştırın. Farklı dağılımların karşılaştırılmasını kolaylaştırmak için sütunların her birinin x ekseni sabittir.

Tüm araçlar için, ağırlığın büyük bir olumsuz etkisi vardır ki bu, yakıt ekonomisinin aracın hareket etmesi gereken kütle ile daha da kötüleşmesi gerektiği için anlamlıdır. Model yılı tüm araçlar için büyük bir olumlu etkiye sahiptir; Muhtemelen bu dönemde motor teknolojisi önemli ölçüde gelişti. Bunlar, tek doğrusal modelde gördüğümüze benzer. Bununla birlikte, bu etkilerin büyüklüğü, LMT'nin tanımladığı alt popülasyonlar arasında değişmektedir ve motorun büyüklüğü ve gücü, farklı alt popülasyonlarda farklı etki büyüklüklerine sahiptir.

Düşük güçte çalışan araçlar için model yılı çok büyük bir olumlu etkiye sahiptir ve bu popülasyonda yakıt ekonomisinin motorun yer değiştirmesine çok duyarlı olduğunu görüyoruz.

Orta-güç kategorisinde ağırlık yine çok büyük olumsuz bir etkiye sahiptir, ancak yakıt ekonomisi sadece model yılı ile birlikte ılımlı bir şekilde artmaktadır.

Yüksek güce sahip olan araçlar için, ağırlık çok daha az önemli bir etkiye sahiptir ve model yılı için de aynı şey söylenebilir. Motor büyüklüğü ve güç özellikleri bu popülasyonda ağırlık ve model yılına göre daha önemlidir. Bu popülasyonda motor boyutları diğer popülasyonlardan çok daha değişkendir, bu nedenle motor boyutu tahmin üzerinde katsayıların bize söylediklerinden bile daha büyük bir etkiye sahiptir.

LMT avantajlarının özeti

Doğrusal Model Ağaçlarındaki son sözlerim için, faydalarının bir özeti:

  • LMT'ler güçlü bir şekilde yorumlanabilir. Verilerinizdeki doğrusal ve doğrusal olmayan ilişkilerle ilgili bilgi edinin. Bu, diğer modelleme hipotezlerine veya ürün fikirlerine yol açabilir.
  • LMT'ler farklı davranışlara sahip alt popülasyonları tanımlar.
  • LMT'ler doğrusal ilişkileri kolayca tanımlayabilir ve kullanabilir. Ağaç tabanlı modeller (Rastgele Ormanlar ve Degrade Yükseltme Ağaçları dahil), bir çizgiyi öğrenmek için çok çaba harcıyor, çünkü her yaprak düğümündeki tüm gözlemlerin ortalamasını tahmin ederek parçalı bir sabit modele uyuyorlar. Bu nedenle, doğrusal bir ilişkiyi yakınlaştırmak için birçok bölmeye ihtiyaç duyarlar. Bazı yaygın doğrusal ilişki örnekleri şunlardır: Müşteriler bu ay harcıyor, muhtemelen geçen ay harcadıkları bir fonksiyon, bu ayki satışlar muhtemelen geçen ay yapılan satışların bir fonksiyonu, büyüklük, taşıma, $ / mile.
  • Asgari düğüm büyüklüğünü ve maksimum ağaç derinliğini optimize etmek için çapraz doğrulama kullanılarak fazla uydurma (yüksek değişkenlik) önlenebilir.
  • LMT'ler, mütevazı miktarda veri ile iyi çalışabilir (birçok doğrusal olmayan modele kıyasla)
  • LMT'ler, genellikle bir modellemede kullandığınız aynı dilde yazılmış olmasa bile, bir üretim sisteminde uygulanması kolay olan basit modeller üretir.