En iyi AutoML Çerçevesini Seçmek

87 veri setindeki dört otomatik makine öğrenme çerçevesinin kafa kafaya karşılaştırılması.

Adithya Balaji ve Alexander Allen

Giriş

Otomatik Makine Öğrenimi (AutoML) AI'yı daha büyük bir kitleye ulaşabilir. Veri bilimi ekiplerinin farklı seviyelerde deneyime sahip veri bilimi sürecini hızlandırmasına yardımcı olacak bir dizi araç sunar. Bu nedenle AutoML, AI'yi demokratikleştirmenin çözümü olarak ilan ediliyor. Deneyimli bir ekiple bile, sınırlı kaynaklardan en iyi şekilde yararlanmak için AutoML'yi kullanabilirsiniz. Makine öğrenmesini bir hizmet olarak sağlayan özel çözümler olsa da, bu ihtiyacı karşılayan mevcut açık kaynaklı çözümlere bakmaya değer.

Önceki yazımızda, AutoML peyzajını inceledik ve veri bilimi ekipleri için işe yarayabilecek bazı paketleri vurguladık. Bu bölümde söz konusu dört “tam boru hattı” çözümünü inceleyeceğiz: auto_ml, auto-sklearn, TPOT ve H2O’nun AutoML çözümü.

Her paketin güçlü ve zayıf yönleri, “Otomatik Makine Öğrenme Çerçevelerini Karşılaştırma” başlıklı tam metnimizde ayrıntılandırılmıştır. Bu makale ayrıca metodoloji ve bazı ek sonuçlar hakkında ek bilgiler içermektedir.

metodoloji

Doğru ve adil bir değerlendirme sağlamak için, bir REST API'siyle tutarlı bir şekilde maruz bırakılan standart makine öğrenme veri setlerinin çevrimiçi bir deposu olan OpenML'den 87 açık veri kümesi, 30 regresyon ve 57 sınıflandırma seçildi. Veri kümelerinin bölünmesi, bir iş makinesi öğrenme probleminde bulunabilecek geniş bir tablo veri kümesi örneği sağlar. Validasyon setlerinin kontaminasyonunu önlemek için veri setlerinin seçimine çok dikkat edildi. Örneğin, otomatik sklearn, bir dizi OpenML veri setinde önceden eğitilmiş olan sıcak bir başlangıç ​​kullanır. Bunlar gibi veri kümelerinden kaçınıldı.

Dört çerçevenin her biri, auto_ml, auto-sklearn, TPOT ve H20, önerilen parametrelerle veri seti başına 10 rastgele tohum boyunca test edildi. F1 skoru (ağırlıklı) ve ortalama kare hatası sırasıyla sınıflandırma ve regresyon problemleri için değerlendirme kriteri olarak seçildi.

Her AutoML yöntemini, birçok veri bilimi ekibi tarafından gerçekleştirilen ilk keşif araştırmasını yansıtan bir zaman aralığına sınırlamak için 3 saatlik bir kısıt kullanılmıştır. Bu, 10,440 saatlik bir tahmini hesaplama süresiyle sonuçlanır. Sonuç olarak, bu işlemin paralelleşmesini sağlamak için AWS’nin toplu servisini kullanarak modelleri, çalışma başına 2 vCPU ve 4 GB bellek tahsis eden C4 hesaplama için optimize edilmiş EC2 örnekleri kullanarak değerlendirmeye karar verdik.

Tüm testlerin tamamlandığından ve tüm testlerin 3 saatlik limit içerisinde başarılı olmak için en az 3 şansa sahip olduğundan emin olmak için en iyi çabayı gösterdik. Bazı durumlarda, AWS Batch’ın bilgi işlem ortamları ve liman işçisi kaynak yönetimi öngörülemeyen davranışlara neden oldu. Bunun üstesinden gelmek için, işlem belleği yönetimi başına daha hassas kontrolle EC2 örneklerinde AWS Batch'i EC2 örneklerine kopyalamak için özel bir “çıplak metal” yaklaşımı geliştirdik. Spesifik olarak, dock hafıza yöneticisi, eğer işlem tarafından kullanılan hafıza miktarı Batch tarafından tahsis edilen miktarı aştığında kıyaslama işlemine bir öldürme sinyali gönderiyordu. Bu zor sınır, koşu başına büyük miktarda örnek büyüklüğü olmadan değiştirilemez. Aynı hesaplama kısıtlamalarını kullanarak, bu özel koşullar altında başarısız olan çalışmaları özel “çıplak metal” uygulamamızda test ettik.

Ayrıca, bu testlerin gerçekleştirilmesi sürecinde, açık kaynak çerçevelerinde birkaç makalede açıklanan birkaç hatayı düzelttik. Bu düzeltmelerden sonra, veri kümelerinin hiçbiri tamamen başarısız oldu. Bu arızalar genellikle günlük kullanımdan gizlenmiştir, ancak yapılan test ölçeğinde ortaya çıkmıştır.

Sonuçlar

Şekil 1'de seçilen veri setlerimizin çeşitliliği açıklanmaktadır. Sınıflandırmanın tipik olarak ikili olduğunu ve sınıflandırma satır sayısının yaklaşık 1000 satırlık veri kümelerine doğru eğimli iken regresyon sıra sayısının nispeten tek tip olduğunu görebilirsiniz. Hem regresyon hem de sınıflandırma için özellik sayımı, sınıflandırma ile birlikte yaklaşık 10 özellik, 100'e doğru biraz eğildi. Bu veri grubunun, birçok veri bilim insanının karşılaşacağı genel veri bilimi problemlerinin temsili bir örneği olduğuna inanıyoruz.

Şekil 1: Sınıflandırma ve regresyon problemleri arasında bölünmüş ham veri kümesi özellikleri

Bazı çerçeveler belirli tohumlarda ve çerçevelerde zaman aşımına uğradı. Toplam 29 çalışma kombinasyonu (veri seti ve tohum) düşürüldü. Bireysel çerçevelerin karşılaştırılabilirliğini korumak için bu çalışma kombinasyonları tüm çerçeveler boyunca düşürüldü. Bu işlem, toplamda yaklaşık ~% 3 ​​(116/3480 çalışma) olan toplam 132 veri noktasına (29x4) düşürüldü.

Şekil 2: Sınıflandırma veri kümeleri arasında baştan sona ortalama performans

Şekil 3: Regresyon veri setleri arasında baştan başa ortalama performans

Her bir çerçeve yukarıda belirtilen hem regresyon hem de sınıflandırma veri setleri üzerinde değerlendirildi. Performansları, ağırlıklı F1 puanı ile MSE puanlarının veri kümeleri arasında çerçeve bazında toplanmasıyla hesaplanmıştır. Her bir metrik, çerçeveler boyunca veri kümesi bazında standardize edildi ve 0'dan 1'e ölçeklendi. MSE'de, bu değerler ters çevrildi, yani daha yüksek değerler daha iyi sonuçları temsil eder, böylece grafikler sınıflandırma ve regresyon görselleştirmeleri arasında tutarlı kalacaktır. Değerlendirilen 10 tohumdaki ortalama, bir çerçevenin belirli bir veri setindeki performansını temsil eder. Şekil 2 ve 3'te koyu gölgeler daha büyük performans farkları olduğunu göstermektedir.

Şekil 4: Tüm sınıflandırma veri kümelerinde çerçeve performansı

Şekil 5: Tüm regresyon veri kümelerinde çerçeve performansı

Şekil 4 ve 5'te çerçeve performansını göstermek için kutu grafiklerini kullandık. Kutu grafiğindeki çentikler medyanların güven aralığını temsil ediyor. Tablo 1'deki araçlar ve standart sapmalar kesin farklılıkları göstermektedir.

Tablo 1: Çerçeve sonuçlarına göre kesin

Sonuç ve Yorumlama

Genel olarak, her görselleştirme ve yorumlama aynı resmi sunar. Auto-sklearn, sınıflandırma veri setlerinde en iyi performansı gösterir ve TPOT, regresyon veri setlerinde en iyi performansı gösterir. Bu denemenin nicel sonuçlarının son derece yüksek varyanslara sahip olduğunu ve bu nedenle, kod tabanının durumu, sürekli gelişim, özellik kümesi ve bu bireysel çerçevelerin hedefleri hakkında düşünmenin daha önemli olduğunu fark etmek önemlidir. bağımsız performans. Bu faktörler nedeniyle ve bu analiz üzerinde çalıştığımız süre boyunca kendi topluluklarıyla olan etkileşimlerimiz nedeniyle hem TPOT hem de otomatik sklearn'ü tavsiye ediyoruz.

Paketlerin her biri (Auto-sklearn, TPOT, H2O, Auto_ml), tam rapor ve kıyaslama uygulaması burada bağlantılıdır.