Makine Öğrenimi ve Veri Bilimi İçin Ücretsiz Açık Veri Kümeleri | AI’ye Doğru

Makine Öğrenimi ve Veri Bilimi İçin En İyi Kamu Veri Setleri

Makine öğrenmesi için en iyi veri setleri hangileridir? Web saatlerce sürtündükten sonra, yüksek kaliteli ve çeşitli makine öğrenme veri setleri için harika bir kopya sayfası oluşturduk.

YAZARLAR:

Stacy Stanford, Makine Öğrenim Anıları A.Ş.

Roberto Iriondo, Makine Öğrenimi Bölümü, Carnegie Mellon Üniversitesi.

YAYINLANAN:

2 Ekim 2018

SON GÜNCELLEME:

15 Mayıs 2019

Yüksek kaliteli veri kümelerini ararken akılda tutulması gereken birkaç şey:

1.- Yüksek kalitede bir veri kümesi dağınık olmamalıdır, çünkü temizlik için çok fazla zaman harcamak istemezsiniz.

2.- Yüksek kaliteli bir veri setinde çok fazla satır veya sütun olmamalıdır, bu nedenle çalışması kolaydır.

3.- Veriler ne kadar temiz olursa, büyük bir veri setinin temizlenmesi o kadar iyi bir zaman alabilir.

4.- Son hedefiniz, cevap verilerek cevaplanabilecek bir soru / karara sahip olmalıdır.

Veri Kümesi Bulucuları

Google Veri Kümesi Araması: Google Akademik’in çalışma biçimine benzer şekilde, Veri Kümesi Arama, bir yayıncının sitesi, dijital bir kütüphane veya bir yazarın kişisel web sayfası olsun, barındırıldığı her yerde veri kümelerini bulmanıza olanak sağlar.

Kaggle: İlginç veri kümelerine harici olarak çeşitli katkılar içeren bir veri bilimi sitesi. Rammen derecelendirmelerinden basketbol verilerine ve hatta Seattle evcil hayvan lisanslarına kadar her çeşit niş veri setini ana listesinde bulabilirsiniz.

UCI Makine Öğrenimi Deposu: Web üzerindeki en eski veri kümelerinden biri ve ilginç veri kümeleri ararken ilk kez durdu. Her ne kadar veri kümeleri kullanıcı katkısına sahipse ve dolayısıyla çeşitli temizlik seviyelerine sahip olsalar da büyük çoğunluğu temizdir. Verileri doğrudan UCI Makine Öğrenimi havuzundan kayıt olmadan indirebilirsiniz.

VisualData: Bilgisayar vizyonu veri kümelerini kategoriye göre keşfedin, aranabilir sorgulara izin verir.

Veri Kümelerini Bul | CMU Kütüphaneleri: Huajin Wang, CMU koleksiyonu sayesinde yüksek kaliteli veri kümelerini keşfedin.

Genel Veri Kümeleri

Kamu Hükümeti Veri Kümeleri

Data.gov: Bu site birden fazla ABD devlet kurumundan veri indirmeyi mümkün kılıyor. Veriler devlet bütçelerinden okul performans puanlarına kadar değişebilir. Yine de uyarılmalıdır: Verilerin çoğu ek araştırma gerektirir.

Yemek Ortamı Atlas: Yerel gıda seçimlerinin ABD'deki diyeti nasıl etkilediğiyle ilgili verileri içerir.

Okul sistemi finansmanı: ABD'deki okul sistemlerinin finansmanı ile ilgili bir anket.

Kronik hastalık verileri: ABD'deki bölgelerde kronik hastalık göstergelerine ilişkin veriler.

ABD Ulusal Eğitim İstatistikleri Merkezi: ABD ve dünyadaki eğitim kurumları ve eğitim demografisine ilişkin veriler.

İngiltere Veri Hizmeti: İngiltere’nin en büyük sosyal, ekonomik ve nüfus verisi koleksiyonu.

Veri ABD: ABD kamu verilerinin kapsamlı bir görselleştirmesi.

Konut Veri Kümeleri

Boston Housing Dataset: ABD Nüfus Sayımı Servisi tarafından Boston Mass bölgesindeki konutlarla ilgili toplanan bilgileri içerir, StatLib arşivinden alınmış ve literatür boyunca algoritmaların karşılaştırılmasında yaygın olarak kullanılmıştır.

Coğrafi Veri Kümeleri

Google-işaretler-v2: Yer işareti tanıma ve alma için geliştirilmiş bir veri kümesi. Bu veri seti, Wiki Commons topluluğu tarafından kaynaklanmış ve açıklanmış, dünyanın dört bir yanındaki 200k + işaretlerinden oluşan 5M + görüntüleri içermektedir.

Finans ve Ekonomi Veri Kümeleri

Quandl: Ekonomik ve finansal veriler için iyi bir kaynak - ekonomik göstergeleri veya hisse senedi fiyatlarını tahmin etmek için model oluşturmak için yararlıdır.

Dünya Bankası Açık Veri: Nüfus demografisini, çok sayıda ekonomik ve dünyadaki kalkınma göstergelerini kapsayan veri kümeleri.

IMF Verileri: Uluslararası Para Fonu, uluslararası finansman, borç oranları, döviz rezervleri, emtia fiyatları ve yatırımlar hakkında veri yayınlar.

Financial Times Piyasa Verileri: Borsa fiyat endeksleri, emtialar ve döviz dahil, dünyanın dört bir yanından finansal piyasalar hakkında güncel bilgiler.

Google Eğilimler: İnternet arama etkinliği ve dünyadaki trend haber öyküleriyle ilgili verileri inceleyin ve analiz edin.

Amerikan Ekonomik Birliği (AEA): ABD makroekonomik verilerini bulmak için iyi bir kaynak.

Makine Öğrenimi Veri Kümeleri:

Görüntüleme Veri Kümeleri

xView: xView, genel görüntülerin halka açık en büyük veri kümelerinden biridir. Sınır kutuları kullanarak açıklamalı, dünyadaki karmaşık sahnelerden görüntüler içerir.

Labelme: Açıklamalı görüntülerin büyük bir veri kümesi.

ImageNet: Yüzlerce ve binlerce görüntünün hiyerarşinin her bir düğümünü gösteren WordNet hiyerarşisine göre düzenlenen yeni algoritmalar için fiili görüntü veri kümesi.

LSUN: Birçok yardımcı görevle sahne anlayışı (oda yerleşimi tahmini, açıklık tahmini vb.)

MS COCO: Genel imaj anlayışı ve altyazı.

COIL100: 360 derece dönüşte her açıda görüntülenen 100 farklı nesne.

Görsel Genom: ~ 100K görüntülerin resim yazısı ile çok detaylı görsel bilgi tabanı.

Google’ın Açık Görselleri: Creative Commons’ın altında “6.000’in üzerinde kategoriye yayılan etiketlerle açıklama yapılan” resimlere 9 milyon URL’lik bir koleksiyon.

Vahşi Yaşamdaki Etiketli Yüzler: Yüz tanımayı içeren uygulamaların geliştirilmesinde kullanılmak üzere insan yüzlerinin 13.000 etiketli görüntüsü.

Stanford Dogs Dataset: 20.580 resim ve 120 farklı köpek ırkı kategorisi içerir.

İç Mekan Sahne Tanıma: Çoğu sahne tanıma modeli 'dışarıda' olduğundan daha iyi olduğundan, çok özel bir veri kümesi ve çok faydalıdır. 67 İç mekan kategorileri ve 15620 resim içeriyor.

Duyarlılık Analizi Veri Kümeleri

Multidomain duyarlılık analizi veri kümesi: Amazon'dan gelen ürün incelemelerini içeren biraz daha eski bir veri kümesi.

IMDB incelemeleri: İkili duyarlılık sınıflandırması için eski, nispeten küçük bir veri kümesi 25.000 film incelemesi sunuyor.

Stanford Duygu Treebank: Duygu ek açıklamaları içeren standart duyusal veri seti.

Duygu140: Önceden kaldırılmış ifadelerle 160.000 tweet kullanan popüler bir veri kümesi.

Twitter ABD Havayolu Anlayışı: Şubat 2015'ten itibaren ABD hava yollarına ilişkin Twitter verileri, olumlu, olumsuz ve tarafsız tweets olarak sınıflandırıldı

Doğal Dil İşleme Veri Setleri

HotspotQA Veri Kümesi: Daha açıklanabilen soru cevaplama sistemlerini etkinleştirmek için gerçekleri destekleme konusunda güçlü bir denetime sahip, doğal, çok hoplamalı sorular içeren soru cevaplama veri kümesi.

Enron Dataset: Enron'un üst yönetiminden gelen, klasörler halinde düzenlenmiş e-posta verileri.

Amazon İncelemeleri: 18 yılda Amazon'dan yaklaşık 35 milyon yorum içermektedir. Veriler, ürün ve kullanıcı bilgilerini, derecelendirmeleri ve düz metin incelemesini içerir.

Google Kitap Ngramları: Google kitaplarından bir kelime koleksiyonu.

Blogger Corpus: 681.288-blog yazısı topluluğu blogger.com'dan toplandı. Her blog, sık kullanılan İngilizce kelimelerin en az 200 oluşumunu içerir.

Wikipedia Bağlantıları verileri: Wikipedia'nın tam metni. Veri kümesi 4 milyondan fazla makaleden yaklaşık 1.9 milyar kelime içeriyor. Kelime, cümle veya paragrafın bir kısmına göre arama yapabilirsiniz.

Gutenberg eBooks Listesi: Project Gutenberg'den açıklamalı bir e-kitap listesi.

Hansards, Kanada Parlamentosu’nun metin parçaları: 36. Kanada Parlamentosu’nun kayıtlarından 1.3 milyon çift metin.

Jeopardy: Jeopardy yarışması şovundan 200.000'den fazla soru içeren arşiv.

Çürük Domates İncelemeleri: 480.000'den fazla eleştirel incelemenin arşivini (taze veya çürümüş).

İngilizce SMS Spam Koleksiyonu: 5.574 İngilizce SMS spam mesajından oluşan bir veri kümesi

Yelp Yorumları: Yelp tarafından yayınlanan açık bir veri kümesi, 5 milyondan fazla inceleme içeriyor.

UCI’nin Spam Bankası: Spam filtrelemesi için yararlı olan, büyük bir spam e-posta veri kümesi

Kendi kendine sürüş (Otonom Sürüş) Veri Kümeleri

Berkeley DeepDrive BDD100k: Şu anda kendi kendini süren AI için en büyük veri kümesi. Günün farklı saatlerinde ve hava koşullarında 10000'ün üzerinde 1.100 saatlik sürüş deneyimi videosu içerir. Açıklamalı görüntüler New York ve San Francisco bölgelerinden geliyor.

Baidu Apolloscapes: Otomobil, bisiklet, yaya, bina, sokak lambası vb. Gibi 26 farklı anlamsal öğeyi tanımlayan büyük veri kümesi.

Comma.ai: 7 saatten fazla otoyol sürüşü. Ayrıntılar otomobilin hızını, hızlanmasını, direksiyon açısını ve GPS koordinatlarını içerir.

Oxford’un Robotik Otomobili: Bir yıldan fazla bir süre boyunca ele geçirilen Oxford, İngiltere’de aynı rotanın 100’den fazla tekrarı. Veri kümesi, inşaat ve yol çalışmaları gibi uzun vadeli değişikliklerin yanı sıra farklı hava, trafik ve yaya kombinasyonlarını da yakalar.

Cityscape Veri Kümesi: 50 şehirdeki kentsel cadde manzaralarını kaydeden büyük bir veri kümesi.

CSSAD Veri Kümesi: Bu veri kümesi, özerk araçların algılanması ve navigasyonu için kullanışlıdır. Veri kümesi yoğun olarak gelişmiş dünyada bulunan yollara çarpmaktadır.

KUL Belçika Trafik İşaretleri Veri Kümesi: Belçika'daki Flanders bölgesindeki binlerce fiziksel trafik işaretinden 10000'den fazla trafik işareti ek açıklaması.

MIT AGE Lab: AgeLab'de toplanan 1000+ saatlik çoklu sensör sürüş veri setinin bir örneği.

LISA: Akıllı ve Güvenli Otomobiller Laboratuvarı, UC San Diego Veri Kümeleri: Bu veri kümesi trafik işaretleri, araç algılama, trafik ışıkları ve yörünge düzenlerini içerir.

Bosch Küçük Trafik Işığı Veri Kümesi: Derin öğrenme için küçük trafik ışıkları için veri kümesi.

LaRa Trafik Işığı Tanıma: Trafik ışıkları için başka bir veri kümesi. Bu Paris'te alınır.

WPI veri setleri: Trafik ışıkları, yaya ve şerit algılama için veri setleri.

Klinik Veri Setleri

MIMIC-III: MIT Hesaplamalı Fizyoloji Laboratuarı tarafından geliştirilen ve ~ 40.000 kritik bakım hastası ile ilgili tanımlanmış sağlık verilerini içeren, açık bir şekilde mevcut veri seti. Demografi, yaşamsal belirtiler, laboratuvar testleri, ilaçlar ve daha fazlasını içerir.

Not:

Makine öğrenimi, derin öğrenme, veri bilimi, vb. Araştırma ve uygulama için insanlara önerdiğiniz diğer yüksek kaliteli kamu veri setlerinin farkındaysanız, neden dahil edilmeleri gerektiğine dair nedenlerini ve önerilerini almaktan çekinmeyin. Aşağıdaki yorumlarda veya Stacy'yi doğrudan sstanford@mlmemoirs.xyz adresine e-postayla göndererek.

Sebep güçlü ise, onları analiz edip bu listeye dahil edeceğiz. Ayrıca, yorumlar bölümünde bu veri setlerinden herhangi birini kullanma konusundaki deneyiminizi lütfen bize bildirin.

Mutlu makine öğrenmesi!

Teşekkür:

Yazarlar, AI Topluluğu üyelerine, bu makalenin hazırlanmasında yapıcı eleştirilerin yanı sıra büyük destek için teşekkür etmek istiyor.

YASAL UYARI: Bu makalede ifade edilen görüşler yazarlara aittir ve Carnegie Mellon Üniversitesi, Makine Öğrenimi Anıları A.Ş. veya yazarlarla ilişkili diğer şirketlerin (doğrudan veya dolaylı olarak) görüşlerini temsil etmez. Bu yazıların nihai ürünler değil, güncel düşüncenin bir yansıması olması ve tartışma ve iyileştirme için bir katalizör olması amaçlanmıştır.

Önerilen Hikayeler:

Kaynaklar:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Kurumsal Araştırma ve Analiz | Ortak Veri Kümeleri | https://www.cmu.edu/ira/CDS/index.html

[11] Veri Setleri ve Proje Önerileri | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Veri kümeleri | Makine Öğrenimi Havuzu | MİT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[13] Veri kümeleri | MIT Lincoln Laboratuvarı | https://www.ll.mit.edu/r-d/datasets

[14] Stanford Büyük Ağ Veri Kümesi Koleksiyonu | Stanford Üniversitesi | https://snap.stanford.edu/data/

[15] Stanford Ortak Veri Seti | Stanford Üniversitesi | https://snap.stanford.edu/data/

[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[17] Veri Kümelerini Keşfetme | Berkeley'de Veri Bilimi | https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

Alıntı:

Akademik bağlamlarda atfetmek için, lütfen bu çalışmayı belirtin

Stanford, vd., "Makine Öğrenimi ve Veri Bilimi İçin En İyi Kamu Veri Setleri", Doğru AI, 2018

BibTex alıntı:

@misc {stanford_2018,
  title = {Makine Öğrenimi ve Veri Bilimi İçin En İyi Kamu Veri Setleri},
  URL = {https://towardsai.net/datasets},
  not = {https://towardsai.net/datasets},
  Günlük = {Orta},
  yayıncı = {AI'ye doğru},
  yazar = {Stanford, Stacy ve Iriondo, Roberto},
  yıl = {2018},
  ay = {Ekim}
}