Veri bilimine geçiş yapan bir geliştiriciyseniz, işte en iyi kaynaklarınız

Görünüşe göre herkes bugünlerde veri bilimcisi olmak istiyor - doktora öğrencilerinden veri analistlerine, Linkedin'de sizi 'kahve almak' için mesajlaşmaya devam eden eski kolej oda arkadaşınıza kadar.

Belki de en azından bazı veri bilimi pozisyonlarını araştırmanız ve yutturmaca ile ilgili ne olduğunu görmeniz gereken aynı ipucuna sahiptiniz. Belki de, Vicki Boykis’in Veri Bilimi gibi makalelerin farklı olduğunu şimdiden gördünüz:

Netleşen şey, yutturmaca döngüsünün son aşamasında, veri biliminin asimptotik olarak mühendisliğe yaklaştığı ve veri bilimcilerinin ilerlemesine ihtiyaç duydukları becerilerin daha az görselleştirme ve istatistik temelli ve geleneksel bilgisayar bilimine paralel olduğu. ...:
Birim testi ve sürekli entegrasyon gibi kavramlar hızla ML mühendisliği üzerinde çalışan veri bilimcileri ve sayısal bilimcilerin kullandığı jargon ve araç setine girmiştir.

veya Tim Hopper’lar gibi tweetler:

Net olmayan, bir yazılım mühendisi olarak deneyiminizi bir veri bilimi konumuna nasıl kaldırabileceğinizdir. Olabilecek diğer bazı sorular:

Öğrenmeye ne öncelik vermeliyim?

Veri bilimcileri için farklı olan en iyi uygulamalar veya araçlar var mı?

Şu anki yetenek setim veri bilimi rolüne mi geçecek?

Bu makale, veri bilimci rolü ve arka planınızın veri bilimine neden uygun olabileceğine ve ayrıca bir geliştirici olarak veri bilimini hızlandırabileceğiniz adım adım somut eylemlere ilişkin bir arka plan sağlayacaktır.

En son veri bilimi rollerini görmek ister misiniz? Gelen kutunuzdaki yeni veri bilimi iş ilanları için iki haftalık ML Jobs Bültenine abone olun.

Veri Mühendisi ve Veri Mühendisi

İlk önce, iki tamamlayıcı rol arasında ayrım yapmalıyız: Veri Bilimcisi ve Veri Mühendisi. Bu rollerin her ikisi de makine öğrenme modellerini ele alırken, bu modellerle etkileşimlerinin yanı sıra Veri Bilim İnsanları ve Veri Mühendisleri için çalışmanın gereklilikleri ve niteliği de büyük farklılıklar gösterir.

Not: Makine öğrenimi için uzmanlaşmış Veri Mühendisi rolü, “Yazılım Mühendisi, Makine Öğrenimi” veya “Makine Öğrenimi Mühendisleri” olarak iş tanımlarında da kendini gösterebilir.

Bir makine öğrenmesi iş akışının bir parçası olarak, veri bilimcisi hangi makine öğrenmesi yaklaşımının kullanılacağını belirlemek için gereken istatistiksel analizi yapacak ve sonra bu modelleri prototiplemeye ve geliştirmeye başlayacaktır.

Makine öğrenim mühendisleri, bu modelleme işleminden önce ve sonra veri bilimcileri ile sık sık işbirliği yapar: (1) bu modellere veri beslemek için veri boru hatları oluşturmak ve (2) sürekli model sağlığını sağlamak için bu modellere hizmet edecek bir mühendislik sistemi tasarlamak.

Aşağıdaki şema, bu beceri sürekliliğini görmenin bir yoludur:

Veri Bilimcileri ile Veri Mühendisleri arasındaki farklar konusunda çok sayıda çevrimiçi kaynak var - şunlara dikkat edin:

  • Durgun: Bir veri mühendisi ve bir veri bilimcisi arasındaki fark nedir?
  • Sıçrama tahtası: Makine Öğrenim Mühendisi - Data Scientist
  • O’Reilly: Veri mühendisleri ve veri bilimcileri

Bir feragatname olarak, bu makale öncelikle Makine Öğrenimi Mühendisliği tarafına bazı başlarını sallayan Veri Bilimcisi rolünü kapsar (özellikle her ikisine de hizmet etmek zorunda kalabileceğiniz daha küçük bir şirkette pozisyon arıyorsanız, alakalı). Veri Mühendisi veya Makine Öğrenimi Mühendisi olmaya nasıl geçebileceğinizi görmekle ilgileniyorsanız, aşağıdaki yorumları bize bildirin!

Bir geliştirici olarak avantajınız

Herkesin zararına, “Python'da Veri Bilimine Giriş” veya Andrew Ng’nin Coursera kursu gibi makine öğrenmeye ilişkin sınıflar, ünite testi, modüler yeniden kullanılabilir kod yazma, CI / CD veya sürüm kontrolü gibi yazılım mühendisliği kavramlarını ve en iyi uygulamalarını kapsamaz. En gelişmiş makine öğrenim ekiplerinden bazıları bile bu uygulamaları makine öğrenim kodları için kullanmıyor, bu da rahatsız edici bir eğilim yaratıyor…

Pete Warden, bu eğilimi “Makine Öğrenebilirliği Yeniden Üretilebilirlik Krizi” olarak tanımladı:

Değişiklikleri takip etmeye ve modelleri sıfırdan yeniden inşa etmeye gelince hala karanlık çağlara dönüyoruz. O kadar kötü, bazen zaman zaman kaynak kontrolü olmadan kodlandığımızda geriye adım atmak gibi geliyor.

Veri bilimcisi iş tanımlarında açıkça belirtilen bu “yazılım mühendisliği” becerilerini göremeyebilirsiniz, ancak bu becerilerinizi arka planınız olarak iyi bir şekilde kavramanız, bir veri bilimcisi olarak çalışmanıza 10 kat yardımcı olacaktır. Ayrıca, veri bilimi görüşmeniz sırasında bu programlama sorularını cevaplama zamanı geldiğinde de kullanıma gireceklerdir.

Diğer taraftan bazı ilginç bakış açıları için, veri bilim adamlarının “daha ​​iyi kod yazmayı, yazılım geliştiricilerle daha iyi etkileşim kurmayı ve sonuçta zamandan tasarruf etmeyi öğrenmelerini tavsiye etmeleri” konusunda, “Veri bilimcileri için yazılım geliştirme becerileri” başlıklı makalesine bakın. baş ağrısı”.

Veri bilimini arttırmak

Yazılım mühendisliği arkaplanınızla iyi bir temele sahip olmanız harika, ancak veri bilimci olma yolunda atılacak bir sonraki adım nedir? Josh Will’in veri bilim adamının tanımındaki yanak dili tweet'i şaşırtıcı derecede doğru:

Bir veri bilimci rolü veya kariyeri ile ilgileniyorsanız, yakalamanız gereken konulardan birine işaret ediyor: istatistikler. Bir sonraki bölümde, aşağıdakiler için harika kaynakları ele alacağız:

  • ML'ye özgü bilgi oluşturma
  • Bina endüstrisi bilgisi
  • ML yığındaki araçlar
  • Beceriler ve nitelikler

ML'ye özgü bilgi oluşturma

Olasılık ve istatistikle ilgili teori temelli bilgilerin yanı sıra GPU'larda / dağıtılmış hesaplamada veri tartışmaları veya eğitim modelleri gibi uygulamalarda uygulamalı becerilerin bir kombinasyonunu oluşturmak en etkili yöntemdir.

Kazandığınız bilgiyi çerçevelemenin bir yolu, onu makine öğrenmesi iş akışına karşı yönlendirmektir.

Makine öğrenmesi iş akışının basitleştirilmiş bir görüntüsü
Skymind AI'dan bu ayrıntılı iş akışına bakın

Makine öğrenimi hakkında bulabileceğiniz en iyi kaynakların bazılarını burada listeledik. Kapsamlı bir listeye sahip olmak ve yerden tasarruf etmek (ve zamandan okumak) imkansız olurdu, Andrew Ng’daki Coursera kursu ya da Kaggle gibi çok popüler kaynaklardan bahsetmedik.

Dersler:

  • Fast.ai MOOC (Kodlayıcılar için Pratik Derin Öğrenme, Kodlayıcılar için İleri Düzey Derin Öğrenme, Hesaplamalı Lineer Cebir ve Kodlayıcılar için Makine Öğrenmeye Giriş alanında uygulamalı beceriler öğreten ücretsiz kurslar)
  • Han Akademisi
  • 3Blue1Bwn ve matematiksel monk youtube kanalı
  • Udacity kursları (Python'da Makine Öğrenimi Ön Hazırlığı dahil)
  • Sıçrama tahtası AI / ML'ye özgü parça

Ders kitapları: * çoğu için çevrimiçi ücretsiz PDF bulmaya çalıştım *

  • Hackerlar İçin Olasılıksal Programlama ve Bayes Yöntemleri
  • Olasılık ve Rastgele Süreçler
  • İstatistiksel Öğrenmenin Öğeleri
  • Doğrusal Cebir Doğru Yapıldı
  • Lineer Cebire Giriş
  • Algoritma Tasarımı

Kılavuzlar:

  • Google Geliştiricileri Makine Öğrenme Kılavuzu
  • Makine Öğrenimi Ustalık Kılavuzları (iyi bir başlangıç ​​noktası için, Python Makine Öğrenimi konusundaki bu mini kursa bakın)
  • Pyimagesearch (bilgisayar görüşü için)

Toplantılar: * öncelikle NYC tabanlı olanlar *

  • Sevdiğimiz Kağıtlar
  • NYC Yapay Zeka ve Makine Öğrenmesi
  • DataCouncil.ai
  • NY Yapay Zeka
Serin bir başlangıç ​​noktası olarak, Will Wolf’un “Açık Kaynak Makine Öğrenme Uzmanları” nı seçerek, belirli konuları inceleyerek ve düşük maliyetli bir uzak konumdaki uzmanlığı sergilemek üzere projeler üzerinde çalışarak zamanınızı nasıl yapılandırabileceğinizi öğrenin.

Sektöre özel bilgi oluşturma

Sağlık, finans hizmetleri, tüketim malları, perakende satış vb. Gibi belirli bir sektör olmak istediğiniz bir yumruğunuz varsa, o sektörün acı noktalarına ve gelişmelere veri ve makine ile ilgili olarak yetişmesi paha biçilmezdir. öğrenme.

Profesyonellerden biri = dikey spesifik AI girişimlerinin web sitelerini tarayabilir ve değer önerilerini nasıl konumlandırdıklarını ve makine öğrenmenin nerede ortaya çıktığını görebilirsiniz. Bu, makinenin öğrenim görmesi için belirli alanlara ve çalışmanızı sergilemeye yönelik projeler konularına ilişkin fikir verecektir.

Bir örnek üzerinden geçebiliriz: Diyelim ki sağlık alanında çalışmakla ilgilendiğimi varsayalım.

  1. “Makine öğrenen sağlık hizmetleri” hakkında hızlı bir google araması yaparak, bu listeyi Healthcareweekly.com adresinden 201 2019’da İzlenecek En İyi Sağlık Başlangıçları ”bölümünde buldum.
Anahtar kelime olarak "healthcare" ile Crunchbase veya AngelList'te de hızlı aramalar yapabilirsiniz

2. Örnek olarak BenevolentAI listesinde yer alan şirketlerden birini ele alalım.

3. BenevolentAI’nin web sitesi:

Erken ilaç keşiflerinden geç dönem klinik gelişime kadar uçtan uca kabiliyetine sahip bir AI şirketiyiz. BenevolentAI, ilaçların tasarlanma, geliştirilme, test edilme ve pazara sunulma şeklini dönüştürmek için hesaplamalı tıbbın ve ileri düzey AI'nın gücünü açık sistemler ve bulut bilişim ilkeleriyle birleştirir.
Benevolent Platformunu, çok sayıda biyomedikal bilgiden hastalığın daha iyi anlaşılması ve yeni tasarımların yapılması ve mevcut tedavilerin geliştirilmesi için inşa ettik. Teknolojimizin, bilim adamlarına ilaçları daha hızlı ve daha düşük maliyetli bir şekilde geliştirmelerini sağladığına inanıyoruz.
Her 30 saniyede bir yeni bir araştırma makalesi yayınlanmakla birlikte, bilim insanları şu anda sadece hastalığın nedenini anlamak ve yeni tedaviler önermek için mevcut bilginin bir kısmını kullanıyor. Platformumuz, “okur” yu alıyor, yazılı belgelerden, veritabanlarından ve deneysel sonuçlardan elde edilen çok miktarda bilgiyi içeriyor. Bir insanın tek başına yapması imkansız olan bu farklı, karmaşık veri kaynakları arasında, ilişkileri tanımlamak ve oluşturmak, eğilimleri ve kalıpları oluşturmak için sonsuz miktarda kesinti ve çıkarımlar yapabilir.

4. Hemen BenevolentAI'nin doğal dil işleme (NLP) kullandığını ve hastalıklar ve tedavi araştırması arasındaki ilişkileri tespit ediyorlarsa muhtemelen bazı bilgi grafikleriyle çalıştığını görebilirsiniz.

5. BenevolentAI’nin kariyer sayfasını kontrol ederseniz, Kıdemli Makine Öğrenimi Araştırmacısı için işe aldıklarını görebilirsiniz. Bu üst düzey bir roldür, bu yüzden mükemmel bir örnek değil, aşağıda istedikleri beceri ve niteliklere bir göz atın:

Not:

  • doğal dil işleme, bilgi grafiği çıkarımı, aktif öğrenme ve biyokimyasal modelleme
  • yapılandırılmış ve yapılandırılmamış veri kaynakları
  • bayesian model yaklaşımları
  • ML için modern araçlar bilgisi

Bu size daha sonra neyin yaklaşacağına dair bazı adımlar atmalıdır:

  • yapısal verilerle çalışmak
  • yapılandırılmamış verilerle çalışma
  • Bilgi grafiklerinde ilişkilerin sınıflandırılması (burada iyi bir kaynağa bakın)
  • Bayesçi olasılık ve modelleme yaklaşımlarını öğrenmek
  • NLP projesi üzerinde çalışmak (yani metin verileri)

Aramanız yoluyla bulduğunuz şirketlere başvurmanızı önermiyoruz, bunun yerine, müşterilerin acı noktalarını, şirketlerinin değer önerilerini ve araştırmanıza rehberlik etmek için iş tanımlarında ne tür beceriler listelediklerini görmüyoruz.

ML yığındaki araçlar

BenevolentAI Kıdemli Makine Öğrenimi Araştırmacısı iş tanımında “Tensorflow, PyTorch, vb. Gibi ML için modern araçlar hakkında bilgi” istiyorlar.

Alan için sürekli değiştiği için bu modern araçları ML için öğrenmek korkutucu görünebilir. Öğrenme sürecini yönetilebilir parçalara bölmek için, yukarıdan makine öğrenme iş akışı hakkındaki düşüncelerinizi demirlemeyi unutmayın - “İş akışının bu bölümünde bana hangi araç yardımcı olabilir?”

Bu makine öğrenmesi iş akışının her adımında hangi araçlara eşlik ettiğini görmek için, Roger Huang’ın Docker, Comet.ml ve dask-ml gibi araçları kapsayan Machine Makine Öğrenme Yığına Giriş’i inceleyin.

Taktik olarak konuşursak, Python ve R veri bilimcilerin kullandığı en yaygın programlama dilleridir ve NumPy ve SciPy ve matplotlib gibi veri bilimi uygulamaları için tasarlanan ek paketlerle karşılaşabilirsiniz. Bu diller derlenmek yerine yorumlanır, veri bilimcisini dilin nüansları yerine soruna odaklanmaktan kurtarır. Veri yapılarının sınıflar halinde uygulanmasını anlamak için nesne yönelimli programlamayı öğrenmek için zaman harcamak gerekir.

Tensorflow, Keras ve PyTorch gibi ML çerçevelerini yakalamak için, belgelerine gitmeyi ve eğitimlerini uçtan uca uygulamayı denediğinizden emin olun.

Günün sonunda, veri toplama ve yerleştirme, makine öğrenmesi deney yönetimi ve modelleme için bu modern araçları sergileyen projeler yaptığınızdan emin olmak istersiniz.

Projelerinizden ilham almak için Edouard Harris’in cold Soğuk başlangıç ​​sorunu: makine öğrenme portföyünüzü nasıl oluşturacağınız’a bakın.

Beceriler ve nitelikler

Önceki bölümlerden gelen bilgilerin çoğunu bir araya getirdiği için bu bölümü en sonda bıraktık, ancak özellikle veri bilimi görüşmesi hazırlığına yöneliktir. Veri bilimci görüşmesi sırasında altı ana konu vardır:

  1. Kodlama
  2. Ürün
  3. SQL
  4. A / B testi
  5. Makine öğrenme
  6. Olasılık (bkz. İyi bir tanım ve burada İstatistik)

Bu konulardan birinin diğerleri gibi olmadığını farkedeceksiniz (Ürün). Veri bilimi pozisyonları için, teknik ölçütler ve sonuçlar ile iş ölçütleri ve etkisi hakkında iletişim çok önemlidir.

Veri bilimi ile ilgili bazı faydalı topluluklar, görüşme soruları:
Htt https://github.com/kojino/120 tarihinde-Science-Interview-Questions
https: //github.com/iamtodor/data-science-interview-questions-and-answers
Htt https://hookedondata.org/red-flags-in-data-science-interviews/
Htt https://medium.com/@XiaohanZeng/i-interviewed-at-five-top-companies-in-silicon-valley-in-five-days-and-luckily-got-five-job-offers-25178cf74e0f

Hooked to Data'nın 'Data Science Röportajlarındaki Kırmızı Bayraklar' bölümüne eklendiğinin farkına varacaksınız - roller için röportaj yaparken, hala veri altyapısını geliştirmeye çalışan ya da bunun nasıl sağlam bir anlayışa sahip olamayacağınız şirketlerle karşılaşacaksınız. veri bilimleri ekibi daha büyük şirket değerlerine uyar.

Bu şirketler hala aşağıdaki ihtiyaçlar hiyerarşisini yükseltiyor olabilir.

Monica Rogati'den Popüler İhtiyaçlar Hiyerarşisi

Veri bilimi görüşmeleriyle ilgili bazı beklenti belirlemeleri için Tim Hopper’ın ‘Çok sayıda Veri Bilimi İşinde Saptırılmaya İlişkin Bazı Düşünceler’ başlıklı makalesini okumanızı tavsiye ederim.

Okuduğunuz için teşekkürler! Bu kılavuzun veri biliminin dikkate almanız gereken bir kariyer olup olmadığını ve bu yolculuğa nasıl başlayacağınızı anlamanıza yardımcı olacağını umuyoruz!

En son veri bilimi rollerini görmek ister misiniz? Gelen kutunuzdaki yeni veri bilimi iş ilanları için iki haftalık ML Jobs Bültenine abone olun: