Virüs için, aşı çıktı mı ?, Ne zaman çıkacak?, Covid-19 ‘ a iyi gelen ilaçlar neler , kesin iyileşme sağlıyor mu? Bunlar en çok sorulan ve merak edilen sorular olmakla beraber iyileşen, hastalığa yakalanan ve vefat ile sonuçlanan vakaların güncel olarak istatistiklerini ve grafiklerini görmekteyiz… Gençler için risk taşımıyormuş(?), yaşlılara dikkat!!,Yarasa kaynaklı olduğu kesin mi ?, Yoksa biyolojik silah mı??… Bu şekilde çoğalan daha bir sürü soru işaretleri insanların kafasında çoğalırken birçok ülke aşı ve kesin tedavi çalışmalarına başlamış durumda. Çok hızlı yayıldığı, mutasyona uğradığı ve uğrama ihtimali olduğu ise bilinmekte.
Kaggle ise yazılım, bilgisayar, yapay zeka vb alanlar için bize sunulan en önemli veri bilimi platformlarından biridir. Kaggle, aslen makine öğrenmesi yarışmaları sunan bir platform olarak kurulmuştur. Bu platformda veri setleri ve beklenen çıktısı belirlenmiş problemler kullanıcılara sunuluyor. Veri setine ve değerlendirme metriklerine erişimi olan kullanıcılar, kendi modellerini ister bireysel şekilde isterlerse de grup olarak oluşturup Kaggle’a sonuçları yüklüyorlar. Modellerin performansı kullanıcıların erişimi olmadığı bir test seti üzerinden değerlendiriliyor ve kullanıcıların başarısı bu test setinde elde ettikleri metrik değeriyle belirleniyor. Genellikle yarışmalarda ilk N ekibe belli ödüller oluyor, bu ödüller yarışma açıldığı zaman bilgi olarak kullanıcılara sunuluyor.
Geçtiğimiz sene içerisinde Kaggle sadece yarışma değil aynı zamanda eğitim materyalleri de sunmaya başladı. Eğer makine öğrenmesiyle ilgileniyorsanız hem yarışmalar hem de bu materyaller modelleme yetilerinizi güçlendirme konusunda oldukça faydalı olacaktır.[1] Kaggle, araştırmacı analiz için iyi; metriklerin kullanımı ve makine öğrenmesi algoritmalarının içselleştirilmesi için harika bir platform. Makine öğrenmesiyle uğraşan herkesin mutlaka tecrübe etmesi gereken bir yaklaşım sunuyor. Önemli bir faydası ise veri biliminin sancılı ve iyi tanımlanmamış kısımlarıyla uğraşmak yerine modellemeyi kendi başına iyi bir şekilde öğretiyor olması. Ancak burada dikkat edilmesi gereken nokta modellemenin sadece işin ufak bir kısmı olduğu. Sürecin diğer kısımları çok daha fazla zaman alıyor. Modelleme noktasına gelene kadar işinizi düzgün yaptıysanız modellemeyi kolaylaştırmış oluyorsunuz.[2] Aynı zamanda Kaggle bizler için çok ciddi boyutlarda işimize yarayacak veri kümelerini (dataset) bizlere sunmaktadır. Bu yazının amacını sizlere aktarabilmem için Covid-19 ve Kaggle ‘dan biraz bahsetmek zorundaydım.
Kaggle, küresel sorun olan Korona Virüs (Covid-19) için dataset oluşturmaya ve geliştirelecek çalışmalar için ekip oluşturmaya başladı. Kaggle, CORD-19 Araştırması ile 10 anahtar soru ve dünyanın Corona Virüs’ü daha hızlı anlamasına ve kurtarmasına yardımcı olabileceğiniz 10 yol bulunması için çalışmalara başladı. Büyük yapay zeka girişimleri ve Beyaz Saray bir araya gelerek, bilimsel topluluğun sorduğu sorulara cevap vermenize ve nakit ödüller kazanmanıza yardımcı olmak için COVID-19 ve ilgili Korona Virüsler hakkında 44.000’ den fazla bilimsel makale hazırladı. [3] Beyaz Saray Bilim ve Teknoloji Politikası Ofisi (OSTP), COVID-19 ile ilgili önemli açık bilimsel soruları ele almaya çalışmak için COVID-19 Açık Araştırma Veri Kümesi’ni (CORD-19) hazırlamak için bir koalisyon araştırma gruplarını ve şirketlerini (Kaggle dahil) bir araya getirdi. . Bu sorular Ulusal Bilimler, Mühendislik ve Tıp Akademileri’nden (NASEM) ve Dünya Sağlık Örgütü’nden (WHO) alınmıştır. Meydan okuma Kaggle, NASEM / WHO sorularının bir alt kümesini yanıtlamaya yardımcı olmak için iki tamamlayıcı COVID-19 öngörme zorluğu başlatıyor. Zorluk, 25 Mart ile 22 Nisan arasında bölgelere göre teyit edilmiş vakaların ve ölümlerin öngörülmesini gerektirse de, birincil hedef doğru tahminler üretmek değildir. COVID-19’ un iletim hızını etkiliyor gibi görünen faktörleri tanımlamak içindir. Yararlı olabilecek veri kaynaklarını içeri çekmeniz, seçmeniz ve paylaşmanız önerilir. İletim hızını etkiliyor gibi görünen değişkenler bulursanız, lütfen bulmanızı bir not defterinde paylaşın. Veriler kullanıma sunuldukça, afiş tablosunu Johns Hopkins Üniversitesi Sistem Bilimi ve Mühendisliği Merkezi’nden (JHU CSSE) sağlanan verilere dayanarak canlı sonuçlarla güncelleyeceğiz. Bu zorlukların üstesinden gelmek için sağlık ve politika kuruluşlarından destek ve rehberlik aldık. Kaggle topluluğunun COVID-19’un bulaşmasını etkileyen faktörlerin daha iyi anlaşılması için değerli katkılar sağlayabileceğini umuyoruz. Şirketler ve Organizasyonlar Şirketler ve diğer kuruluşlar için de bir harekete geçirici mesaj vardır: Yararlı olabilecek veri kümeleriniz varsa, lütfen bunları Kaggle’ın veri kümesi platformuna yükleyin ve bu forum başlığında referans alın. Bu, onları bu zorluğa katılanlar için erişilebilir hale getirecek ve daha geniş bilim topluluğunun kaynağı olacaktır. Teşekkür JHU CSSE, verileri herkese açık hale getirmek için. Beyaz Saray OSTP açık anahtar soruları bir araya getiriyor. Görüntü Hastalık Kontrol Merkezi’nden geliyor.[4]
Datasetlere https://www.kaggle.com/covid19 adresinden ulaşabilirsiniz.
Kaynaklar:
[1,2] https://aktuerdunyasi.wordpress.com/2018/07/23/kaggle-nedir-ne-degildir
[3,4] https://www.kaggle.com/covid19