Makine Öğrenimi #1

İçerikler:

Makine Öğreniminin Doğuşu
Makineler Nasıl Öğrenir?
Makine Öğrenimi Teknikleri

Arthur Samuel, dama oynayan bir program yazdı. Kazanma ihtimaline uygun olarak her bir tahta pozisyonu bir skora denk getirildi. Başlangıçta damaların ve her kenardaki parçaların sayısına göre skorlar belirleniyordu. Her nekadar bu yöntem çalışsa da oyunun performansını geliştirmek için, programın kendi başına binlerce kere oynamasını sağladı ve elde ettiği sonuçları noktasal skorlama için kullandı.

Samuel kendi performansını kendi tecrübeleri ile geliştiren bir program yazmıştı. Program öğrendi ve makine öğrenimi doğdu.

MAKİNELER NASIL ÖĞRENİR ?

Öğrenme kavramı insanlar için söz konusu olunca, ezbere dayalı öğrenme veya gerçek zeka

( memorization, and true intelligence) arasında ayrım yapabiliyoruz.

Telefon numarası ezberleme şüphesiz öğrenme olarak kabul ediliyor.

Çocuklar grup içesinde oynadığı zaman, diğer insanların ona nasıl davrandığını gözlemliyor. Onların gelecekteki sosyal hareketleri de bu deneyim sayesinde oluşur. Geriye dönüp aynı şeyleri tekrardan yaşamıyorlar. Çevrelerinde gördükleri onlara birer düşünce kazandırıyor. Bu öğrenmenin de ötesinde 'sezgiye' sahip olmaktır.

Küçük bir çocuğa kedi ve köpek arasındaki farkı öğrettiğinizi düşünün. Flashcard ile çocuğa kedi ve köpek resmini gösteriyorsunuz, çocuk biliyor. Sonra kartı destenin içine katın, çocuk hepsinin arasından kedi resmini çıkarıyor. Peki nasıl? Kedi olmayan resim için beyninde 'yanlış bu değil' ve kedi olan için işte bu! diyor. Daha çok deneyim ile çocuk gelişiyor... İnsan beyni sınıflandırma mekanizmasına sahiptir, siz kedi ve köpeği ayırt etme tekniğini çocuğa göstermeseniz de o zaten çözer. Bu ise çevreden gördüklerini anlama ve sınıflandırma gücüdür.

Deneme ile öğrenme insan ve makine öğrenimi için ortak özelliktir. Tabi ki insan beyni en gelişmiş makine öğrenimi algoritmalarından kat ve kat üstündür. Fakat bilgisayarlar, ezberleme, geri çağırma ve işleme girdirmekte ilerdedirler. Bu bilgisayarların insan beyninden üstün olmasından değil bilgisayarların 'milyonlarca deneyim için sabrı olmasından ve hızlı öğrenmesindendir.'

İnsanlar öğrenmek için şekil, renk, yazı büyüklük gibi şeyleri dikkate alırken, makine öğrenimi elindeki probleme göre benzer yöntemleri uygulamaktadır.

Makine öğrenimi stratejileri, istatistik, bilgisayar bilimleri, robotik, matematik, dil çevirisi gibi temellerle meydana gelmiştir.

Algoritmaların bazıları, sınıflandırmayı ele alırken bazıları ise sayısal ölçümü ele alır. Bazıları benzerlik ve farklılık gibi özellikleri ölçer. ( örneğin: insan, makineler, kediler)

Bütün algoritmaların sahip olduğu ortak özellik ise örneklerden (deneyimlerden) öğrenmesi ve öğrendiklerini yeni durumlara aktarabilmeleridir.
Kaggle sitesinde düzenlenen bir yarışmada, yarışmacılara 25.000 resim örneği verildi. Her biri tarif edilmiş resimlerdi. Örneğin köpek yüzüyor, kedi mama yiyor şeklinde tanımlamalar verildi. Yarışmacılar algoritmalarını uyguladıktan sonra, 12.500 tane tarif edilmemiş, ne olduğu belirtilmemiş resimler test edildi.

Kedi ve köpek resim ayırt etme yarışmasında, yarışmacılar doğru sınıflandırmayı bulmak için binlerce algoritma denediler. Kazanan yarışmacı %98.914 oranla galip geldi.

Makine öğrenimi etiketli resimleri tanımlar ve bunun üzerinden bir model oluşturur ve sonuç olarak deneyimlerle öğrenen program etiketsiz resimleri de ayırt edebilir hale gelir.

Örnekte yanlış etiketlenmiş bir kedi vardır. Hatırlamak gerekir ki, burada kullanılan yöntem Makine Öğreniminin Supervised öğrenme şeklidir. Başka tür yöntemler de vardır

Dolandırıcılık tespiti, müşteri hedefi, ürün önerme, real- time endüstri gözetim, düşünce analizleri makine öğrenimi sayesinde yapılır.

Makine öğrenimi, bir nevi verilerin konuşturulup, algoritmalarla problemlere çözüm bulunmasıdır.

MAKİNE ÖĞRENİMİ TEKNİKLERİ

Sınıflandırma ( Classification) : Girilen verileri analiz eder ve onları ayırt eden özelliğe göre sınıflandırır.

Kullanıldığı Yerler: Mesajların spam olarak belirlenmesi, düşünce analizi, içeri kişiselleştirme, kusurlu malların elenmesi, ilaç etkileri

Günlük hayattan örnek: Çocuğunuz, kardeşiniz legolarla oynuyordur. Kare, yuvarlak, üçgen şekilde legolar vardır ve bunları kendi arasında şekline göre sınıflandırır. İşte bu sınıflandırmaya basit bir çerçeveden bakıştır.

Bahsettiğim mesajların spam olarak belirlenmesi vs. gibi olaylar için 10 binlerce veya milyonlarca veri gerekir ama ana mantık hep aynıdır.

Tahmin ( Regression): Girilen veriye göre, her bir outputu öngörmektir.

Kullanıldığı Yerler: Market stok tahmini, rağbet öngörüsü, fiyat tahmini, hava tahmini, maç sonuçları tahmini gibi...

Tavsiye ( Recommendation) : Kullanıcının hangi alternatifi seçeceğini tahmin etmedir.

Kullanıldığı Yerler: Ürün tavsiyesi, iş tavsiyesi, içerik tavsiyesi

Çıkarsama (Imputation) : Kaybolmuş verilerin değerini çıkarsamak

Kullanıldığı Yerler: Müşteri veri kayıpları, nufüs sayım kayıpları

Karar vermek için Veri Kullanılması

Küçük yatırımcılara şirket açmaları için fon sağlayan bir şirkette sorumlu olduğunuzu düşünün. Şirket, haftadan birkaç başvuru alıyor ve bütün bu başvuruları okumak ve kabul edip etmemek konusunda karar vereceksiniz. İşlem aşağıdaki şemada gösterilmiştir.

Başvuranlar sizin sağladığınız servisle mutlu, şirketiniz popüler oldukça, başvuran sayısı artıyor ve çok yakında haftalık olarak yüzlerce başvuru geliyor. İsteği karşılamak için işçi alıyor ve çalışma saatlerini artırıyorsunuz ama artan isteği karşılayamayınca beklemekten sıkılan insanlar, rakibinize başvuru yapmaya başlıyor.

Evet iş büyüdükçe daha çok işçi işe aldınız ama bu sizin için yeterli olmadı.

http://archive.ics.uci.edu/ml/datasets/Statlog+%28German+Credit+Data%29 linkine gidin.

Sitede göreceğiniz verilerden fark edilen,

7,500$ üzeri kredi kartı alanların çoğu geri ödeme yapmamış
Denetleme hesabı olmayan kişiler kredilerini zamanında ödediler.

7,500$ üzeri kredi isteklerini silmek istiyorsunuz , 86 kullanıcıdan 44' ü ödemede sorun oluşturdu yani yüksek mebla kredi kartlarının %51 i geri ödemedi ama fark ediyorsunuz ki kullanıcılarınızın %8.6 sı yüksek mebla da kredi kartı almıştı. Bu demek oluyor ki, sınıflandırma yapmak için daha sağlam bir temelli karşılaştırmaya ihtiyacınız var.

İkinci seçeneğe göre; denetleme hesabı olmayan herkesin başvurusunu kabul etmek istiyorsunuz. Denetleme hesabı olmayan kullanıcıların %88 i geri ödediği için bu yöntemi doğru buluyorsunuz.

Denetleme hesabı olmayan her kullanıcıyı kabul etmek, otomatik olarak kabul edilenler oranını %45 e getiriyor. Böylece sadece yeni başvuruları analiz etmeniz gerekir.

Makine öğreniminde veri eldeki problem hakkında öngörü oluşturmayı sağlar. Eski veriler analiz edilip, en uygun sonuç bulunur. Makine öğrenimini kredi veren bir şirkete uygulamak istiyorsanız, elinizde verileri kullanmalısınız. Input ve outcome şeklinde, verilen kredi ve hangi kullanıcıların geri ödeme yaptığı göz önünde bulundurulmalıdır.

Tarihi veri kullanılarak makine öğrenimi modeli oluşturulur. Yeni kredi kartı uygulamaları geldikçe, geri ödeme olasılık tahminleri verilerden elde edilmeye devam edilir.

Deneme setindeki örneklerin bulunması ile bir model oluşturulur. Modelleme kullanıcının verilerine bağlıdır.

Bir sonraki aşama ise bir Makine Öğrenimi algoritması seçmektir. İstatiksel iş modellemeleri outcome ve input arasında ki ilişkiyi açıklamak için denklemler kullanır

Kaynakça :https://www.manning.com/books/real-world-machine-learnings://www.manning.com/books/real-world-machine-learning