Alan AdıAlan KoduAltın RezervleriAnsiklopediBankaBilişim TeknolojileriBiyografiŞarj İstasyonuEczaneE-DevletExcelFaiz OranıFotoğrafçılıkİnternet HızıISO Kodlarıİşsizlik OranıLatinceNüfusÖnemli GünlerPosta KoduSözlükSurelerÜniversitelerDosya Uzantısı

Veri Madenciliği 101: Büyük Veriyi Analiz Etmeye Giriş

Veri madenciliği, makine öğrenimi, istatistik ve veri tabanı sistemlerinin kesiştiği yöntemleri içeren büyük veri kümelerindeki örüntüleri çıkarma ve keşfetme sürecidir. Veri madenciliği, bilgisayar bilimleri ve istatistiğin disiplinler arası bir alt alanı olup genel amacı bir veri setinden (akıllı yöntemlerle) bilgi çıkarmak ve bu bilgiyi daha sonra kullanılmak üzere anlaşılır bir yapıya dönüştürmektir. Veri madenciliği, “veri tabanlarında bilgi keşfi” veya KDD sürecinin analiz adımıdır. Ham analiz adımının yanı sıra, veritabanı ve veri yönetimi yönlerini, veri ön işlemeyi, model ve çıkarım hususlarını, ilginçlik ölçütlerini, karmaşıklık hususlarını, keşfedilen yapıların son işlemesini, görselleştirmeyi ve çevrimiçi güncellemeyi de içerir.

“Veri madenciliği” terimi yanlış bir isimlendirmedir, çünkü amaç verinin kendisinin çıkarılması (madenciliği) değil, büyük miktarda veriden örüntülerin ve bilginin çıkarılmasıdır. Aynı zamanda moda bir sözcüktür ve sıklıkla büyük ölçekli veri veya bilgi işlemenin (toplama, çıkarma, depolama, analiz ve istatistik) herhangi bir biçimine ve yapay zeka (örneğin makine öğrenimi) ve iş zekası dahil olmak üzere bilgisayar karar destek sisteminin herhangi bir uygulamasına uygulanır. Veri madenciliği kitabı: Practical machine learning tools and techniques with Java (çoğunlukla makine öğrenimi materyalini kapsar) kitabı aslında Practical machine learning olarak adlandırılacaktı ve veri madenciliği terimi yalnızca pazarlama nedenleriyle eklendi. Genellikle daha genel terimler olan (büyük ölçekli) veri analizi ve analitik ya da gerçek yöntemlere atıfta bulunurken yapay zeka ve makine öğrenimi daha uygundur.

Asıl veri madenciliği görevi, veri kayıt grupları (küme analizi), olağandışı kayıtlar (anormallik tespiti) ve bağımlılıklar (birliktelik kuralı madenciliği, sıralı örüntü madenciliği) gibi önceden bilinmeyen, ilginç örüntüleri çıkarmak için büyük miktarda verinin yarı otomatik veya otomatik analizidir. Bu genellikle uzamsal indeksler gibi veritabanı tekniklerinin kullanılmasını içerir. Bu örüntüler daha sonra girdi verilerinin bir tür özeti olarak görülebilir ve daha ileri analizlerde ya da örneğin makine öğrenimi ve tahmine dayalı analitikte kullanılabilir. Örneğin, veri madenciliği adımı verilerdeki birden fazla grubu tanımlayabilir ve bu gruplar daha sonra bir karar destek sistemi tarafından daha doğru tahmin sonuçları elde etmek için kullanılabilir. Ne veri toplama, ne veri hazırlama ne de sonuç yorumlama ve raporlama veri madenciliği adımının bir parçasıdır, ancak bunlar ek adımlar olarak genel KDD sürecine aittir.

Veri analizi ile veri madenciliği arasındaki fark, veri analizinin, veri miktarına bakılmaksızın bir pazarlama kampanyasının etkinliğini analiz etmek gibi veri kümesi üzerindeki modelleri ve hipotezleri test etmek için kullanılmasıdır. Buna karşılık veri madenciliği, büyük hacimli verilerdeki gizli veya saklı kalıpları ortaya çıkarmak için makine öğrenimi ve istatistiksel modeller kullanır.

İlgili veri tarama, veri balıkçılığı ve veri gözetleme terimleri, keşfedilen herhangi bir modelin geçerliliği hakkında güvenilir istatistiksel çıkarımlar yapmak için çok küçük olan (veya olabilecek) daha büyük bir popülasyon veri setinin parçalarını örneklemek için veri madenciliği yöntemlerinin kullanılmasını ifade eder. Ancak bu yöntemler, daha büyük veri popülasyonlarına karşı test edilecek yeni hipotezlerin oluşturulmasında kullanılabilir.

Etimoloji

1960’larda istatistikçiler ve ekonomistler, önsel bir hipotez olmaksızın verileri analiz etmenin kötü bir uygulama olduğunu düşündükleri şeylere atıfta bulunmak için veri balıkçılığı veya veri taraması gibi terimler kullandılar. “Veri madenciliği” terimi, 1983 yılında Review of Economic Studies’de yayınlanan bir makalede ekonomist Michael Lovell tarafından benzer şekilde eleştirel bir biçimde kullanılmıştır. Lovell, bu uygulamanın “deneyden” (olumlu) “balık tutmaya” veya “gözetlemeye” (olumsuz) kadar çeşitli takma adlar altında gizlendiğini” belirtmektedir.

Veri madenciliği terimi, veritabanı topluluğunda genellikle olumlu çağrışımlarla 1990 civarında ortaya çıkmıştır. 1980’lerde kısa bir süre için “veritabanı madenciliği”™ ifadesi kullanıldı, ancak San Diego merkezli bir şirket olan HNC tarafından Veritabanı Madenciliği İş İstasyonunu tanıtmak için ticari marka haline getirildiğinden; araştırmacılar sonuç olarak veri madenciliğine yöneldi. Kullanılan diğer terimler arasında veri arkeolojisi, bilgi toplama, bilgi keşfi, bilgi çıkarımı vb. yer almaktadır. Gregory Piatetsky-Shapiro, aynı konudaki ilk çalıştay (KDD-1989) için “veritabanlarında bilgi keşfi” terimini ortaya attı ve bu terim yapay zeka ve makine öğrenimi topluluğunda daha popüler hale geldi. Bununla birlikte, veri madenciliği terimi iş dünyası ve basın topluluklarında daha popüler hale gelmiştir. Günümüzde veri madenciliği ve bilgi keşfi terimleri birbirlerinin yerine kullanılmaktadır.

Akademik camiada, araştırma için önemli forumlar 1995 yılında AAAI sponsorluğunda Montreal’de Birinci Uluslararası Veri Madenciliği ve Bilgi Keşfi Konferansı’nın (KDD-95) başlatılmasıyla başlamıştır. Konferansın eş başkanlığını Usama Fayyad ve Ramasamy Uthurusamy üstlenmiştir. Bir yıl sonra, 1996’da Usama Fayyad, Kluwer tarafından Data Mining and Knowledge Discovery adlı dergiyi kurucu genel yayın yönetmeni olarak başlattı. Daha sonra SIGKDD Newsletter SIGKDD Explorations’ı başlattı. Uluslararası KDD konferansı, %18’in altındaki araştırma makalesi kabul oranıyla veri madenciliği alanındaki en kaliteli konferans haline geldi. Data Mining and Knowledge Discovery dergisi alanın başlıca araştırma dergisidir.

Arka Plan

Verilerden örüntülerin manuel olarak çıkarılması yüzyıllardır gerçekleşmektedir. Verilerdeki örüntüleri tanımlamanın ilk yöntemleri arasında Bayes teoremi (1700’ler) ve regresyon analizi (1800’ler) bulunmaktadır. Bilgisayar teknolojisinin yaygınlaşması, her yerde bulunması ve artan gücü, veri toplama, depolama ve manipülasyon kabiliyetini önemli ölçüde artırmıştır. Veri setlerinin boyutu ve karmaşıklığı arttıkça, doğrudan “uygulamalı” veri analizi, bilgisayar bilimindeki diğer keşiflerin, özellikle de sinir ağları, küme analizi, genetik algoritmalar (1950’ler), karar ağaçları ve karar kuralları (1960’lar) ve destek vektör makineleri (1990’lar) gibi makine öğrenimi alanındaki keşiflerin yardımıyla dolaylı, otomatik veri işleme ile giderek artmıştır. Veri madenciliği, büyük veri setlerindeki gizli örüntüleri ortaya çıkarmak amacıyla bu yöntemlerin uygulanması sürecidir. Gerçek öğrenme ve keşif algoritmalarını daha verimli bir şekilde yürütmek için verilerin veritabanlarında depolanma ve indekslenme şeklinden yararlanarak uygulamalı istatistik ve yapay zekadan (genellikle matematiksel arka planı sağlayan) veritabanı yönetimine kadar olan boşluğu doldurur ve bu tür yöntemlerin giderek daha büyük veri kümelerine uygulanmasına olanak tanır.

Süreç

Veri tabanlarında bilgi keşfi (KDD) süreci genel olarak şu aşamalarla tanımlanır:

  1. Seçim
  2. Ön işleme
  3. Dönüşüm
  4. Veri madenciliği
  5. Yorumlama/değerlendirme.

Bununla birlikte, altı aşama tanımlayan veri madenciliği için sektörler arası standart süreç (CRISP-DM) gibi bu temanın birçok varyasyonu mevcuttur:

  1. İş anlayışı
  2. Veri anlayışı
  3. Veri hazırlama
  4. Modelleme
  5. Değerlendirme
  6. Dağıtım

veya (1) Ön İşleme, (2) Veri Madenciliği ve (3) Sonuç Doğrulama gibi basitleştirilmiş bir süreç.

2002, 2004, 2007 ve 2014 yıllarında yapılan anketler, CRISP-DM metodolojisinin veri madencileri tarafından kullanılan önde gelen metodoloji olduğunu göstermektedir. Bu anketlerde adı geçen diğer tek veri madenciliği standardı SEMMA’dır. Ancak, bunun 3-4 katı kadar kişi CRISP-DM kullandığını bildirmiştir. Birçok araştırmacı ekibi veri madenciliği süreç modellerine ilişkin incelemeler yayınlamıştır ve Azevedo ve Santos 2008 yılında CRISP-DM ve SEMMA’nın bir karşılaştırmasını yapmıştır.

Ön İşleme

Veri madenciliği algoritmalarının kullanılabilmesi için önce bir hedef veri setinin oluşturulması gerekir. Veri madenciliği yalnızca verilerde gerçekten mevcut olan kalıpları ortaya çıkarabileceğinden, hedef veri seti bu kalıpları içerecek kadar büyük olmalı ve aynı zamanda kabul edilebilir bir zaman sınırı içinde çıkarılabilecek kadar kısa olmalıdır. Veriler için yaygın bir kaynak, bir veri martı veya veri ambarıdır. Veri madenciliğinden önce çok değişkenli veri setlerini analiz etmek için ön işleme gereklidir. Hedef set daha sonra temizlenir. Veri temizleme, gürültü içeren gözlemleri ve eksik verileri ortadan kaldırır.

Veri Madenciliği

Veri madenciliği altı yaygın görev sınıfını içerir:

  • Anomali tespiti (aykırı değer/değişim/sapma tespiti) – İlginç olabilecek olağandışı veri kayıtlarının veya daha fazla araştırma gerektiren veri hatalarının belirlenmesi.
  • Birliktelik kuralı öğrenimi (bağımlılık modellemesi) – Değişkenler arasındaki ilişkileri araştırır. Örneğin, bir süpermarket müşterilerin satın alma alışkanlıkları hakkında veri toplayabilir. Birliktelik kuralı öğrenimini kullanarak, süpermarket hangi ürünlerin sıklıkla birlikte satın alındığını belirleyebilir ve bu bilgileri pazarlama amacıyla kullanabilir. Bu bazen pazar sepeti analizi olarak da adlandırılır.
  • Kümeleme – verilerdeki bilinen yapıları kullanmadan, bir şekilde “benzer” olan grupları ve yapıları keşfetme görevidir.
  • Sınıflandırma – yeni verilere uygulamak için bilinen yapıyı genelleştirme görevidir. Örneğin, bir e-posta programı bir e-postayı “yasal” veya “spam” olarak sınıflandırmaya çalışabilir.
  • Regresyon – veri veya veri kümeleri arasındaki ilişkileri tahmin etmek için verileri en az hata ile modelleyen bir fonksiyon bulmaya çalışır.
  • Özetleme – görselleştirme ve rapor oluşturma dahil olmak üzere veri setinin daha kompakt bir temsilini sağlar.

Sonuç Doğrulama

Veri madenciliği, önemli gibi görünen ancak aslında gelecekteki davranışı tahmin etmeyen ve yeni bir veri örneği üzerinde yeniden üretilemeyen, dolayısıyla çok az faydası olan sonuçlar üreterek istemeden kötüye kullanılabilir. Bu durum bazen çok fazla hipotezin araştırılmasından ve uygun istatistiksel hipotez testlerinin yapılmamasından kaynaklanır. Makine öğreniminde bu sorunun basit bir versiyonu aşırı uyum olarak bilinir, ancak aynı sorun sürecin farklı aşamalarında ortaya çıkabilir ve bu nedenle bir eğitim / test ayrımı – uygulanabilir olduğunda – bunun olmasını önlemek için yeterli olmayabilir.

Verilerden bilgi keşfinin son adımı, veri madenciliği algoritmaları tarafından üretilen örüntülerin daha geniş veri setinde meydana geldiğini doğrulamaktır. Algoritmalar tarafından bulunan tüm örüntülerin geçerli olması gerekmez. Veri madenciliği algoritmalarının eğitim setinde genel veri setinde bulunmayan örüntüler bulması yaygın bir durumdur. Buna aşırı uyum denir. Bunun üstesinden gelmek için, değerlendirmede veri madenciliği algoritmasının eğitilmediği bir test veri kümesi kullanılır. Öğrenilen örüntüler bu test setine uygulanır ve elde edilen çıktı istenen çıktı ile karşılaştırılır. Örneğin, “spam” e-postaları “yasal” e-postalardan ayırt etmeye çalışan bir veri madenciliği algoritması, örnek e-postalardan oluşan bir eğitim kümesi üzerinde eğitilir. Eğitildikten sonra, öğrenilen kalıplar, üzerinde eğitilmediği e-postalardan oluşan test kümesine uygulanır. Kalıpların doğruluğu daha sonra kaç e-postayı doğru sınıflandırdıklarıyla ölçülebilir. Algoritmayı değerlendirmek için ROC eğrileri gibi çeşitli istatistiksel yöntemler kullanılabilir.

Öğrenilen örüntüler istenen standartları karşılamıyorsa, ön işleme ve veri madenciliği adımlarını yeniden değerlendirmek ve değiştirmek gerekir. Öğrenilen örüntüler istenen standartları karşılıyorsa, son adım öğrenilen örüntüleri yorumlamak ve bilgiye dönüştürmektir.

Araştırma

Bu alanda önde gelen profesyonel kuruluş Association for Computing Machinery’nin (ACM) Bilgi Keşfi ve Veri Madenciliği (SIGKDD) Özel İlgi Grubu’dur (SIG). Bu ACM SIG, 1989’dan beri yıllık bir uluslararası konferansa ev sahipliği yapmakta ve bildirilerini yayınlamaktadır. 1999’dan beri de yılda iki kez “SIGKDD Explorations” başlıklı bir akademik dergi yayınlamaktadır.

Veri madenciliği üzerine bilgisayar bilimleri konferansları şunları içerir:

  • CIKM Konferansı – ACM Bilgi ve Bilgi Yönetimi Konferansı
  • Avrupa Makine Öğrenimi Konferansı ve Veritabanlarında Bilgi Keşfi İlkeleri ve Uygulamaları
  • KDD Konferansı – ACM SIGKDD Bilgi Keşfi ve Veri Madenciliği Konferansı

Veri madenciliği konuları ICDE Konferansı, SIGMOD Konferansı ve International Conference on Very Large Data Bases gibi birçok veri yönetimi/veritabanı konferansında da yer almaktadır.

Standartlar

Veri madenciliği süreci için standartlar tanımlamaya yönelik bazı çabalar olmuştur, örneğin 1999 Avrupa Çapraz Endüstri Veri Madenciliği Standart Süreci (CRISP-DM 1.0) ve 2004 Java Veri Madenciliği standardı (JDM 1.0). Bu süreçlerin halefleri (CRISP-DM 2.0 ve JDM 2.0) üzerindeki geliştirme 2006 yılında aktifti ancak o zamandan beri durdu. JDM 2.0 nihai bir taslağa ulaşamadan geri çekilmiştir.

Çıkarılan modellerin değiş tokuşu için – özellikle tahmine dayalı analitikte kullanılmak üzere – temel standart, Veri Madenciliği Grubu (DMG) tarafından geliştirilen ve birçok veri madenciliği uygulaması tarafından değişim formatı olarak desteklenen XML tabanlı bir dil olan Tahmine Dayalı Model İşaretleme Dili’dir (PMML). Adından da anlaşılacağı üzere, yalnızca iş uygulamaları için yüksek öneme sahip belirli bir veri madenciliği görevi olan tahmin modellerini kapsamaktadır. Bununla birlikte, (örneğin) alt uzay kümelemesini kapsayacak uzantılar DMG’den bağımsız olarak önerilmiştir.

Gizlilik Endişeleri ve Etik

“Veri madenciliği” teriminin kendisi etik açıdan bir anlam ifade etmese de, genellikle kullanıcı davranışıyla (etik veya başka türlü) ilgili bilgi madenciliğiyle ilişkilendirilir.

Veri madenciliğinin kullanım şekilleri bazı durumlarda ve bağlamlarda mahremiyet, yasallık ve etikle ilgili soruları gündeme getirebilir. Özellikle, Toplam Bilgi Farkındalığı Programı veya ADVISE’de olduğu gibi ulusal güvenlik veya kolluk kuvvetleri amaçları için devlete ait veya ticari veri setlerinin veri madenciliğine tabi tutulması gizlilikle ilgili endişelere yol açmıştır.

Veri madenciliği, gizlilik ve mahremiyet yükümlülüklerini tehlikeye atan bilgi veya kalıpları ortaya çıkaran veri hazırlığı gerektirir. Bunun gerçekleşmesi için yaygın bir yol veri toplamadır. Veri birleştirme, verilerin (muhtemelen çeşitli kaynaklardan) analizi kolaylaştıracak şekilde bir araya getirilmesini içerir (ancak bu aynı zamanda özel, bireysel düzeydeki verilerin tanımlanmasını çıkarılabilir veya başka bir şekilde belirgin hale getirebilir). Bu kendi başına veri madenciliği değil, analizden önce ve analiz amacıyla verilerin hazırlanmasının bir sonucudur. Bir bireyin mahremiyetine yönelik tehdit, veriler derlendikten sonra veri madencisinin veya yeni derlenen veri setine erişimi olan herhangi birinin, özellikle de veriler başlangıçta anonim olduğunda, belirli bireyleri tanımlayabilmesine neden olduğunda devreye girer.

Veriler toplanmadan önce aşağıdakilerin farkında olunması tavsiye edilir:

  • Veri toplamanın amacı ve varsa (bilinen) veri madenciliği projeleri.
  • Verilerin nasıl kullanılacağı.
  • Kimlerin veri madenciliği yapabileceği ve verileri ve türevlerini kullanabileceği.
  • Verilere erişimi çevreleyen güvenlik durumu.
  • Toplanan verilerin nasıl güncellenebileceği.

Veriler anonim hale gelecek şekilde de değiştirilebilir, böylece bireylerin kimlikleri kolayca tespit edilemeyebilir. Ancak, gazetecilerin AOL tarafından yanlışlıkla yayınlanan bir dizi arama geçmişine dayanarak birkaç kişiyi bulabilmelerinde olduğu gibi, “anonimleştirilmiş” veri setleri bile potansiyel olarak bireylerin tanımlanmasına izin verecek kadar bilgi içerebilir.

Kişisel olarak tanımlanabilir bilgilerin yanlışlıkla ifşa edilmesi, sağlayıcıya yol açarak Adil Bilgi Uygulamalarını ihlal eder. Bu patavatsızlık, belirtilen kişiye mali, duygusal veya bedensel zarar verebilir. Bir gizlilik ihlali örneğinde, Walgreens müşterileri 2011 yılında reçete bilgilerini veri madenciliği şirketlerine sattığı ve bu şirketlerin de verileri ilaç şirketlerine sağladığı gerekçesiyle şirket aleyhine dava açmıştır.

Avrupa’daki Durum

Avrupa oldukça güçlü gizlilik yasalarına sahiptir ve tüketicilerin haklarını daha da güçlendirmek için çalışmalar devam etmektedir. Ancak 1998-2000 yılları arasında geliştirilen ABD-AB Güvenli Liman İlkeleri, şu anda Avrupalı kullanıcıları ABD şirketleri tarafından gizlilik istismarına maruz bırakmaktadır. Edward Snowden’in küresel gözetim ifşaatının bir sonucu olarak, özellikle verilerin Ulusal Güvenlik Ajansına tamamen açık hale geleceği için bu anlaşmanın iptal edilmesine yönelik tartışmalar artmış ve ABD ile bir anlaşmaya varma girişimleri başarısız olmuştur.

Özellikle Birleşik Krallık’ta şirketlerin veri madenciliğini belirli müşteri gruplarını hedef alarak haksız yere yüksek fiyatlar ödemeye zorlamak için kullandıkları vakalar olmuştur. Bu gruplar genellikle düşük sosyo-ekonomik statüye sahip ve dijital pazar yerlerinde istismar edilebileceklerinin farkında olmayan kişilerdir.

Amerika Birleşik Devletleri’nde Durum

Amerika Birleşik Devletleri’nde gizlilikle ilgili endişeler, ABD Kongresi tarafından Sağlık Sigortası Taşınabilirlik ve Sorumluluk Yasası (HIPAA) gibi düzenleyici kontrollerin kabul edilmesi yoluyla ele alınmıştır. HIPAA, bireylerin sağladıkları bilgiler ve bunların mevcut ve gelecekteki kullanım amaçları konusunda “bilgilendirilmiş onay” vermelerini gerektirmektedir. Biotech Business Week’te yer alan bir makaleye göre, AAHC, “[i]pratikte, HIPAA araştırma alanında uzun süredir devam eden düzenlemelerden daha fazla koruma sağlamayabilir” diyor. Daha da önemlisi, kuralın bilgilendirilmiş onam yoluyla koruma hedefi, ortalama bireyler için anlaşılmaz bir düzeye yaklaşıyor.” Bu durum, veri toplama ve madencilik uygulamalarında veri anonimliğinin gerekliliğinin altını çizmektedir.

HIPAA ve Aile Eğitim Hakları ve Gizlilik Yasası (FERPA) gibi ABD bilgi gizliliği mevzuatı yalnızca bu tür yasaların ele aldığı belirli alanlar için geçerlidir. ABD’deki işletmelerin çoğunluğu tarafından veri madenciliğinin kullanımı herhangi bir mevzuat tarafından kontrol edilmemektedir.

Telif Hakkı Yasası

Avrupa’daki Durum

Avrupa telif hakkı ve veritabanı yasaları kapsamında, telif hakkı sahibinin izni olmadan telif hakkı olan eserlerin (web madenciliği gibi) madenciliği yasal değildir. Avrupa’da bir veritabanının saf veri olduğu durumlarda, telif hakkı olmayabilir ancak veritabanı hakları mevcut olabilir, bu nedenle veri madenciliği, Veritabanı Direktifi tarafından korunan fikri mülkiyet sahiplerinin haklarına tabi olur. Hargreaves incelemesinin tavsiyesi üzerine, bu durum Birleşik Krallık hükümetinin 2014 yılında telif hakkı yasasını içerik madenciliğine bir sınırlama ve istisna olarak izin verecek şekilde değiştirmesine yol açtı. Birleşik Krallık, 2009 yılında veri madenciliği için bir istisna getiren Japonya’dan sonra dünyada bunu yapan ikinci ülke oldu. Bununla birlikte, Bilgi Toplumu Direktifi’nin (2001) kısıtlaması nedeniyle, Birleşik Krallık istisnası yalnızca ticari olmayan amaçlarla içerik madenciliğine izin vermektedir. Birleşik Krallık telif hakkı yasası da bu hükmün sözleşme hüküm ve koşulları tarafından geçersiz kılınmasına izin vermemektedir. İsviçre de 2020 yılından bu yana veri madenciliğini, İsviçre Telif Hakları Kanunu’nun 24d maddesinde belirtilen belirli koşullar altında araştırma alanında izin vererek düzenlemektedir. İsviçre Telif Hakkı Kanunu’nun 24d maddesi. Bu yeni madde 1 Nisan 2020 tarihinde yürürlüğe girmiştir.

Avrupa Komisyonu, 2013 yılında Avrupa için Lisanslar başlığı altında metin ve veri madenciliğine ilişkin paydaş tartışmalarını kolaylaştırmıştır. Sınırlamalar ve istisnalardan ziyade lisanslama gibi bu yasal sorunun çözümüne odaklanılması, üniversiteler, araştırmacılar, kütüphaneler, sivil toplum grupları ve açık erişim yayıncılarının temsilcilerinin Mayıs 2013’te paydaş diyaloğundan ayrılmasına neden oldu.

Amerika Birleşik Devletleri’nde Durum

ABD telif hakkı yasası ve özellikle adil kullanım hükmü, Amerika’da ve İsrail, Tayvan ve Güney Kore gibi diğer adil kullanım ülkelerinde içerik madenciliğinin yasallığını desteklemektedir. İçerik madenciliği dönüştürücü olduğundan, yani orijinal eserin yerini almadığından, adil kullanım kapsamında yasal olarak görülmektedir. Örneğin, Google Book anlaşmasının bir parçası olarak, davaya bakan yargıç, Google’ın telif hakkı saklı kitapları dijitalleştirme projesinin, kısmen dijitalleştirme projesinin sergilediği dönüştürücü kullanımlar (metin ve veri madenciliği) nedeniyle yasal olduğuna karar vermiştir.

Yazılım

Ücretsiz Açık Kaynaklı Veri Madenciliği Yazılımı ve Uygulamaları

Aşağıdaki uygulamalar ücretsiz/açık kaynak lisansları altında mevcuttur. Uygulama kaynak koduna halka açık erişim de mevcuttur.

  • Carrot2: Metin ve arama sonuçları kümeleme çerçevesi.
  • Chemicalize.org: Bir kimyasal yapı madencisi ve web arama motoru.
  • ELKI: Java dilinde yazılmış gelişmiş küme analizi ve aykırı değer algılama yöntemlerine sahip bir üniversite araştırma projesi.
  • GATE: Bir doğal dil işleme ve dil mühendisliği aracı.
  • KNIME: Kullanıcı dostu ve kapsamlı bir veri analizi çerçevesi olan Konstanz Information Miner.
  • Massive Online Analysis (MOA): Java programlama dilinde kavram sürükleme aracı ile gerçek zamanlı bir büyük veri akışı madenciliği.
  • MEPX: Genetik Programlama varyantına dayalı regresyon ve sınıflandırma problemleri için platformlar arası bir araç.
  • mlpack: C++ dilinde yazılmış kullanıma hazır makine öğrenimi algoritmaları koleksiyonu.
  • NLTK (Doğal Dil Araç Seti): Python dili için sembolik ve istatistiksel doğal dil işleme (NLP) için bir dizi kütüphane ve program.
  • OpenNN: Açık sinir ağları kütüphanesi.
  • Orange: Python dilinde yazılmış bileşen tabanlı bir veri madenciliği ve makine öğrenimi yazılım paketi.
  • PSPP: GNU Projesi kapsamında SPSS’e benzer veri madenciliği ve istatistik yazılımı
  • R: İstatistiksel hesaplama, veri madenciliği ve grafikler için bir programlama dili ve yazılım ortamı. GNU Projesi’nin bir parçasıdır.
  • scikit-learn: Python programlama dili için açık kaynaklı bir makine öğrenimi kütüphanesi;
  • Torch: Lua programlama dili için açık kaynaklı bir derin öğrenme kütüphanesi ve makine öğrenimi algoritmaları için geniş desteğe sahip bilimsel bilgi işlem çerçevesi.
  • UIMA: UIMA (Yapılandırılmamış Bilgi Yönetimi Mimarisi), orijinal olarak IBM tarafından geliştirilen metin, ses ve video gibi yapılandırılmamış içeriği analiz etmek için bir bileşen çerçevesidir.
  • Weka: Java programlama dilinde yazılmış bir makine öğrenimi yazılım uygulamaları paketi.

Tescilli Veri Madenciliği Yazılım ve Uygulamaları

Aşağıdaki uygulamalar tescilli lisanslar altında mevcuttur.

  • Angoss KnowledgeSTUDIO: veri madenciliği aracı
  • LIONsolver: Learning and Intelligent OptimizatioN (LION) yaklaşımını uygulayan veri madenciliği, iş zekası ve modelleme için entegre bir yazılım uygulaması.
  • PolyAnalyst: Megaputer Intelligence tarafından sağlanan veri ve metin madenciliği yazılımı.
  • Microsoft Analysis Services: Microsoft tarafından sağlanan veri madenciliği yazılımı.
  • NetOwl: veri madenciliği sağlayan çok dilli metin ve varlık analitiği ürünleri paketi.
  • Oracle Data Mining: Oracle Corporation tarafından sağlanan veri madenciliği yazılımı.
  • PSeven: DATADVANCE tarafından sağlanan mühendislik simülasyonu ve analizi, çok disiplinli optimizasyon ve veri madenciliğinin otomasyonu için platform.
  • Qlucore Omics Explorer: veri madenciliği yazılımı.
  • RapidMiner: Makine öğrenimi ve veri madenciliği deneyleri için bir ortam.
  • SAS Enterprise Miner: SAS Institute tarafından sağlanan veri madenciliği yazılımı.
  • SPSS Modeler: IBM tarafından sağlanan veri madenciliği yazılımı.
  • STATISTICA Data Miner: StatSoft tarafından sağlanan veri madenciliği yazılımı.
  • Tanagra: Görselleştirme odaklı veri madenciliği yazılımı, ayrıca öğretim için.
  • Vertica: Hewlett-Packard tarafından sağlanan veri madenciliği yazılımı.
  • Google Cloud Platform: Google tarafından yönetilen otomatikleştirilmiş özel makine öğrenimi modelleri.
  • Amazon SageMaker: Özel makine öğrenimi modelleri oluşturmak ve üretmek için Amazon tarafından sağlanan yönetilen hizmet.

Yorum yapın