Veri Bilimi & Veri Manipülasyonu

Yayın tarihi :23-Kas-21

1. Veri Bilimi Nedir?

Veri bilimi, çalışma ve/veya projelerde kullanılmak istenilen girdilerin anlamlarını meydana çıkartmak ve çıkan sonuçları açıklamak için birçok bilimsel yöntemin birleştiricisi olarak ifade edilebilen, oldukça geniş kapsamlı çok disiplinli bir çalışma alanı olarak tanımlanabilir. Genel olarak bu bilimsel yöntemler, bilgisayar bilimi, matematik ve istatistik alanının birleşiminden oluşmaktadır. Günümüzde teknolojik imkanların gelişimine bağlı olarak, bu imkanlar dahilinde ihtiyaçların karşılanması için geniş çaplı çalışmalar yapılmaktadır. Bu çalışmaların başarılı bir şekilde yönetilebilinmesi için, başarı artışına pozitif bir ivme kazandıracak oldukça kapsamlı verilerin toplanması gerekmektedir. Veri bilimi ise tam da bu noktada, daha başarılı sonuçlar elde etmek için toplanan verilerin(ve/veya girdilerin) bilimsel yöntemler kullanılarak anlaşılabilir bir forma dönüştürülmesini sağlamaktadır. Bu bilgilerden hareketle, daha basit ifadeyle veri bilimi; kullanılacak verilerin bilimsel yöntemler çerçevesinde analizlemelerini ve kullanıma hazırlanmalarını sağlamaktadır.

Veri bilimi çalışma alanında, yukarıda ifade edilen durumlar temel olarak veri hazırlama süreci olarak adlandırılabilir. Bu süreç ise geniş bir tanımla; çalışmalarda ve/veya projelerde kullanılacak kaynak verilerin projeye özgül toplanması, ayıklanması ve yönlendirilmesi(manüpilasyon) olarak ifade edilebilir. Bu süreçte genel olarak belirli algoritmalarla geliştirilmiş yazılımlar sayesinde geniş çaplı yönlendirmeli tahminsel analizlemeler yapılmaktadır. Bu analizlemeler sonucunda meydana gelen tahminsel çıktılar, bilimsel doğruluk açısından özel olarak geliştirilmiş testlerle ve deneylerle kontrol edilmektedir. Tüm sürecin başarılı bir şekilde yönetilmesinin akabinde meydana gelen sonuçlar, çalışma yapacak bireyin oldukça kolay anlayabileceği şekilde veri görselleştirme yöntemleri kullanılarak paylaşıma sunulmaktadır. Sonuç olarak veri bilimi, farklı bilimsel yöntemler kullanılarak verilerin hazırlanmasını sağlayan bir çalışma alanıdır ve bu alanda görev yapan kişiler veri bilimcileri olarak adlandırılmaktadır.

1.1 Veri Bilimcileri Nedir?

Veri bilimciler, veri bilimi alanında oldukça geniş kapsamlı çalışmalar yapan, yani daha önceden hazırlanmış veya hazırlanmamış olan oldukça büyük hacimlerdeki veri kümelerinin toplanmasında ve analizlenmelerinde görev yapan deneyimli ve donanımlı kişilerdir. Evrensel olarak veri bilimcilerinin temel çalışma prensibi bilgisayar teknolojileri, matematik ve istatistiğin birbirlerine entegrasyonunu sağlamak olarak ifade edilmektedir. Bahsedilen bu alanlarda yeterli düzeyde hakimiyete sahip veri bilimcileri, elde edilmiş olan verilerin analizlemelerini gerçekleştirir, verileri işler, işleme sonucunu modeller ve oluşturulan çıktılar üzerinden yorumlamalar yapmaktadırlar. Bu çalışma sürecinin ardından spesifik uygunluğa göre oluşturulan ve modellenen veriler şirketler, kuruluşlar veya bireylerin kullanımına hazır hale getirilmektedir.

Bahsedildiği üzere veri bilimcilerinin çalışma alanları oldukça geniş kapsamlıdır. Kapsam alanının geniş olmasıyla doğru orantılı olarak veri bilimcilerinin bazı temel yaklaşımlara ve yeteneklere sahip olmaları gerekmektedir. Yani, veri bilimcileri verileri toplamak, analiz etmek ve yönetmek için belirli teknolojik yöntemlere ve sosyal becerilere oldukça yeterli düzeyde hakim olması gerekmektedir. Çünkü veri bilimcileri en basit tabiriyle analitik(çözümsel) uzmanlardır. Bu bağlamda bir veri bilimci;

  • Bilgisayar teknolojileri, matematik ve istatistik alanlarında,
  • Farklı programlama dillerinin( Örn; C#, Python, Java vb.) tekniklerine ve yöntemlerine,
  • Yapay zeka kapsamı altında derin öğrenme veya makine öğrenmesi yöntemlerine,
  • Verilerin işlenme prosedürlerine ve yönlendirmelerine,
  • Yorumlama ve karar verme yeteneklerine,
  • Üst düzey analitik düşünceye,
  • Sosyal becerilere,

oldukça yeterli düzeylerde hakimiyeti olması gerekmektedir(bu alanlar başarılı sonuçlar için artırılabilir). Yukarıda maddelendirilen becerilere sahip veri bilimcileri, veri bilimi çalışma alanında oldukça başarılı ve etkili sonuçların meydana çıkmasını sağlamaktadır. Bu becelerilere olan hakimiyet derecesinin artışına göre karmaşık bir şekilde bulunan verilerin işlenmesi oldukça kolay olmakla birlikte, veri bilimcisinin iş kariyerinde de ciddi ilerleyişler meydana gelmektedir. Kısaca veri bilimcilerini birbirlerinden ayıran en büyük ve bir adım öne geçirecek farklılık, yukarıda verilen maddelerdeki becerilerinin hakimiyeti olarak ifade edilebilir. Bu maddeler baz alınarak veri bilimcisinin başarı oranını biraz daha özelleştirmek gerekirse, bahsedilen birçok teknik becerinin hemen hemen her veri bilimcisinde bulunduğu söylenebilir. Ancak, profesyonel analitik düşünme becerisi her veri bilimcisinde bulunmamaktadır. Bu bağlamda herhangi bir veri bilimcisinin profesyonel düzeyde analitik düşünme becerisine sahip olması, rakiplerinden her zaman bir adım öne geçmesine olanak sağlamaktadır.

1.2 Veri Bilimcisi Nasıl Olunur?

Herhangi bir bireyin veri bilimcisi olabilmesi için temel olarak yukarıda bahsedilen becerilere hakim olması gerekmektedir. Ayrıca, veri bilimcisi olmak için yaş, cinsiyet gibi kriterlerin bir önemi yoktur. Genel olarak veri bilimcisi olmanın temel basamaklarına bakılacak olunursa;

  • Veri bilimi alanında veya bu alana yakın bir alanda lisans eğitimi almak,
  • Teknolojik imkanların kullanımı ve bazı sosyal becerilerde uzmanlaşmak,
  • Spesifik olarak konuyla alakalı bir alanda uzmanlaşmak,
  • Veri bilimi alanında lisans üstü eğitim almak,
  • Veri bilimi alanında ek gelişim kursları ve sertifikaları almak,
  • Bu alanda tecrübe amaçlı bir iş almak,

herhangi bir bireyin veri bilimcisi olma yolunda temel adımlar olarak nitelendirilebilir. Bu temel adımlar sırasıyla yapılabileceği gibi, sadece bazılarınında yapılması bireylerin veri bilimcisi olmasını sağlamaktadır. Örneğin; veri bilimi alanıyla bir ilişkisi bulunmayan bir lisans eğitimi almanız veri bilimcisi olmayacağınız anlamına gelmemektedir. Veya, herhangi bir lisans eğitimi almadanda veri bilimcisi olabilirsiniz.

Peki bu durumlarda nasıl bir yol izlenebilir?

Örneğin; herhangi bir eğitiminiz olmasa bile, veri bilimi alanında ücretli veya ücretsiz kurslardan faydalanabilir ve sertifika alabilirsiniz. Başarılı bir kurs sürecinin ardından uzman bir veri bilimcisi olmak için bilgisayar teknolojileri, matematik, istatistik veya sosyal beceri alanlarında kendinizi geliştirebilir ve uzmanlık kazanabilirsiniz. 

1.3 Veri Bilimcisinin Sorumlukları

Günümüzde en basit yapılan işten en ağır işe kadar çalışanların bir sorumluluğu olduğu bilinmektedir. Bu bağlamda veri bilimcilerinin çalışmalarınında başarılı olabilmesi için sahip olması gereken bazı sorumluluklar bulunmaktadır. Örneğin veri bilimcileri;

  • Çalışma yapılacak alanlarda meydana gelebilecek sorunları hızlı ve etkili bir şekilde çözmek,
  • Geniş hacimli ve karmaşık bir formda bulunan verilerin ayıklanması,
  • Bazı rogramlama dillerini kullanarak verilerin analiz etmek,
  • Bilgisayar bilimi, matematik ve istatistik alanları araçlarını kullanarak veri toplama, ayıklama ve modelleme yapabilmek,
  • Karmaşık bir formda bulunan veriler üzerinde detaylı çalışmalar yaparak gereksiz verileri tamamen temizleyerek kullanıma uygun hale getirmek,
  • Toplanan verilerde herhangi bir eksiklik tespit edildiğinde meydana gelebilecek olumsuzluklarlı engellemek için müdehale yapmak,
  • Meydana gelebilecek sorunları çözmek ve tekrar etmemesi için yeni algoritmalar geliştirmek,
  • Meydana gelen sonuçları üst düzey bir analitik beceri yeteneğiyle tahmin edebilmek,
  • Çalışmaların durumunu ve maliyetini gözeterek en uygun stratejiyi geliştirmek,

gibi bazı sorumluklara sahiptir. Bu maddeler en basit düzeyde sorumluluklar olarak ifade edilebilir. Herhangi bir veri bilimcinin çalışma alanının değişimi veya yeteneklerinin gelişimine bağlı olarak sorumluluklarda farklılaşmalar meydana gelmektedir. Bu durum genel olarak veri bilimcisinin şirkette, kuruluşta ve/veya kendi işindeki konumuna ve kendi yeteneğine bağlıdır. Örneğin; x şirketinde çalışmaya başlayan veri bilimcisi ilk olarak veri toplama çalışmaları yapabilir ve bu çalışma alanına göre sorumlukları vardır. Ancak, deneyim kazandıkça ve şirketteki konumu yükseldikçe proje üretimi alanında çalışmalar yapabilir. Bu durumda ise yeni sorumluluklara tabi olacaktır.

1.4 Başarılı Veri Bilimcisi Nasıl Olunur?

Başarılı bir veri bilimci olabilmek yukarıda bahsedildiği üzere birçok farklı kriterden geçmektedir. Ancak, veri bilimi alanında temel başarı tetikleyici analatik düşünme olarak ifade edilebilir. Herhangi bir veri bilimcisinin bu yeteneğe sahip olması çözümlerin kısa zamanda ve etkili bir şekilde gerçekleşmesine neden olmaktadır. Bununla birlikte çalışmalarında üst düzey bir ciddiyet, titizlik, azim, cesaret, etkili iletişim ve yaratıcılık veri bilimcilerinin başarısını ciddi oranlarda artırmaktadır. Yani, hemen hemen her veri bilimci birçok programlama dilinde, bilgisayar teknolojilerinde, matematik ve istatistik alanında başarılıdırlar. Ancak her bilimci üst düzey ciddiyete, titizliğe, azme, cesarete, etkili iletişime veya yaratıcılığa sahip değildir. Daha önceden bahsedildiği üzere, veri bilimcilerini birbirlerinden ayıran temel farklılık bu özellikler olarak ifade edilebilir. 

Sonuç olarak, her alanda olduğu gibi veri bilimi alanında daha başarılı olabilmek için;

  • Üst düzey ciddiyet,
  • Titizlik,
  • Azim,
  • Cesaret,
  • Yaratıcılık,
  • Etkili iletişim,
  • Analitik düşünme,

gibi özelliklere sahip olunması gerekmektedir.

1.5 Veri Bilimcilerinin İş İmkanı

Belirli bir uzmanlığa erişmiş herhangi bir veri bilimci, dünya genelinde hemen hemen her bölgede ve ülkede çalışabilmektedir. Genel olarak özel şirketlerde-kuruluşlarda veya devlete ait kuruluşlarda iş imkanlarına sahiptirler. Bu iş imkanları dünyanın en büyük şirketlerinde olabileceği gibi, küçük şirketlerde de olabilmektedir. Buradaki temel kriter veri bilimcinin yeteneğine bağlıdır. Örneğin, veri bilimi alanında kendini ispatlamış oldukça uzman bir veri bilimci Google veya Amazon gibi dünya devlerinde oldukça yüksek bir maaşla iş imkanına sahip olabilir. Ancak, kendini geliştirmemiş ve alanında yeterince uzmanlaşmamış veri bilimcileri ancak küçük çaplı kuruluşlarda daha düşük maaşla iş bulabilirler. Sonuç olarak temel kriter, veri bilimcinin kapasitesine bağlıdır.

1.6 Veri Bilimcileri Maaş

Her işte olduğu gibi kişinin sahip olduğu beceriler, yetenekler veya tecrübeler maaşla doğru orantılı olmaktadır. Bu bağlamda genel olarak veri bilimcilerinin maaşlarında farklılıklar görülmektedir. Örneğin ABD'de; 

Ortalama bir veri bilimcisi yaklaşık olarak yıllık 125.000$ kazanırken, uzman bir veri bilimci yıllık 200.000 $'a kadar varan maaşlarla çalışmaktadırlar. 

Verilen bu rakamlar bölgeler veya ülkeler arasında farklılık göstermektedir. Örneğin Türkiye'de;

Ortalama olarak aylık maaş 10.000 TL ile 20.000 TL arasında olduğu söylenebilir. 

Ancak veri bilimi alanında oldukça profesyonelleşmeniz, Türkiye'de bile aylık 100.000 TL'ye iş bulmanızı kolaylaştıracaktır. 

2. Veri Manipülasyonu Nedir?

Veri manipülasyonu(Veri İşleme), çalışmalar ve/veya projelerde kullanılacak olan kaynak verinin okunma ve anlaşılma sürecini kolaylaştırmak için gerçekleştirilen düzenleme eylemleri olarak ifade edilebilir. Günümüzde genel olarak bu eylemi gerçekleştirmek için veri işleme dili(data manipulation language (DML)) kullanılmaktadır. DML, geniş kapsamlı veri tabanına sahip SQL programlama dilinin alt dili olarak bir programlama dilidir. DML programlama dili sayesinde veri tabanına veri ekleme, silme veya değiştirme işlemleri yapılmaktadır. Ayrıca, belirtilen bu eylemleri gerçekleştirirken veritabanlarında herhangi bir veri kaybı yaşamamak için SQL programlama dili kullanılmaktadır. Bu kullanım sürecinin başarılı bir şekilde yönetilmesi için uzmanlar tarafından bazı komutlar üretilmiştir. Genel olarak veri işleme sürecinde SQL kullanımına bağlı olarak tercih edilen komutlar;

  • Select (Seç): Bu komut veritabanı içerisinde spesifik olarak kullanılmak istenilen verilerin seçilebilinmesini sağlamaktadır. Böylelikle veri manipülasyon çalışmalarında noktasal veri belirlemeleri yapılarak çalışma sürecinin zamanından ve başarı oranından olumlu bir kazanç sağlanılmaktadır.
  • Update (Güncelle): Bu komut veritabanında bulunan mevcut verilerin güncellenmesine olanak sağlamaktadır. Böylelikle spesifik olarak her bir veri güncel tutularak çalışmaların başarı oranlarında ciddi artışlar elde edilmektedir. 
  • Insert (Ekle): Bu komut  veritabanında bulunan mevcut verilerin istekler doğrultusunda yeni bir şekilde konumlandırılmasına olanak sağlamaktadır. Ayrıca, bu komut sayesinde veritabanında bulunan karmaşık veriler içerisinden isteklere özgü verilerin hangi konumlarda bulunduğunu ve taşınma sürecinin nasıl yönetileceği hakkında bilgi vermektedir. 
  • Delete (Sil): Bu komut  veritabanında bulunan mevcut veriler içerisinden spesifik olarak belirlenmiş herhangi bir verinin silinmesi için kullanılmaktadır. Böylelikle veritabanları içerisinde bulunan gereksiz veriler temizlenerek, kurumlar ve/veya kuruluşlar açısından verimlilik artışları sağlanmaktadır.

Böylelikle bu komutlar sayesinde veri manipülasyon süreci oldukça başarılı ve etkili bir şekilde yönetilmektedir. 

2.1 Veri Manipülasyonu Neden Önemlidir?

Veri manipülasyonu, veri bilimi çalışma alanı içerisinde oldukça önemli bir konumda bulunan bir süreçtir. Çünkü, yukarıda bahsedildiği üzere veri biliminin temel çalışma prensibi verileri toplamak, ayıklamak ve modellemek üzerinedir. Bu bağlamda veri manipülasyonu kullanılarak çalışma ve/veya projelere kaynak olarak kullanılmak istenilen veri kaynaklara erişim kolaylığı sağlanmaktadır. Böylelikle çalışma yapan birey, kurum veya kuruluşlar zamansal açıdan ve iş gücü açısından kazanç sağlamaktadırlar. Bu durumunun önemini daha iyi anlamak için örneğin; elimizde oldukça büyük hacimde veri kümeleri olduğunu hayal edelim. Bu veri kümeleri içerisinden ise sadece bazı verilerin bizim yapacağımız çalışmalara uygun olduğunu düşünelim. Eğer manipülasyon yöntemi kullanılmadan bizim için uygun veriyi tespit etmeye kalkarsak oldukça uzun zaman harcamamız gerekmektedir ve bu zaman sonucunda başarı oranımızın yüksek olacağının garantisi olmayacaktır. Çünkü, devasa verileri incelerken bazı kaçırmalar yapabiliriz. Ancak, veri manipülasyonunu kullanırsak, yukarıda da bahsedildiği üzere oldukça basit komutlar sayesinde oldukça kısa bir zamanda oldukça etkili sonuçlar elde edebiliriz. Sonuç olarak veri manipülasyonu veritabanı üzerindeki çalışmaları kolaylaştırmak ve başarı oranını artırmak için kullanılmaktadır.

2.2 Veri Manipülasyonu Neden Kullanılmalıdır?

Veri manipülasyonunun kullanımı kurum veya kuruşların başarı oranlarını artırmak için oldukça önem arz etmektedir. Bu durumun temel nedenleri olarak kurum ve kuruluşlarda;

  • Elde edilen verilerin birbirleri arasında tutarlılık göstermesi ve belirli bir organizasyon çerçevesinde oluşturulması, yapılacak çalışmalarda veri tanımlama ve anlamlama açısından oldukça kolaylık sağlamaktadır.
  • Çalışılmak istenilen veritabanı üzerinde spesifik çalışmalar gerçekleştirilerek doğru ve/veya uygun verinin toplanması ve modellenmesi süreçleri daha başarılı gerçekleştirilir.
  • Çalışmalarda kullanılacak verilerin uygun bir şekilde temizlenmesi ve depolanması, bir sonraki çalışmalarda referans kaynak olarak kullanılma kolaylığı sağlamaktadır. 
  • Veri manipülasyonu sayesinde istekler doğrultusunda kişileştirilmiş veriler oluşturulmaktadır. Bunun sonucunda ise özelleştirilebilir geliştirmeler yapılabilinmektedir.
  • Gereksiz veriler tespit edilerek temizlenir ve böylelikle veritabanlarında aşırı bir hacim artışı(veritabanı şişmesi) engellenir. 

2.3 Veri Manipülasyonu Kullanım Stratejileri Nelerdir?

Veri manipülasyon sürecinin başarılı bir şekilde yönetilebilinmesi için evrensel olarak kabul görmüş bazı stratejiler bulunmaktadır. Kısaca bunlar;

  1. İlk olarak birçok farklı kaynaktan gelen verileri toplayarak yeni bir veritabanı oluşturulur. Veritabanı oluşturma sürecinde hemen hemen herkesin basit bir şekilde kullanabildiği Microsoft Excel programı kullanılabilir.
  2. Microsoft Excel gibi programlar kullanarak oluşturulan veritabanlarının temizlenmesi ve yeniden yapılandırılması gerekmektedir. Bu süreçler daha önceden yazılmış olan uygun bir yazılımsal programla(otomatik) veya kendinizce(manuel) yapılabilir. Bu işlemlerin amacı uygun verilerin seçilerek diğerlerinin silinmesi ve elde kalan veriler arasında bağlantılar oluşturmak içindir.
  3. Başarılı bir temizlik ve yeniden yapılandırma sürecinin ardından elde edilen ve birbirleriyle uygun bağlantılar içeren veriler birleştirilir ve bu birleşimlere dahil olmayan fazlalık veriler tespit edilir. Daha sonra fazlalık veriler temizlenerek çalışmalar için uygun ve birbirleriyle bağlantılı kaynak veriler elde edilmiş olunur.
  4. Son olarak elde edilen uygun kaynak verileri üzerinde analizleme işlemleri gerçekleştirilir, veriler içerisinden istenilen bilgiler spesifik olarak tespit edilir.

Bu bilgilerden de anlaşılacağı üzere veri manipülasyonu, veri bilimi alanında yapılan çalışmaların etkili bir şekilde yönetilmesinde oldukça kritik bir role sahiptir.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.