Veri Bilimi Konuları

☁️ Ümit Eroğlu 🌍🛰
3 min readOct 18, 2021

Veri Bilimi konuları ile ilgili kısa bir yol haritası. Buradaki her konunun bilinmesi gerekmeyebilir. Uzmanlık alanına ya da eksik olunan alanlara göre değerlendirilebilir.

1 — Temeller

- Matrisler ve Lineer Cebir Temelleri
- Hash Fonksiyonları, Binary Tree ve O(n)
- İlişkisel cebir, Veritabanı Temelleri
- İç, Dış, Çapraz ve Theta joinler
- CAP Teoremi
- Tabular (Çizelge veya Tablo) Veri
- Entropi
- Veri Çatıları ve Seriler
- Sharding (Veritabanı Bölümleme)
- OLAP (Online Analytical Processing)
- Çok-boyutlu Veri Modeli
- ETL
- Raporlama vs BI vs Analitik
- JSON ve XML
- NoSQL
- Regex
- Tedarikçi Ortamı
- Ortam Oluşturma/Ayarlama

2 — İstatistik

- Bir Veri Seti Seçme (UCI Repo)
- Açıklayıcı istatistik (mod, medyan, aralık, sd, var)
- Keşifsel Veri Analizi
- Histogramlar (Çubuk Grafik)
- Percentiles & Outliers (Yüzdebirlikler ve Aykırı Değerler)
- Olasılık (Probability) Teorisi
- Bayes Teoremi
- Rastgele Değişkenler
- Cumul Dist Fn (CDF)
- Devamlı Dağılımlar (Normal, Poisson, Gaussian)
- Çarpıklık (Skewness)
- ANOVA
- Prob Den Fn (PDF)
- Merkezi Limit Teoremi
- Monte Carlo Metodu
- Hipotez tesi
- p-Değeri
- Chi2 tesi
- Tahmin
- Confid Int (CI)
- MLE
- Çekirdek Yoğunluğu Tahmini (Kernel Density Estimate)
- Regresyon (Bağlanım/İlişkilendirme)
- Covariance (Ortak Değişke)
- Korelasyon (Bağlılık)
- Pearson Coeff (Korelasyon Katsayısı)
- Causation (Nedenleme)
- Least2 Fit
- Öklid Uzaklığı

3 — Programlama

- Python Temelleri
- Excel ile çalışmak
- R Kurulumu, R Stüdyo
- R Temelleri
- IBM SPSS
- RapidMiner
- İfadeler
- Değişkenler
- Vektörler
- Matrisler
- Arrayler
- Faktörler
- Listeler
- Veri Çatıları
- CSV Verilerini Okuma
- Ham Veriyi Okuma
- Veri Alt-kümelemesi (Subsetting Data)
- Veri Çatılarını Manipüle Etme
- Fonksiyonlar
- Faktör Analizi
- Paketleri İndirme

4 — Makine Öğrenmesi

- Makine Öğrenmesi Nedir?
- Nümerik Var (variable)
- Kategorik Var
- Gözetimli/Denetimli Öğrenme (Supervised Learning)
- Denetimsiz Öğrenme (Unsupervised Learning)
- Konsept, Girdi ve Öznitelik (Attributes)
- Eğitme ve Test verisi
- Sınıflandırıcı (Classifier)
- Tahmin (Prediction)
- Lift
- Overfitting (Aşırı Uyma)
- Bias ve Varyans
- Ağaçlar ve Sınıflandırma
- Sınıflandırma Oranı
- Karar Ağaçları
- Boosting (Arttırma)
- Naive Bayes Sınıflandırması
- K-En Yakın Komşu
- Logistik Regresyon
- Ranking (Sıralama)
- Lineer Regresyon
- Perceptron
- Hiyerarşik Kümeleme
- K-Kümeleme Anlamında
- Nöral Ağlar
- Sentiment Analizi
- Ortak (Collaborative) Filtreleme
- Tagleme (Etiketleme)

5 — Text Madenciliği / Doğal Dil İşleme (NLP)

- Corpus
- Adlandırılmış Öğe (Entity) Tanımlaması
- Tekst Analizi
- UIMA
- Term Doküman Matrisi
- Term frekansı ve Ağırlığı
- Destek Vektör Makinesi
- Birleşme (Association) Kuralları
- Pazar Temelli Analiz
- Özellik Çıkarımı
- Mahout Kullanımı
- Weka Kullanımı
- NLTK Kullanımı
- Tekst Sınıflandırması
- Kelime Haritalama

6 — Görselleştirme

- R’da Veri keşfi (Hist, Boxplot vb)
- Uni, Bi & Multivaryete Viz
- ggplot2
- Histogram & Pie (Uni)
- Tree & Tree Map
- Scatter Plot
- Line Charts
- Spatial Charts
- Survey Plot
- Timeline
- Decision tree
- D3.js
- InfoVis
- IBM ManyEyes
- Tableau

7 — Büyük Veri

- Map Reduce Temelleri
- Hadoop bileşenleri
- HDFS
- Veri Replikasyon Prensipleri
- Hadoop Kurulumu (IBM/Cloudera/HortonWorks)
- İsim & Veri Nodları
- İş & Görev İzleyici
- MR Programlama
- Sqoop: HDFS’de Veri Yükleme
- Flume, Scribe: Yapılandırılmamış Veri için
- Pig ile SQL
- Hive ile DWH
- Weblog için Scribe & Chukwa
- Mahout Kullanımı
- Zookeeper Avro
- Storm: Gerçek zamanlı Hadoop
- Rhadoop, RHIPE
- rmr
- Cassandra
- MongoDB, Neo4j

8 — Veri Alınım (Ingestion)

- Veri Formatlarının Özeti
- Veri Keşfi (Discovery)
- Veri Kaynakları & Acquisition
- Veri Entegrasyonu
- Veri Füzyonu
- Transformasyon ve Zenginleştirme (Enrichment)
- Veri Anketi (Survey)
- Google OpenRefine
- Ne kadar Veri?
- ETL Kullanımı

9 — Veri Dönüştürme (Munging)

- Boyutluluk & Sayı Çokluk Sadeleştirme (Dimensionality & Numerosity Reduction)
- Normalizasyon
- Veri Sürtmesi (Scrubbing)
- Kayıp Değerleri Yönetmek
- Yansız Tahmin (Unbiased Estimators)
- Seyrek Değerleri Gruplama (Binning Sparse Values)
- Öznitelik Çıkarımı (Feature Extraction)
- Gürültüden Arındırma (Denoising)
- Örnekleme (Sampling)
- Katmanlı Örnekleme (Stratified Sampling)
- Birincil Komponent Analizi (Principal Component Analizi)

10 — Araçlar

-Excel ile Analysis ToolPak
- Java, Python
- R, R Studio, Rattle
- Weka, Knime, Rapidminer
- Hadoop Dist Of Choice
- Spark, Storm
- Flume, Scribe, Chukwa
- Nutch, Talend, Scraperwiki
- Webscraper, Flume, Sqoop
- tm, Weka, NLTK
- RHIPE
- D3.js, ggplot2, shiny
- IBM Languageware
- Cassandra, MongoDB

Detaya girmek isteyenler için bir github sayfası (ingilizce) :

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

☁️ Ümit Eroğlu 🌍🛰
☁️ Ümit Eroğlu 🌍🛰

Written by ☁️ Ümit Eroğlu 🌍🛰

Software, Cloud, DevOps, IoT, GIS, Remote Sensing.

Responses (1)

Write a response

Merhaba, öncelikle ellerinize sağlık fakat bir öneride bulunacağım. Burada çok genel bilgiler verilmiş. Yol haritası olarak başlangıç- orta- ileri gibi verilebilir bu konular aslında. Örneğin temelde sadece öncelikli makine öğrenme yöntemleri ve temel istatistiki bilgiler yeterli gibi. Naçizane önerimdir.

--