Veri Ambarı ve ETL: Modern İşletmelerin Veri Mimarisi
Cloud-native veri ambarları—Snowflake, BigQuery, Redshift gibi—eski Teradata ve Oracle sistemlerinin yerini aldı. Ancak teknoloji seçimi başarının yalnızca yarısıdır. Doğru ETL/ELT stratejisi ve veri kalitesi yönetimi, veri ambarı başarısının yüzde 70'ini belirler.
Smart Maple, 8 yıl içinde 50+ kuruluşun veri ambarı dönüşümünde rehberlik etti. Oplist healthcare uygulaması örneğinde, terabyte ölçeğindeki hasta verilerini başarıyla yönetiyoruz.
Üç Mimari Yaklaşım: Seçim Rehberi
Veri depolama mimarisinde üç temel yaklaşım vardır: Data Warehouse (yapılandırılmış, hızlı sorgulama, TB başına $40-100/ay), Data Lake (esnek, her veri türünü kabul eden, TB başına $5-15/ay) ve Lakehouse (ikisinin avantajlarını birleştiren hibrit mimari, TB başına $15-30/ay). Günümüzde lakehouse, Medallion Architecture (Bronz-Gümüş-Altın) katmanlarıyla en yaygın tercih haline gelmiştir.
Veri ambarı, veri gölü ve lakehouse mimarilerinin detaylı karşılaştırması için Veri Gölü ve Veri Ambarı Mimarisi rehberimize bakın.
ETL vs ELT: Paradigma Değişimi
ETL (Extract, Transform, Load) geleneksel yaklaşımda veriyi ayrı sunucularda dönüştürürken, ELT (Extract, Load, Transform) bulut çağında veriyi doğrudan ambarına yükleyip orada dönüştürür. Modern veri mimarilerinin büyük çoğunluğu maliyet ve ölçeklenebilirlik avantajı nedeniyle ELT'ye geçmiştir.
ETL ve ELT yaklaşımlarının derinlemesine karşılaştırması için ETL vs ELT rehberimize bakın.
Gerçek Dünya Örneği: Oplist Dönüşümü
Oplist, 2015-2018'de eski Informatica tabanlı ETL kullanıyordu. Hastane kayıtlarından veriyi çekmek, telefon formatı düzenlemek, null değerleri yönetmek ve kayıtları temizlemek 5 saat alıyordu. Tepe saatlerde yaygın darboğazlar oluşuyordu.
Günümüzde Smart Maple yönetimi altında, aynı veri 20 dakikada işlenir. Snowflake'e doğrudan yüklenir, SQL ve dbt ile paralel transformasyonlar yapılır. Ölçeklenebilir, hızlı ve işletme değişikliklerine adapte olabilen bir sistem.
Warehouse Teknolojileri: Kimin İçin?
Snowflake kurumsal SaaS uygulamaları için, BigQuery analitik ve büyük veri projeleri için, Redshift ise şirket içi Oracle'dan geçiş yapan kuruluşlar için öne çıkar. Platform seçimi, iş ihtiyaçlarınıza ve mevcut bulut altyapınıza bağlıdır.
Snowflake, BigQuery, Databricks ve S3 dahil tüm platformların detaylı karşılaştırması için Veri Gölü ve Veri Ambarı Mimarisi rehberimize bakın.
Modern Data Stack: Teknoloji Yığını
Günümüzün veri teknoloji ekosistemi beş katmandan oluşur: veri toplama (API'ler, webhook'lar), orkestrasyonu (Airflow), depolama (Snowflake, BigQuery), transformasyon (dbt, SQL) ve son kullanıcı uygulamaları (iş zekası, makine öğrenmesi).
Orkestrasyonu yönetmek için Airflow öne çıkıyor. Fivetran ve Stitch gibi SaaS araçları, veritabanlarını otomatik senkronize eder. Transformasyon işleri dbt ile yapılır—SQL yazarak, sürüm kontrollü, tamamen otomatik.
Örnek maliyet (50 kişi şirket, aylık):
| Bileşen | Tool | Maliyet |
|---|---|---|
| Orkestrasyonu | Airflow (self-hosted) | $100 |
| ELT | Fivetran | $500 |
| Veri Ambarı | Snowflake | $300 |
| Transformasyon | dbt Cloud | $400 |
| İş Zekası | Metabase | $0 |
| Toplam | $1,300 |
Yıllık maliyet: 15.600 TL. Uygulanma süresi: 4-6 hafta.
ETL Pipeline Pratik Uygulaması
Airflow, Apache tarafından desteklenen endüstri standardı bir orkestrasyon platformudur. Oplist gibi bir healthcare uygulamasında, her gün sabah 2:00'de otomatik olarak çalışan günlük bir pipeline tasarlanabilir.
Bu pipeline üç aşamadan oluşur:
Çıkartma (Extract): Oplist'in üretken PostgreSQL veritabanından son 24 saatlik randevu verisi çekilir. Incremental extraction yaklaşımı kullanılarak sadece yeni veya değişmiş kayıtlar işlenir.
Transformasyon (Transform): Veriler temizlenir (null değerler, yinelenen kayıtlar, veri tipi dönüşümleri), zenginleştirilir (randevu saati, haftanın günü) ve doğrulanır (hasta yaşı 0-150 aralığında mı? Klinik ID boş mu?).
Yükleme (Load): Temiz veriler analytics veritabanına yüklenir. Aynı randevu kimliği varsa güncellenir, yoksa eklenir (upsert pattern). Tamamlandıktan sonra, veri kalitesi kontrolleri otomatik olarak çalışır.
Başarılı bir yürütme tamamlandıktan sonra hata oluşursa, data team'e otomatik email uyarısı gönderilir.
Transformasyon: dbt ile SQL-First Yaklaşımı
dbt (data build tool), transformasyon işlerini SQL yazarak yönetmeyi sağlayan açık kaynak araçtır. Version control altında çalışır, test edilebilir ve tam otomatik olarak çalıştırılabilir.
Típik bir workflow Medallion Architecture (Bronz-Gümüş-Altın) modeli izler. Bronz katmanında ham veriler saklanır. Gümüş katmanında veriler temizlenir, doğrulanır ve standart hale getirilir. Altın katmanında ise analitik açısından hazır, agregasyon yapılmış veriler bulunur.
Oplist örneğinde, dbt otomatik olarak her doktor için istatistikleri hesaplar: toplam randevu sayısı, tamamlanan randevu sayısı, iptal oranı ve ortalama randevu süresi. İş zekası araçları bu hazır tabloları kullanarak anlık raporlar ve panolar oluştururlar.
Veri Kalitesi: Otomatik Kontrol
Yüksek kaliteli veri, iş kararlarının güvenilirliğini belirler. Veri kalitesi kontrolleri otomatik olarak çalıştırılabilir: sütun varlığı, boş değer yüzdeleri, tekrarlanan kayıtlar, tarih aralıkları, sayısal sınırlar.
Oplist'te, her günlük pipeline tamamlandıktan sonra appointment_id alanının yüzde 99'undan fazla dolu olup olmadığı, patient_age'nin 0-150 aralığında olup olmadığı, status alanının geçerli değerlerden birine sahip olup olmadığı otomatik olarak kontrol edilir. Başarısız bir kontrol, veriyi raporlama sistemine sunmaz ve alerta iletilir.
Veri Ambarı Mimarileri: Kimball vs Inmon
Kimball mimarisi (boyutsal modelleme), merkez fact table çevresinde dimension tablolar organize eder. Oplist benzeri 50-500 kullanıcıya sahip SaaS şirketleri için idealdir. Hızlı raporlama, basit implementasyon, iş zekası araçlarına doğrudan entegrasyon sağlar.
Inmon mimarisi (kurumsal), merkezi normalized veri ambarından departman-spesifik veri Mart'ları türetir. Fortune 500 şirketleri gibi karmaşık kuruluşlar için uygundur ama yavaş ve pahalıdır.
Smart Maple tavsiyesi: SaaS şirketleri Kimball seçsin. Büyük kuruluşlar hybrid yaklaşım (normalized veri ambarı + Kimball style veri Mart'ları) tercih etsin.
Sonuç: Doğru Teknoloji Yığını
Modern veri mimarisi, eski ETL paradigmasından bulut tabanlı ELT yaklaşımına evrildi. Oplist benzeri healthcare SaaS uygulamaları için Smart Maple bu teknoloji yığınını önerir:
- Veri Ambarı: Snowflake (maliyet-etkili, ölçeklenebilir)
- Orkestrasyonu: Airflow (açık kaynak, esnek)
- Transformasyon: dbt (SQL-first, sürüm kontrollü)
- İş Zekası: Metabase (açık kaynak) + Power BI (kurumsal)
Maliyet: Yılda 15.600 TL | Süre: 4-6 hafta | ROI: İlk 3 ayda pozitif
Veri ambarı mimarisi, sadece teknik bir proje değildir—stratejik bir iş kararıdır. Doğru mimari, işletmenizin verilerden maksimum değer çıkarmasını sağlar. Smart Maple, 8 yıldır 50+ kuruluşun bu dönüşümünü başarıyla yönetmiştir.
Smart Maple ile başlayın. Veri mimarı uzmanlarımız, işletmeniz için özelleştirilmiş bir çözüm tasarlayabilir.
