Veri Gölü mü, Veri Ambarı mı? Doğru Mimari Seçimi
Veri depolama mimarisi, veri mühendisliği kararlarının en kritik olanlarından biridir. Yanlış seçim, milyonlar kaybına neden olabilir. Birçok kuruluş, "veri gölü" veya "veri ambarı" terimlerini eşanlamlı sanmaktadır. Oysa çok farklı yaklaşımlardır. Bu rehber, ikisini açıklayıp, hangi mimarinin sizin işletmeniz için uygun olduğunu belirlemenize yardımcı olacaktır.
Veri Mühendisliği ve Data Pipeline Hizmetleri rehberimizde bu konuya giriş yapılmıştır. Bu yazıda daha derinlemesine ele alıyoruz.
Veri Ambarı (Data Warehouse) Nedir?
Veri ambarı, yapılandırılmış, önceden işlenmiş ve belirli bir iş amacına yönelik olarak organize edilmiş bir veri deposudur.
Yapı: Her veri, bir şema (schema) tarafından tanımlanır. Hangi alanlar olacağı, hangi türler olacağı önceden bellidir. Müşteri verisi belirli sütunlara sahiptir, satış işlemleri başka sütunlara sahiptir.
Veri Hazırlığı: Veri ambarına yüklenmeden önce, gelen veri ciddi şekilde işlenir. Temizlenir, doğrulanır, biçimlendirilir. Sadece "iyi" veriler ambarına girer.
İdeal Kullanım: Raporlama, analitik, business intelligence. Yöneticilerin pazarlama maliyetini görmek istediğinde, ya da aylık satış rakamlarına bakmak istediğinde, veri ambarı kullanılır.
Örnekler: Snowflake, Amazon Redshift, Google BigQuery, Microsoft SQL Server (Enterprise Edition).
Veri Ambarının Avantajları
- Hız: Önceden işlenmiş veri, sorgulamalar çok hızlıdır. 1 milyon satırda bir sorgu, saniye cinsinden cevap verir.
- Struktur: Her şey önceden tanımlanmıştır. Veri yöneticileri, veri tasarımcıları verilerin nereye gideceğini bilir.
- Performans: İndeksler, partisyon stratejileri gibi optimizasyonlar, analitik sorgularını hızlandırır.
- Düzenleme: Verinin doğruluğu kontrol edilmiştir. Yanlış verinin raporlara girmesi daha az olasıdır.
Veri Ambarının Dezavantajları
- Esneklik: Yeni veri türü eklemek zordur. Schema değişikliği, tüm işlemi etkileyebilir.
- Depolamadaki Veri Kalitesi: Gelen veriyi kontrol etmek gerekir. Veri ambarı gelmeden önce, çok ciddi bir filtreleme yapılmalıdır.
- Başlangıç Maliyeti: Şema tasarımı, ETL pipeline'ları, iş analisti ekibi gerekir. Kurmak 6-12 ay sürebilir.
- Uyarlanmaz Analiz: Ambar şemasında yer almayan veriye, sonradan erişmek zordur.
Veri Gölü (Data Lake) Nedir?
Veri gölü, tamamen farklı bir anlayıştır. Tüm veriler, oldukları gibi (ham, yapısız, çeşitli türlerde) saklanır.
Yapı: Veri, SQL şemasıyla sınırlanmış değildir. Yapılandırılmış veriler (satış kayıtları) ile beraber, video, ses, resim, metin dosyaları saklanabilir.
Veri Hazırlığı: Veriler, ham olarak depolanır. İşleme, depolama sonrasında yapılır.
İdeal Kullanım: Tahmine dayalı analitik, makine öğrenmesi, veri keşfi. Veri scientist'ler, terabayt verinin içinde yeni ilişkiler bulmaya çalıştığında, veri gölü tercih edilir.
Örnekler: AWS S3 + Athena, Google Cloud Storage + BigQuery, Azure Data Lake Storage + Spark, Databricks.
Veri Gölünün Avantajları
- Esneklik: Her türden veri saklanır. Yeni veri türü? Hiçbir sorun, gelen veri saklanır.
- Büyüme: Terabayttan petabayta kadar ölçeklenebilir. Veri çoğalmış diye sistem sorun yaşamaz.
- Maliyet: Bulut depolaması (S3, GCS) çok ucuzdur. Aylık terabayt başına sadece 20-30 dolar.
- Hız: Prototipleme hızlıdır. Şema tasarlamadan, veri hemen depolanır.
Veri Gölünün Dezavantajları
- Yönetilemez Hale Gelir: Veri gölü, kontrollü değilse "veri çamuruna" dönüşebilir. Hangi veriler nerede, ne anlama geliyor, kim erişebiliyor—kimse bilmez.
- Performans: Yapılandırılmamış veri, sorgulamak yavaştır. Milyarlarca küçük dosyada veri aramak, sorun yaratabilir.
- Veri Kalitesi: Kalite kontrolü olmadığından, yanlış veriler birikebilir.
- Karmaşık Analiz: Veriyi çıkarmak ve temizlemek, her veri scientist'in tekrar işleme girmesi gerektirir.
Veri Ambarı vs Veri Gölü Karşılaştırması
| Özellik | Veri Ambarı | Veri Gölü |
|---|---|---|
| Veri Türü | Yapılandırılmış | Yapılandırılmış + Yapısız |
| Schema | Önceden tanımlanmış (Schema-on-Write) | Okuma sırasında tanımlanır (Schema-on-Read) |
| Depolama Maliyeti | Orta-Yüksek | Düşük |
| Sorgu Hızı | Hızlı | Orta-Yavaş |
| Veri Hazırlık Süresi | Uzun | Kısa |
| Esneklik | Düşük | Çok Yüksek |
| İçin Ideal | Raporlama, BI, işletme analizi | Makine öğrenmesi, keşif, araştırma |
| Yönetim | Sıkı, kontrollü | Zor, disiplinsiz olabilir |
Lakehouse: En İyi İki Dünyanın Birleşmesi
Son 5 yıldır, yeni bir mimari ortaya çıktı: Lakehouse. Bu, veri gölünün esnekliğiyle, veri ambarının yönetilebilirliğini birleştirir.
Lakehouse, üç temel teknoloji üzerinde inşa edilir:
1. Açık Veri Formatları: Delta Lake (Databricks), Apache Iceberg, Apache Hudi. Bu formatlar, veriye (veri gölünde olduğu gibi) tablo yapısı ve ACID özellikleri eklerler. Böylece, S3 gibi ucuz depolamada, veri ambarı gibi güvenilir veriler saklanır.
2. Birleştirilmiş Depolama: SQL tablo verisi, parquet dosyaları, JSON log dosyaları, hatta video—hepsi aynı depo içinde yaşayabilir.
3. Tek Platform Analizi: SQL sorgusu (iş analisti için), Python/Scala (data scientist için), ML workflow'ları (ML engineer için) aynı veri tabanına karşı çalışabilir.
Lakehouse Avantajları
- Maliyet: Veri gölü kadar ucuz, veri ambarı kadar hızlı
- Esneklik: Yapılandırılmış ve yapısız veriler aynı yerde
- Yönetim: Veri ambarı gibi kontrollü (data governance, kalitesi)
- Hız: Tabloların ve indexlerin avantajı, ham veri depolama ucuzluğu
Lakehouse Zorlukları
- Nispeten Yeni: 2020'den sonra hızla yaygınlaştı. Ancak, veri ambarı ve gölü kadar olgun değil
- Operasyonel Komplekslik: Tablo biçimleri (Delta vs Iceberg) arasında seçim yapmak gerekir
- İnsan Gücü: Veri mühendisleri, bu yeni biçimlerine hakim olmalıdır
Platform Seçimi: Snowflake vs BigQuery vs Databricks vs S3
Bugün, hangi platform seçeceğiniz, mimari (warehouse vs lake vs lakehouse) seçimi kadar önemlidir.
Snowflake
Yaklaşım: Veri ambarı + ELT odaklı lakehouse
Avantajları:
- Bulut-agnostik (AWS, GCP, Azure)
- Harika veri paylaşımı (Data Marketplace)
- Kolay skalabilite
Dezavantajları:
- Maliyetli (compute + storage ayrı faturalı)
- Schema yönetimi (veri ambarı yaklaşımı)
Fiyat: 100 GB veri için aylık 1.000 - 5.000 dolar
Google BigQuery
Yaklaşım: Hız-odaklı data warehouse
Avantajları:
- Sorgu hızı çok yüksek (paralel işleme)
- Google Cloud ekosistemi entegrasyonu
- Serverless (yönetim yok)
Dezavantajları:
- Google Cloud'a bağlı
- Depolama + sorgu maliyeti (sorgu sayısı arttıkça, maliyet artar)
Fiyat: 100 GB veri için aylık 2.000 - 7.000 dolar
Databricks
Yaklaşım: Lakehouse (Delta Lake)
Avantajları:
- Açık veri formatı (Delta Lake) portabilite sağlar
- ML ve streaming işlemler için güçlü
- Multi-cloud desteği
Dezavantajları:
- Operasyon biraz daha karmaşık
- Henüz küçük ekiplerde Snowflake kadar yaygın değil
Fiyat: 100 GB veri için aylık 1.500 - 6.000 dolar
AWS S3 + Athena
Yaklaşım: Veri gölü (Athena ile SQL erişimi)
Avantajları:
- En ucuz depolama (S3)
- AWS ekosistemi
- Apache Spark, Glue ile ortak kullanım
Dezavantajları:
- Sorgu hızı, Snowflake veya BigQuery kadar değil
- Yönetim karmaşık (Glue katalog yönetimi)
Fiyat: 100 GB veri için aylık 200 - 2.000 dolar (sorgulara bağlı)
Schema Tasarımı: Yıldız vs Kar Tanesi Şeması
Veri ambarında, veriler belirli geometrik desenlere göre organize edilir.
Yıldız Şeması (Star Schema):
- Merkezde, satış işlemleri gibi olayları içeren büyük "fact" tablosu
- Etrafında, müşteriler, ürünler, zamanlar gibi "dimension" tabloları
- Sorgulamak hızlı, anlaşılması kolay
Kar Tanesi Şeması (Snowflake Schema):
- Yıldız şeması gibi, ama dimension tabloları ayrıca normalize edilmiş
- Depolama daha az, ama sorgulamak biraz daha karmaşık
- Finans sektöründe daha yaygın
Lakehouse'ta, schema tasarımı daha esnek olabilir. Veriler, merkezileştirilmiş tanımlarla (Medallion mimarisi: Bronze, Silver, Gold) organize edilir.
Partisyon Stratejileri
Veri arttıkça, tüm veriyi her sorguya taramak imkansız hale gelir. Partisyon, verinin öğün olarak organize edilmesidir.
Tarih Partisyonu: Veri, gün, ay veya yıla göre bölünür. Örneğin, 2025 Ocak verisi ayrı, 2025 Şubat verisi ayrı yerde. Ocak raporunun alınmasında, Şubat verileri hiç açılmaz.
Kategori Partisyonu: Müşteri kısımına göre (ülke, bölge) bölünür.
Hash Partisyonu: Veri, bir sütunun hash değerine göre dağıtılır (genellikle ID).
Doğru partisyon stratejisi, sorgu hızını 10-100 kat artırabilir.
Geçiş Planlaması: Veri Ambarından Lakehouse'a
Birçok kuruluş, eski veri ambarından yeni lakehouse'a geçme konusunda kaygılı. Sorunlar:
- Veri Kaybı: Taşınırken veri kaybolabilir mi?
- Kapalı Kalma Süresi: Ne kadar süre sistemler offline olacak?
- Maliyeti: İkisini birden çalıştırmak, iki kat maliyetli midir?
Başarılı bir geçiş, üç aşamada olmalıdır:
- Parallel Run (2-3 ay): Yeni lakehouse ve eski warehouse birlikte çalışır. Raporlar ikisinden de çekilir, karşılaştırılır.
- Cutover (1 hafta): Tüm BI araçları, yeni lakehouse'a yönlendirilir.
- Decommission (1 ay): Eski sistem, bir ay daha (yedek amaçlı) tutulur, sonra kapatılır.
Doğru planlama, sıfır veri kaybı ve 4-6 saatlik kapalı kalma süresini sağlayabilir.
Veri Yönetimi: Veri Katalog ve Lineage
Veri depolama arttıkça, "bu verinin tanımı ne?", "kim sorumlu?", "bu veri nereden geliyor?" sorularının cevapları karmaşık hale gelir.
Veri Katalog: Tüm tabloların, sütunların, tanımlarının ve sahiplerinin yer aldığı bir katalog. Collibra, Alation, Atlan gibi araçlar bunu sağlar. Veri bulma ve anlama, katalog olmadan imkansız hale gelir.
Data Lineage: Verinin kaynağından, raporlara kadar olan yolunu takip etmek. Satış tablosu, ürün tablosundan geliyor mu, yoksa CRM'den mi? Bu soru, veri kalitesi sorunları olduğunda kritik hale gelir.
Smart Maple ile Veri Mimarisi Tasarımı
Veri depolama mimarisi seçimi, teknik bir karar değil, stratejik bir kararıdır. Smart Maple, bu kararda işletmelere rehberlik etmektedir.
Danışmanlık hizmetimiz:
- Mevcut veri altyapısının değerlendirmesi (kur veri ambarı varsa)
- Veri cilt tahmini ve büyüme projeksiyonu
- Veri ambarı vs lakehouse vs warehouse seçimi
- Platform seçimi (Snowflake vs BigQuery vs Databricks)
- Migrasyonu planlama ve yürütme
- Veri yönetimi altyapısı kurma (katalog, lineage, quality)
Veri mimarisi konusunda danışmanlık almak için, Smart Maple ile iletişime geçebilirsiniz.
Related Articles
Yazılım Yaşam Döngüsü Yönetimi (ALM): Uçtan Uca Rehber [2026]
ALM Nedir ve Neden Önemli? ALM (Application Lifecycle Management), yazılımın doğumundan, yaşamından ve ölümüne kadarki tüm süreci yönetmektir. Şöyle hayal edin: * Doğum: İşletmenin "Bu özellik gerekli" dediğinde, yazılım düşünülür. * Gebelik: Gereksinimler tanımlanır, tasarlanır, geliştirme yapılır. * Doğum: Yazılım, üretim ortamında canlı alınır. * Hayat: Bakım, güncellemeler, iyileştirmeler yapılır. * Yaşlanma: Hata oranı artıyor, bakım maliyeti yükseli. Modernizasyon düşünülür. *
Read MorePazaryeri Entegrasyon Yazılımı: Trendyol, Hepsiburada ve Amazon Türkiye [2026]
Türkiye'de satış yapmak artık tek bir kanal üzerinden imkansız hale geldi. 2026 yılında, e-ticaret satışlarının yüzde 70-80'i üçüncü taraf pazaryerlerinde gerçekleşmektedir. Trendyol, Hepsiburada, Amazon Türkiye, N11, GittiGidiyor gibi platformlar, artık e-ticaret işletmelerinin hayatı değiştirebilecek bölümüdür. Ancak bu fırsat, bir sorunla birlikte gelir: her pazaryerini ayrı ayrı yönetmek, manuel olarak ürün yükleme, fiyat güncelleme, sipariş takibi imkansızdır. Büyüyen işletmeler için paza
Read MoreYapay Zeka Projesi Maliyet Analizi: Bütçe, Ekip ve ROI Hesaplama
Yapay zeka projelerine yatırım yapma kararı alan işletmeler için en kritik soru şudur: "Ne kadar maliyetli olacak?" Bu soruya net bir cevap vermek, proje kapsamından ekip bileşimine, bulut altyapısından veri yönetimine kadar birçok faktörün analiz edilmesini gerektirir. Bu rehber, yapay zeka projelerinin gerçekçi bütçelendirilmesi için bir yol haritasıdır. Yapay Zeka Projesi Maliyet Bileşenleri Bir yapay zeka projesinin toplam maliyeti, beş ana kategoriye ayrılır: insan kaynakları ve pers
Read More