Giriş: Neden Veri Hazırlama AI Başarısının %80'idir?
Yapay zeka projelerinin başarısı, algoritmaların sofistikasyonundan çok daha fazla, verilerinizin kalitesine bağlıdır. Andrew Ng'nin ünlü söylemi "çöp gir, çöp çık" hiçbir zaman yapay öğrenme alanında daha uygun olmamıştır.
Ankara'da yazılım geliştirme alanında 8 yıllık deneyim ile Smart Maple, yüzlerce yapay zeka projesi yönetmiştir. Bu projelerden öğrendiğimiz en önemli ders şudur: ne kadar sofistike bir model tasarlanırsa tasarlansın, eğer eğitildiği veriler hatalı, eksik veya uygunsuz bir şekilde etiketlenmişse, sonuç asla iyi olamaz.
Gerçek dünya verilerinin çoğu düzensizdir, eksik değerler içerir, tutarsız formatlarda bulunur ve etiketleme hataları ile karşı karşıyadır. Veri hazırlama aşaması, ham verileri yapay zeka modellerinin anlayabileceği ve işleyebileceği formata dönüştüren kritik başlangıç adımıdır. Bu rehber, kurumsal düzeyde veri hazırlama ve etiketleme stratejileri, araçları ve en iyi uygulamaları detaylı olarak ele almaktadır.
Veri Pipeline Mimarisi: Uçtan Uca Akış
Etkili bir AI sistemi, iyi tasarlanmış bir veri pipeline'ı üzerine inşa edilir. Bu pipeline, verilerin kaynağından başlayarak modelin eğitildiği forma kadar geçtiği tüm aşamaları kapsar. Pipeline altı temel aşamadan oluşur.
Öncelikle veri toplama aşamasında verilerin sistem içinden, harici API'lerden veya sensörlerden otomatik olarak toplanması, depolanması ve ilk formatlandırılması yapılır. Meta veriler de kaydedilir (toplama zamanı, kaynağı, boyutu).
İkincisi veri temizleme aşamasında eksik değerler, duplikatlar ve tutarsızlıklar tanımlanıp giderilir. Veri tiplerinin doğrulanması ve aykırı değerlerin tespiti bu aşamada gerçekleştirilir.
Üçüncü aşama dönüştürmedir. Ham özelliklerden model tarafından anlamlı özellikler türetme (feature engineering), ölçeklendirme, normalizasyon ve kategorik verinin sayısal forma dönüştürülmesi yapılır.
Etiketleme aşamasında denetimli öğrenme için hedef değerleri atanır, kalite kontrol yapılır ve etiketçi anlaşması değerlendirilir. Etiketleme hata oranı %2'nin altında tutulmalıdır.
Doğrulama aşamasında veri kalitesi metrikleri ölçülür, veriler eğitim, doğrulama ve test setlerine bölünür ve veri sızıntıları kontrol edilir.
Son olarak sürüm kontrolünde veri setlerinin farklı versiyonlarının takip edilmesi, modelin hangi veri versiyonu ile eğitildiğinin kaydedilmesi ve üretimdeki modeller için reproducibility sağlanır.
Veri Temizleme: Pratik Yaklaşımlar
Yapay zeka projelerinin en zaman alan aşaması veri temizlemedir. Smart Maple, tipik olarak proje süresinin yüzde 40-50'sini veri temizlemesi için ayırır.
Eksik değer işleme, veri temizlemenin ilk zorluk alanıdır. Sayısal sütunlar için ortanca (median) kullanarak doldurma, kategorik sütunlar için en sık görülen değeri kullanma veya K-en yakın komşu algoritması ile doldurmak gibi yöntemler vardır. Çok yüksek oranda eksik değer içeren sütunlar ise genellikle veri setinden çıkarılır.
Duplikat kayıtların tanımlanması ve kaldırılması da kritiktir. Tam duplikatlar kolayca tespit edilip silinebilir. Ancak aynı hasta, aynı randevu saati gibi belirli sütun kombinasyonlarında duplikatlar için daha dikkatli bir yaklaşım gerekebilir. Fuzzy matching yöntemiyle benzer yazılışlardaki aynı değerleri (örneğin "Dr. Ahmet" ve "Dr. Ahmed") tespit etmek mümkündür.
Aykırı değer (outlier) tespiti istatistiksel yöntemlerle yapılır. Z-Score yöntemi, mutlak değeri 3'ten büyük değerleri aykırı olarak işaretler. Interquartile Range (IQR) yöntemi de benzer şekilde çalışır. Aykırı değerleri silmek, sınırlama (capping) yapmak, log dönüştürüsü uygulamak veya robust scaling kullanmak gibi seçenekler vardır.
Feature Engineering: Veriden Değer Çıkartma
Etkili feature engineering, ham verilerden model tarafından anlamlı ve tahmine güç katacak özellikler türetme sanatıdır. Bu aşama, model performansını önemli ölçüde iyileştirebilir.
Zamana bağlı özellikler oluşturmak (saat, haftanın günü, ay, hafta sonu mi), istatistiksel agregeler hesaplamak (hastanın ortalama randevu süresi, doktor iş yükü), kategorik değişkenleri sayısal forma dönüştürmek (one-hot encoding veya label encoding) ve etkileşim özellikleri oluşturmak (örneğin iki özelliğin çarpımı) yaygın yaklaşımlardır.
Veri Etiketleme Stratejileri
Etiketleme, özellikle denetimli öğrenme projelerinde en maliyetli ve hassas aşamadır. Smart Maple, üç etiketleme stratejisini proje gereksinimlerine göre kullanır.
Manuel Etiketleme, uzman yargısı gerekli olan görevler, sınıf dağılımı çok dengesiz olduğunda ve yüksek doğruluk gerekli olduğunda tercih edilir. Halkla işçilik için etiket başına 0,50 ile 2 dolar, uzman etiketleme için 3 ile 10 dolar arasında maliyetler söz konusudur. Kalite kontrol için tüm etiketçiler için yüzde 20 örtüşme sağlanmalı ve etiketçi anlaşması (Cohen's Kappa) 0,85'in üstünde olmalıdır.
Yarı-Otomatik Etiketleme, modelin önceden tahmin ettiği etiketleri insan etiketçilerin gözden geçirmesini içerir. Active learning yöntemiyle, modelin en emin olmadığı örneklere öncelik verilir, böylece etiketleme maliyeti önemli ölçüde düşer.
Sentetik Veriler de imbalans sınıf sorunu çözmek için kullanılabilir. SMOTE algoritması ve kontrollü veri augmentation yöntemiyle, az temsil edilen sınıflar için gerçeğe benzer yapay örnekler oluşturulabilir.
Etiketleme Araçları Karşılaştırması
| Özellik | Label Studio | Labelbox | Scale AI | AWS SageMaker Ground Truth |
|---|---|---|---|---|
| Kurulum | Self-hosted (açık kaynak) | Cloud-only | Yönetilen servis | Yönetilen AWS servisi |
| Başlangıç Maliyeti | 0 TL (açık kaynak) | 2-5K USD/ay | Müşteri özel | Ödemeye göre ödeme |
| Etiketçi Havuzu | Kendi etiketçileriniz | Platformda 500K+ | Seçkin 10K+ | Platform tarafından |
| Etiketleme Hızı | 500-1000/gün | 1000-5000/gün | 5000-50000/gün | 1000-10000/gün |
| QA Otomasyonu | Kısıtlı | Konsensus, binding | Gelişmiş QA | Model tabanlı QA |
| Teknik Destek | Topluluk | 24/7 ücretli | Dedicated account manager | AWS support |
| En İyi İçin | Özel ihtiyaçlar, düşük bütçe | Orta ölçekli projeler | Masif ölçekli projeler | AWS ekosistemi |
Smart Maple çoğu proje için Label Studio önerir, çünkü tam kontrol sağlar ve Ankara'daki kendi etiketçi ekibiyle entegre çalışmaktadır. Büyük ölçekli projeler için Labelbox değerlendirilir.
Veri Kalitesi Metrikleri
Etkili veri hazırlama, ölçümlenebilir kalite metriklerine dayalı olmalıdır.
Tamamlılık, değeri olan satırların toplam satırlara oranıdır. İdeal oranı yüzde 99'dan fazladır, kabul edilebilir minimum yüzde 95'tir.
Tutarlılık, tutarlı verinin toplam veriye oranını ölçer. Veri tipi uyumu, format standardı (tarih, para birimi) ve değer aralıkları kontrol edilmelidir.
Doğruluk, etiketçi anlaşması üzerinden ölçülür. Cohen's Kappa 0,81-1,0 arası mükemmel anlaşma, 0,61-0,80 arası iyi anlaşma, 0,41-0,60 arası orta anlaşma gösterir.
Zamanlilik, verinin 24 saat içinde pipeline'a girebilmesini ifade eder.
KVKK Uyumluluğu ve Veri Gizliliği
Türkiye'de kişisel veriler üzerinde çalışan kurumlar, Kişisel Verileri Koruma Kanunu (KVKK) uyumlu olmalıdır. Veri hazırlama sürecinde anonimleştirme yapılmalıdır (doğrudan tanımlayıcıları kaldırma) veya psödonimleme uygulanmalıdır (haritalama tablosu ile geri dönüştürülebilir hale getirme).
Etiketlenmiş veriye sadece yetkili kişiler erişmeli, erişim logları tutulmalı ve veri gerekli olmadığında 30 gün içinde silinmelidir.
Veri Sürüm Kontrolü ve Reproducibility
Veri versiyonlaması, makine öğrenmesi projelerinde reproducibility sağlamak için kritiktir. Data Version Control (DVC) gibi araçlar kullanılarak, veri setlerinin farklı versiyonları takip edilebilir. Bu sayede "Model A, dataset v1.2 ile yüzde 92 doğruluk sağlarken, Model B, dataset v1.5 ile yüzde 94 doğruluk sağlıyor" gibi ilişkileri takip etmek mümkün olur.
Veri pipeline tanımları YAML formatında belirtilerek, hangi adımların hangi veri dosyalarına bağlı olduğu, hangi çıktıları oluşturduğu net şekilde dokümante edilebilir. Bu yapı, veri işleme akışının tamamen otomatikleştirilmesine ve herhangi bir zamanda aynı sonuçların üretilmesine olanak tanır.
Maliyet Analizi: Veri Hazırlama Bütçesi
Tipik bir AI projesi için veri hazırlama maliyetleri şöyle hesaplanır:
| Faaliyet | Birim | Maliyet | 10K Kayıt | 100K Kayıt |
|---|---|---|---|---|
| Veri Temizleme | Geliştirici saati | 150 USD/saat | 1.500-3.000 USD | 8.000-15.000 USD |
| Feature Engineering | Geliştirici saati | 150 USD/saat | 2.000-4.000 USD | 10.000-20.000 USD |
| Manuel Etiketleme | Per label | 0,50-2,00 USD | 5.000-20.000 USD | 50.000-200.000 USD |
| Yarı-Otomatik Etiketleme | Per label | 0,02-0,10 USD | 200-1.000 USD | 2.000-10.000 USD |
| Kalite Kontrol | Per label | 0,05-0,20 USD | 500-2.000 USD | 5.000-20.000 USD |
| Veri Altyapısı (S3, DVC) | Aylık | 500-2.000 USD | 500-2.000 USD | 1.000-5.000 USD |
Ankara'da veri hazırlama danışmanlığı alan şirketler tipik olarak: küçük projeler (50K'dan az kayıt) için 15-30 bin dolar, orta projeler (50K-500K kayıt) için 30-100 bin dolar, büyük projeler (500K'dan fazla kayıt) için 100 bin dolardan 500 bin dolar veya daha fazla harcarlar.
Yaygın Hatalar ve En İyi Uygulamalar
Veri sızıntısı (data leakage) ciddi bir sorundur. Test setinin bilgileri eğitim aşamasına sızması modelin performansını gerçekçi olmayan şekilde yüksek gösterir. Doğru yaklaşım önce verileri bölmek, sonra ölçekleme gibi dönüşümleri sadece eğitim setinde uygulamaktır.
Eksik etiketleme kalite kontrolü de önem taşır. Hatalı etiketlenen veriler model performansını önemli ölçüde düşürür. En az yüzde 20 örnekte birden fazla etiketçinin çalışması ve anlaşma oranının 0,85'in üstünde olması hedeflenmelidir.
Zaman serisi verilerinde gelecek bilgisinin kullanılması başka bir yaygın hatadır. Veriler rastgele karıştırılmadan önce kronolojik sıraya göre bölünmelidir.
Veri setinin temsiliyet sorunu da göz ardı edilmemelidir. Cinsiyet, yaş grubu gibi demografik özelliklerde dengesiz dağılım modeli belirli gruplar için yanlı yapabilir. Stratified split kullanarak bu tür özelliklerde eğitim ve test setleri arasında denge sağlanmalıdır.
Özet: 10 Adımda Veri Hazırlama Kontrol Listesi
- Verilerin nereden geleceğini belirleyin
- Veri yapısını, tiplerini, eksiklikleri keşfedin
- Duplikat, eksik, aykırı değerleri işleyin
- Veri kalitesi metriklerini ölçün (yüzde 95'in üstü completeness)
- Veri tiplerini standardize edin
- Yeni, anlamlı özellikler oluşturun
- Yüksek kalitede etiketler sağlayın (anlaşma oranı 0,85'in üstü)
- KVKK uyumluluğunu sağlayın (anonimizasyon/psödonimleme)
- Veri versiyonlarını takip edin
- Tüm adımları, kararları ve metrikleri kaydedin
Sonuç ve İleri Adımlar
Veri hazırlama ve etiketleme, yapay zeka projelerinin başarısını doğrudan belirleyen kritik aşamalardır. Smart Maple, Ankara'da 8 yıllık deneyimle tam veri pipeline mimarisi tasarımı, etiketleme süreç yönetimi ve kalite kontrolü, veri altyapısı kurulumu, KVKK uyumlu veri işleme sistemi ve eğitim hizmetleri sunmaktadır.
Yapay zeka projenizin veri hazırlama aşamasında destek almak istiyorsanız, smart-maple.com adresini ziyaret edin veya bize ulaşın. Veri kalitesi başarının temeldir ve biz bu temelini güçlü kılmanıza yardımcı olmak için hazırız.
Related Articles
Yazılım Yaşam Döngüsü Yönetimi (ALM): Uçtan Uca Rehber [2026]
ALM Nedir ve Neden Önemli? ALM (Application Lifecycle Management), yazılımın doğumundan, yaşamından ve ölümüne kadarki tüm süreci yönetmektir. Şöyle hayal edin: * Doğum: İşletmenin "Bu özellik gerekli" dediğinde, yazılım düşünülür. * Gebelik: Gereksinimler tanımlanır, tasarlanır, geliştirme yapılır. * Doğum: Yazılım, üretim ortamında canlı alınır. * Hayat: Bakım, güncellemeler, iyileştirmeler yapılır. * Yaşlanma: Hata oranı artıyor, bakım maliyeti yükseli. Modernizasyon düşünülür. *
Read MorePazaryeri Entegrasyon Yazılımı: Trendyol, Hepsiburada ve Amazon Türkiye [2026]
Türkiye'de satış yapmak artık tek bir kanal üzerinden imkansız hale geldi. 2026 yılında, e-ticaret satışlarının yüzde 70-80'i üçüncü taraf pazaryerlerinde gerçekleşmektedir. Trendyol, Hepsiburada, Amazon Türkiye, N11, GittiGidiyor gibi platformlar, artık e-ticaret işletmelerinin hayatı değiştirebilecek bölümüdür. Ancak bu fırsat, bir sorunla birlikte gelir: her pazaryerini ayrı ayrı yönetmek, manuel olarak ürün yükleme, fiyat güncelleme, sipariş takibi imkansızdır. Büyüyen işletmeler için paza
Read MoreYapay Zeka Projesi Maliyet Analizi: Bütçe, Ekip ve ROI Hesaplama
Yapay zeka projelerine yatırım yapma kararı alan işletmeler için en kritik soru şudur: "Ne kadar maliyetli olacak?" Bu soruya net bir cevap vermek, proje kapsamından ekip bileşimine, bulut altyapısından veri yönetimine kadar birçok faktörün analiz edilmesini gerektirir. Bu rehber, yapay zeka projelerinin gerçekçi bütçelendirilmesi için bir yol haritasıdır. Yapay Zeka Projesi Maliyet Bileşenleri Bir yapay zeka projesinin toplam maliyeti, beş ana kategoriye ayrılır: insan kaynakları ve pers
Read More