veri hazırlama

Yapay Zeka İçin Veri Hazırlama ve Etiketleme: Kaliteli Veri Pipeline Rehberi

Mehmet Kurtipek

February 1, 2026

8 min read

veri hazırlama

veri etiketleme

data labeling

veri kalitesi

ETL pipeline

yapay zeka

Giriş: Neden Veri Hazırlama AI Başarısının %80'idir?

Yapay zeka projelerinin başarısı, algoritmaların sofistikasyonundan çok daha fazla, verilerinizin kalitesine bağlıdır. Andrew Ng'nin ünlü söylemi "çöp gir, çöp çık" hiçbir zaman yapay öğrenme alanında daha uygun olmamıştır.

Ankara'da yazılım geliştirme alanında 8 yıllık deneyim ile Smart Maple, yüzlerce yapay zeka projesi yönetmiştir. Bu projelerden öğrendiğimiz en önemli ders şudur: ne kadar sofistike bir model tasarlanırsa tasarlansın, eğer eğitildiği veriler hatalı, eksik veya uygunsuz bir şekilde etiketlenmişse, sonuç asla iyi olamaz.

Gerçek dünya verilerinin çoğu düzensizdir, eksik değerler içerir, tutarsız formatlarda bulunur ve etiketleme hataları ile karşı karşıyadır. Veri hazırlama aşaması, ham verileri yapay zeka modellerinin anlayabileceği ve işleyebileceği formata dönüştüren kritik başlangıç adımıdır. Bu rehber, kurumsal düzeyde veri hazırlama ve etiketleme stratejileri, araçları ve en iyi uygulamaları detaylı olarak ele almaktadır.

Veri Pipeline Mimarisi: Uçtan Uca Akış

Etkili bir AI sistemi, iyi tasarlanmış bir veri pipeline'ı üzerine inşa edilir. Bu pipeline, verilerin kaynağından başlayarak modelin eğitildiği forma kadar geçtiği tüm aşamaları kapsar. Pipeline altı temel aşamadan oluşur.

Öncelikle veri toplama aşamasında verilerin sistem içinden, harici API'lerden veya sensörlerden otomatik olarak toplanması, depolanması ve ilk formatlandırılması yapılır. Meta veriler de kaydedilir (toplama zamanı, kaynağı, boyutu).

İkincisi veri temizleme aşamasında eksik değerler, duplikatlar ve tutarsızlıklar tanımlanıp giderilir. Veri tiplerinin doğrulanması ve aykırı değerlerin tespiti bu aşamada gerçekleştirilir.

Üçüncü aşama dönüştürmedir. Ham özelliklerden model tarafından anlamlı özellikler türetme (feature engineering), ölçeklendirme, normalizasyon ve kategorik verinin sayısal forma dönüştürülmesi yapılır.

Etiketleme aşamasında denetimli öğrenme için hedef değerleri atanır, kalite kontrol yapılır ve etiketçi anlaşması değerlendirilir. Etiketleme hata oranı %2'nin altında tutulmalıdır.

Doğrulama aşamasında veri kalitesi metrikleri ölçülür, veriler eğitim, doğrulama ve test setlerine bölünür ve veri sızıntıları kontrol edilir.

Son olarak sürüm kontrolünde veri setlerinin farklı versiyonlarının takip edilmesi, modelin hangi veri versiyonu ile eğitildiğinin kaydedilmesi ve üretimdeki modeller için reproducibility sağlanır.

Veri Temizleme: Pratik Yaklaşımlar

Yapay zeka projelerinin en zaman alan aşaması veri temizlemedir. Smart Maple, tipik olarak proje süresinin yüzde 40-50'sini veri temizlemesi için ayırır.

Eksik değer işleme, veri temizlemenin ilk zorluk alanıdır. Sayısal sütunlar için ortanca (median) kullanarak doldurma, kategorik sütunlar için en sık görülen değeri kullanma veya K-en yakın komşu algoritması ile doldurmak gibi yöntemler vardır. Çok yüksek oranda eksik değer içeren sütunlar ise genellikle veri setinden çıkarılır.

Duplikat kayıtların tanımlanması ve kaldırılması da kritiktir. Tam duplikatlar kolayca tespit edilip silinebilir. Ancak aynı hasta, aynı randevu saati gibi belirli sütun kombinasyonlarında duplikatlar için daha dikkatli bir yaklaşım gerekebilir. Fuzzy matching yöntemiyle benzer yazılışlardaki aynı değerleri (örneğin "Dr. Ahmet" ve "Dr. Ahmed") tespit etmek mümkündür.

Aykırı değer (outlier) tespiti istatistiksel yöntemlerle yapılır. Z-Score yöntemi, mutlak değeri 3'ten büyük değerleri aykırı olarak işaretler. Interquartile Range (IQR) yöntemi de benzer şekilde çalışır. Aykırı değerleri silmek, sınırlama (capping) yapmak, log dönüştürüsü uygulamak veya robust scaling kullanmak gibi seçenekler vardır.

Feature Engineering: Veriden Değer Çıkartma

Etkili feature engineering, ham verilerden model tarafından anlamlı ve tahmine güç katacak özellikler türetme sanatıdır. Bu aşama, model performansını önemli ölçüde iyileştirebilir.

Zamana bağlı özellikler oluşturmak (saat, haftanın günü, ay, hafta sonu mi), istatistiksel agregeler hesaplamak (hastanın ortalama randevu süresi, doktor iş yükü), kategorik değişkenleri sayısal forma dönüştürmek (one-hot encoding veya label encoding) ve etkileşim özellikleri oluşturmak (örneğin iki özelliğin çarpımı) yaygın yaklaşımlardır.

Veri Etiketleme Stratejileri

Etiketleme, özellikle denetimli öğrenme projelerinde en maliyetli ve hassas aşamadır. Smart Maple, üç etiketleme stratejisini proje gereksinimlerine göre kullanır.

Manuel Etiketleme, uzman yargısı gerekli olan görevler, sınıf dağılımı çok dengesiz olduğunda ve yüksek doğruluk gerekli olduğunda tercih edilir. Halkla işçilik için etiket başına 0,50 ile 2 dolar, uzman etiketleme için 3 ile 10 dolar arasında maliyetler söz konusudur. Kalite kontrol için tüm etiketçiler için yüzde 20 örtüşme sağlanmalı ve etiketçi anlaşması (Cohen's Kappa) 0,85'in üstünde olmalıdır.

Yarı-Otomatik Etiketleme, modelin önceden tahmin ettiği etiketleri insan etiketçilerin gözden geçirmesini içerir. Active learning yöntemiyle, modelin en emin olmadığı örneklere öncelik verilir, böylece etiketleme maliyeti önemli ölçüde düşer.

Sentetik Veriler de imbalans sınıf sorunu çözmek için kullanılabilir. SMOTE algoritması ve kontrollü veri augmentation yöntemiyle, az temsil edilen sınıflar için gerçeğe benzer yapay örnekler oluşturulabilir.

Etiketleme Araçları Karşılaştırması

Özellik	Label Studio	Labelbox	Scale AI	AWS SageMaker Ground Truth
Kurulum	Self-hosted (açık kaynak)	Cloud-only	Yönetilen servis	Yönetilen AWS servisi
Başlangıç Maliyeti	0 TL (açık kaynak)	2-5K USD/ay	Müşteri özel	Ödemeye göre ödeme
Etiketçi Havuzu	Kendi etiketçileriniz	Platformda 500K+	Seçkin 10K+	Platform tarafından
Etiketleme Hızı	500-1000/gün	1000-5000/gün	5000-50000/gün	1000-10000/gün
QA Otomasyonu	Kısıtlı	Konsensus, binding	Gelişmiş QA	Model tabanlı QA
Teknik Destek	Topluluk	24/7 ücretli	Dedicated account manager	AWS support
En İyi İçin	Özel ihtiyaçlar, düşük bütçe	Orta ölçekli projeler	Masif ölçekli projeler	AWS ekosistemi

Smart Maple çoğu proje için Label Studio önerir, çünkü tam kontrol sağlar ve Ankara'daki kendi etiketçi ekibiyle entegre çalışmaktadır. Büyük ölçekli projeler için Labelbox değerlendirilir.

Veri Kalitesi Metrikleri

Etkili veri hazırlama, ölçümlenebilir kalite metriklerine dayalı olmalıdır.

Tamamlılık, değeri olan satırların toplam satırlara oranıdır. İdeal oranı yüzde 99'dan fazladır, kabul edilebilir minimum yüzde 95'tir.

Tutarlılık, tutarlı verinin toplam veriye oranını ölçer. Veri tipi uyumu, format standardı (tarih, para birimi) ve değer aralıkları kontrol edilmelidir.

Doğruluk, etiketçi anlaşması üzerinden ölçülür. Cohen's Kappa 0,81-1,0 arası mükemmel anlaşma, 0,61-0,80 arası iyi anlaşma, 0,41-0,60 arası orta anlaşma gösterir.

Zamanlilik, verinin 24 saat içinde pipeline'a girebilmesini ifade eder.

KVKK Uyumluluğu ve Veri Gizliliği

Türkiye'de kişisel veriler üzerinde çalışan kurumlar, Kişisel Verileri Koruma Kanunu (KVKK) uyumlu olmalıdır. Veri hazırlama sürecinde anonimleştirme yapılmalıdır (doğrudan tanımlayıcıları kaldırma) veya psödonimleme uygulanmalıdır (haritalama tablosu ile geri dönüştürülebilir hale getirme).

Etiketlenmiş veriye sadece yetkili kişiler erişmeli, erişim logları tutulmalı ve veri gerekli olmadığında 30 gün içinde silinmelidir.

Veri Sürüm Kontrolü ve Reproducibility

Veri versiyonlaması, makine öğrenmesi projelerinde reproducibility sağlamak için kritiktir. Data Version Control (DVC) gibi araçlar kullanılarak, veri setlerinin farklı versiyonları takip edilebilir. Bu sayede "Model A, dataset v1.2 ile yüzde 92 doğruluk sağlarken, Model B, dataset v1.5 ile yüzde 94 doğruluk sağlıyor" gibi ilişkileri takip etmek mümkün olur.

Veri pipeline tanımları YAML formatında belirtilerek, hangi adımların hangi veri dosyalarına bağlı olduğu, hangi çıktıları oluşturduğu net şekilde dokümante edilebilir. Bu yapı, veri işleme akışının tamamen otomatikleştirilmesine ve herhangi bir zamanda aynı sonuçların üretilmesine olanak tanır.

Maliyet Analizi: Veri Hazırlama Bütçesi

Tipik bir AI projesi için veri hazırlama maliyetleri şöyle hesaplanır:

Faaliyet	Birim	Maliyet	10K Kayıt	100K Kayıt
Veri Temizleme	Geliştirici saati	150 USD/saat	1.500-3.000 USD	8.000-15.000 USD
Feature Engineering	Geliştirici saati	150 USD/saat	2.000-4.000 USD	10.000-20.000 USD
Manuel Etiketleme	Per label	0,50-2,00 USD	5.000-20.000 USD	50.000-200.000 USD
Yarı-Otomatik Etiketleme	Per label	0,02-0,10 USD	200-1.000 USD	2.000-10.000 USD
Kalite Kontrol	Per label	0,05-0,20 USD	500-2.000 USD	5.000-20.000 USD
Veri Altyapısı (S3, DVC)	Aylık	500-2.000 USD	500-2.000 USD	1.000-5.000 USD

Ankara'da veri hazırlama danışmanlığı alan şirketler tipik olarak: küçük projeler (50K'dan az kayıt) için 15-30 bin dolar, orta projeler (50K-500K kayıt) için 30-100 bin dolar, büyük projeler (500K'dan fazla kayıt) için 100 bin dolardan 500 bin dolar veya daha fazla harcarlar.

Yaygın Hatalar ve En İyi Uygulamalar

Veri sızıntısı (data leakage) ciddi bir sorundur. Test setinin bilgileri eğitim aşamasına sızması modelin performansını gerçekçi olmayan şekilde yüksek gösterir. Doğru yaklaşım önce verileri bölmek, sonra ölçekleme gibi dönüşümleri sadece eğitim setinde uygulamaktır.

Eksik etiketleme kalite kontrolü de önem taşır. Hatalı etiketlenen veriler model performansını önemli ölçüde düşürür. En az yüzde 20 örnekte birden fazla etiketçinin çalışması ve anlaşma oranının 0,85'in üstünde olması hedeflenmelidir.

Zaman serisi verilerinde gelecek bilgisinin kullanılması başka bir yaygın hatadır. Veriler rastgele karıştırılmadan önce kronolojik sıraya göre bölünmelidir.

Veri setinin temsiliyet sorunu da göz ardı edilmemelidir. Cinsiyet, yaş grubu gibi demografik özelliklerde dengesiz dağılım modeli belirli gruplar için yanlı yapabilir. Stratified split kullanarak bu tür özelliklerde eğitim ve test setleri arasında denge sağlanmalıdır.

Özet: 10 Adımda Veri Hazırlama Kontrol Listesi

Verilerin nereden geleceğini belirleyin
Veri yapısını, tiplerini, eksiklikleri keşfedin
Duplikat, eksik, aykırı değerleri işleyin
Veri kalitesi metriklerini ölçün (yüzde 95'in üstü completeness)
Veri tiplerini standardize edin
Yeni, anlamlı özellikler oluşturun
Yüksek kalitede etiketler sağlayın (anlaşma oranı 0,85'in üstü)
KVKK uyumluluğunu sağlayın (anonimizasyon/psödonimleme)
Veri versiyonlarını takip edin
Tüm adımları, kararları ve metrikleri kaydedin

Sonuç ve İleri Adımlar

Veri hazırlama ve etiketleme, yapay zeka projelerinin başarısını doğrudan belirleyen kritik aşamalardır. Smart Maple, Ankara'da 8 yıllık deneyimle tam veri pipeline mimarisi tasarımı, etiketleme süreç yönetimi ve kalite kontrolü, veri altyapısı kurulumu, KVKK uyumlu veri işleme sistemi ve eğitim hizmetleri sunmaktadır.

Yapay zeka projenizin veri hazırlama aşamasında destek almak istiyorsanız, smart-maple.com adresini ziyaret edin veya bize ulaşın. Veri kalitesi başarının temeldir ve biz bu temelini güçlü kılmanıza yardımcı olmak için hazırız.

March 1, 2026

Yazılım Yaşam Döngüsü Yönetimi (ALM): Uçtan Uca Rehber [2026]

ALM Nedir ve Neden Önemli? ALM (Application Lifecycle Management), yazılımın doğumundan, yaşamından ve ölümüne kadarki tüm süreci yönetmektir. Şöyle hayal edin: * Doğum: İşletmenin "Bu özellik gerekli" dediğinde, yazılım düşünülür. * Gebelik: Gereksinimler tanımlanır, tasarlanır, geliştirme yapılır. * Doğum: Yazılım, üretim ortamında canlı alınır. * Hayat: Bakım, güncellemeler, iyileştirmeler yapılır. * Yaşlanma: Hata oranı artıyor, bakım maliyeti yükseli. Modernizasyon düşünülür. *

February 28, 2026

Pazaryeri Entegrasyon Yazılımı: Trendyol, Hepsiburada ve Amazon Türkiye [2026]

Türkiye'de satış yapmak artık tek bir kanal üzerinden imkansız hale geldi. 2026 yılında, e-ticaret satışlarının yüzde 70-80'i üçüncü taraf pazaryerlerinde gerçekleşmektedir. Trendyol, Hepsiburada, Amazon Türkiye, N11, GittiGidiyor gibi platformlar, artık e-ticaret işletmelerinin hayatı değiştirebilecek bölümüdür. Ancak bu fırsat, bir sorunla birlikte gelir: her pazaryerini ayrı ayrı yönetmek, manuel olarak ürün yükleme, fiyat güncelleme, sipariş takibi imkansızdır. Büyüyen işletmeler için paza

February 27, 2026

Yapay Zeka Projesi Maliyet Analizi: Bütçe, Ekip ve ROI Hesaplama

Yapay zeka projelerine yatırım yapma kararı alan işletmeler için en kritik soru şudur: "Ne kadar maliyetli olacak?" Bu soruya net bir cevap vermek, proje kapsamından ekip bileşimine, bulut altyapısından veri yönetimine kadar birçok faktörün analiz edilmesini gerektirir. Bu rehber, yapay zeka projelerinin gerçekçi bütçelendirilmesi için bir yol haritasıdır. Yapay Zeka Projesi Maliyet Bileşenleri Bir yapay zeka projesinin toplam maliyeti, beş ana kategoriye ayrılır: insan kaynakları ve pers