OCR doğruluk oranı, dijital arşiv projelerinde “aranabilir PDF” hedefinin gerçekten çalışıp çalışmadığını gösteren en kritik metriktir. “OCR var” demek yetmez; hangi belge grubunda, hangi doğrulukla, hangi kabul kriteriyle çalıştığı ölçülmelidir. Bu rehberde, kurumlarda uygulanan pratik ölçüm yöntemini adım adım bulacaksınız.
Serinin ana yol haritası: Dijital Arşiv Sistemine Geçiş Nasıl Olur?
OCR Doğruluk Oranı Nedir?
OCR doğruluk oranı, taranan belge üzerindeki metnin OCR sonucu metne ne kadar doğru aktarıldığını ölçer. Ölçüm, tek bir sayıdan ibaret değildir; kurumsal projelerde doğruluk genellikle 3 seviyede değerlendirilir:
- Karakter doğruluğu (harf/rakam düzeyi)
- Kelime doğruluğu (kelime düzeyi)
- Alan doğruluğu (form/numara/tarih gibi kritik alanlar)
Kurumsal tarama standardı ile birlikte ele alınmalıdır:
Kurumsal Tarama Standardı Nasıl Oluşturulur?
OCR Doğruluk Oranı Nasıl Ölçülür? (7 Adım)
1) Ölçülecek belge grubunu seçin
OCR doğruluğu her belgede aynı değildir. Ölçümü belge türüne göre ayrı yapın:
- Sözleşme / yazışma
- Fatura / irsaliye
- Özlük evrakı
- Formlar ve tablolu belgeler
- Silik fotokopi / düşük kontrast belgeler
Belge sınıflandırması envanterle netleşir:
Belge Envanteri Nasıl Çıkarılır?
2) “Altın set” (ground truth) oluşturun
Ölçümün sağlıklı olması için küçük ama temsil gücü yüksek bir set gerekir:
- Aynı belge grubundan farklı kalite örnekleri (iyi/orta/zayıf)
- Farklı sayfa düzenleri (tek sütun/çok sütun/tablo)
- Farklı punto ve çıktılar (print/fotokopi)
Bu setteki metin, insan tarafından “doğru metin” olarak referanslanır.
3) Ölçüm birimini belirleyin (karakter/kelime/alan)
Kurumsal projelerde en pratik yaklaşım:
- Genel arama hedefi için: kelime doğruluğu
- Kritik numara/tarih/kimlik için: alan doğruluğu
- Silik belge gruplarında kalite karşılaştırması için: karakter doğruluğu
4) Hata türlerini kategorize edin
Raporlamayı anlamlı yapan şey “neden hata var?” sorusudur. Hata türlerini şu şekilde ayırın:
- Karakter karışmaları (0/O, 1/I, 5/S vb.)
- Tarih formatı hataları
- Belge numarası bölünmesi veya birleşmesi
- Tablo satırlarının kayması
- Türkçe karakter hataları
- Boşluk/ayırıcı hataları (ör. 12 345 → 12345)
Bu kategoriler, hangi ön işlemin (görüntü düzeltme, eğrilik giderme vb.) işe yaradığını gösterir:
Sayfa Eğrilik Giderme ve Otomatik Görüntü Düzeltme Teknolojileri
5) Örnekleme planı ile ölçün (tek seferlik değil, kural seti)
OCR doğruluğu sadece pilotta değil, üretimde de izlenmelidir. Örnekleme iki modda tasarlanır:
- Pilot örnekleme: Belge grubu başına temsil seti ile başlangıç ölçümü
- Üretim örnekleme: Günlük/haftalık batch’lerden rastgele örnek seçimi
Batch mantığıyla ölçüm kolaylaşır:
Büyük Arşivlerde Batch Mantığıyla Çalışma
6) Kabul kriterini tanımlayın (kural olmadan “iyi” tartışması bitmez)
Kabul kriteri, belge grubuna göre değişmelidir. Örnek yaklaşım:
- Genel metin araması beklenen gruplar: kelime doğruluğu hedefi
- Kritik alan içeren gruplar: alan doğruluğu hedefi
- Riskli belgeler: daha sık QC + daha sık doğrulama
Riskli belge grupları ayrı değerlendirilmelidir:
Riskli Belgeler Nasıl Tespit Edilir?
7) Sonucu raporlayın: “Tek oran” değil, aksiyon tablosu üretin
Kurumsal rapor, şu başlıkları içermelidir:
- Belge grubu
- Örnek sayfa sayısı
- Ölçüm türü (kelime/alan/karakter)
- Doğruluk sonucu
- En sık 3 hata türü
- Önerilen düzeltme aksiyonu (ön işlem, DPI, renk modu, profil değişimi)
- Yeniden ölçüm tarihi
Bu rapor, kalite kontrol planının parçası olmalıdır:
Kalite Kontrol Planı Nasıl Hazırlanır?
OCR Doğruluğunu En Çok Etkileyen 6 Faktör
- Belge görüntü kalitesi (silik, kırışık, gölgeli)
- DPI ve renk modu seçimi
- Eğrilik/dönüklük ve kırpma doğruluğu
- Belge türü (tablo, form, çok sütun)
- Dil ve karakter seti (Türkçe karakterler)
- OCR sonrası doğrulama (özellikle alan bazlı)
DPI kararını doğru kurgulamak:
300 DPI mı 600 DPI mı?
Sık Yapılan 7 Hata (Doğruluk Düşer, Kimse Nedenini Bulamaz)
- “OCR var” diye tüm belge gruplarına aynı profili uygulamak
- Silik belge grubunu ölçüm setine dahil etmemek
- Kritik alanlar için alan doğruluğu ölçmemek
- Örnekleme yapmadan tek raporla süreci kapatmak
- Çoklu besleme/eksik sayfa riskini OCR metriğiyle karıştırmak
- Kalite kontrol planında OCR’ı ayrı madde olarak tanımlamamak
- Kabul kriterini yazmadan “iyi” demek
Multi-feed ve eksik sayfa riski ayrı yönetilmelidir:
Çoklu Besleme Algılama ve Belge Koruma Sistemleri
Mini Kontrol Listesi (Hızlı Uygulama)
- Belge grupları ayrı mı ölçülüyor?
- Altın set hazır mı?
- Ölçüm birimi net mi (kelime/alan/karakter)?
- Örnekleme planı var mı (pilot + üretim)?
- Kabul kriteri yazılı mı?
- Rapor “hata türü + aksiyon” içeriyor mu?
İlgili Yazılar
- Kalite Kontrol Planı Nasıl Hazırlanır?
- Arşiv Projelerinde Hata Eşiği Nasıl Belirlenir?
- Sayfa Eğrilik Giderme ve Otomatik Görüntü Düzeltme Teknolojileri
Kurumunuza Uygun OCR Kabul Kriterini Netleştirelim
Kurumsal operasyon yaklaşımı: Kurumsal Dijital Arşiv Hizmetleri
Planlama ve teklif için: Fiyat Teklifi Alın

