TgLetter projekt

A puszta számjegyfelismerésnél jóval összetettebb feladat a postai irányítószámok felismerése. 2003-ban, a TgLetter projekt keretén belül egy olyan program elkészítésén dolgoztam, amely egy borítékot vagy képeslap hátoldalt ábrázoló kép alapján határozza meg az irányítószámot. Az irányítószám számjegyei kézzel és géppel írottak is lehettek. Nem volt megkötés a borítékok méretére, háttérszínére, háttérképére, nem volt megkötés az írás vastagságára, stílusára. Csak annyit tételeztem fel, hogy az irányítószám 4 számjegyből áll, és valahol a boríték jobb alsó részén helyezkedik el, vízszintesen elkülönülve a többi objektumtól. Nem írtam elő az irányítószám számjegyeinek beírására szolgáló piros keretek meglétét. Ilyen általános feltételek mellett a felismerésen kívül meg kell birkózni a számjegyek megtalálásának és szétválasztásának nehéz feladatával is. A kísérleti rendszerem működését az alábbi képernyőképek szemléltetik:

  1. Kiindulási helyzet.
  2. Jobb alsó sarok kivágása.
  3. Fekete fehérré alakítás.
  4. Háttér kivonása.
  5. Hisztogram normalizálása.
  6. Adaptív küszöbözés.
  7. Zajobjektumok szűrése.
  8. Objektumcsoportok kialakítása.
  9. Irányítószám-jelölt meghatározása.
  10. Számjegyekre bontás.
  11. Felismerés.

Borték adatbázisból sajnos nem találtam szabadon elérhetőt, ezért magam készítettem egyet 23 boríték beszkennelésével. Ez a készlet persze nyilvánvalóan túl kicsi, és nem reprezentálja jól a Magyarországon előforduló borítéktípusokat. (Ha valaki esetleg tud segíteni egy nagyobb boríték adatbázis létrehozásában, akkor kérem írjon!) A rendszer 23-ból 22-szer helyesen lokalizálta az irányítószámot a borítékon, míg 1 esetben nem talált irányítószám-gyanús részt. A 22 esetből a rendszer 13-szor ismerte fel mind a 4 számjegyet helyesen, 6-szor követett el 1 számjegyhibát, és 3-szor követett el 1-nél több számjegyhibát.