Content uploaded by Mehmet Yasin Akpınar
Author content
All content in this area was uploaded by Mehmet Yasin Akpınar on Oct 15, 2019
Content may be subject to copyright.
Optik Karakter Tanıma Metinlerini Kullanarak
Görüntülerden Tablo Verilerini Ayıklama
Extracting Table Data from Images Using Optical
Character Recognition Text
Mehmet Yasin AKPINAR, Erdem EMEKL˙
IG˙
IL, Seçil ARSLAN
AR-GE ve Özel Projeler
Yapı Kredi Teknoloji A.¸S.
˙
Istanbul, TÜRK˙
IYE
{mehmetyasin.akpinar, erdem.emekligil, secil.arslan}@ykteknoloji.com.tr
Özetçe —Görüntü halindeki dokümanların dijital ve
i¸slenebilir formlara çevrilmesi günümüzde optik karakter tanıma
(OCR) araçlarıyla oldukça ba¸sarılı bir ¸sekilde yapılabilmektedir.
Ancak, orijinal belge üzerindeki biçimin korunması konusunda
hala problemler mevcuttur. Bu problemlerden önemli bir tanesi
ise tablo halindeki verinin okunmasıdır. Bu bildiride baskılı for-
mundan taranarak dijital ortama aktarılmı¸s belgeler üzerindeki
tablo içeriklerinin, bir OCR aracı ile okunarak karakter
pozisyonlarının da yardımıyla tekrar tablo formuna getirilerek
saklanmasını sa˘
glayan bir yöntem önerilmektedir. Yöntemin
ba¸sarımı tespit edilen satır ve sütun sayılarıyla ölçülmü¸s olup,
ticari olarak satılmakta olan ba¸ska ürünlerle kıyaslanarak sunul-
mu¸stur.
Anahtar Kelimeler—Tablo Tanıma, Optik Karakter Tanıma,
Metin ˙
I¸sleme.
Abstract—The conversion of image-based documents into
digital and processible forms can be accomplished quite success-
fully with optical character recognition (OCR) tools. However,
there are still problems with preserving the format on the original
document. An important one of these problems is the reading of
the tabular data. In this paper, a method is proposed in which the
tabular data contents of hard-copy documents is extracted from
the text and character positions which are obtained from an OCR
tool and transferred to digital forms. The performance of the
method is measured by the number of detected rows and columns
and presented with the results of other commercial products.
Keywords—Table Recognition, Optical Character Recognition,
Text Processing.
I. G˙
IR˙
I ¸S
Basılı dokümanlardan bilgi çıkarma zaman zaman herkesin
ihtiyacı olan bir durumdur. Bu sebeple optik karakter tanıma
(OCR) araçları oldukça faydalı kullanımlar sunmaktadır. An-
cak, bazı durumlarda bu araçlar yetersiz kalabilmektedir. Basılı
bir belgede yer alan bir tablonun dijital ortama formu ko-
runarak aktarılması da bunun en güzel örneklerinden birisidir.
Ticari ve açık-kaynak ürünlerde bu probleme çözüm üretilmeye
çalı¸sılsa da yapılan testlerde istenilen ba¸sarımın sa˘
glanamadı˘
gı
görülmü¸stür.
Bu bildiride, bahsedilen problemi çözmek için bir yön-
tem önerilmektedir. Yöntem gerçeklenirken belgelerdeki tablo-
ların bütün sayfa içeri˘
gini kapladı˘
gı varsayılmı¸stır. Bir ba¸ska
deyi¸sle önerilen yöntem bütün sayfa metnini tek bir tabloya
yerle¸stirmeye çalı¸smaktadır.
Bildirinin akı¸sı ise ¸su ¸sekildedir. II. bölümde tekni˘
gin bi-
linen durumu kaynaklar ile birlikte özetlenmektedir. Ardından
III. bölümde önerilen yöntem detaylarıyla beraber verilmek-
tedir. IV. bölümde ise çalı¸smadan elde edilen sonuçlar hazır
ticari ürünlerle kıyaslanarak sunulmaktadır. Bu kıyaslama a¸sa-
masında tespit edilen satır ve sütun sayıları dikkate alınmı¸stır.
V. bölüm olan kapanı¸s bölümünde ise bildirinin özeti yapılıp
gelecek çalı¸smalardan bahsedilmi¸stir.
II. ˙
ILG˙
IL˙
IÇAL I ¸SM ALA R
Literatür taramasında kar¸sıla¸sılan çalı¸smalar ana 2 gruba
ayrılmaktadır. Birincisi, görüntü üzerinden metin bilgisi çıkar-
maya yarayan optik karakter tanıma teknolojileri, ikincisi
ise metin formatındaki dokümanlardan tablo olu¸sturma çalı¸s-
malarıdır.
Birinci gruba giren çalı¸smalara uzun yıllardır yo ˘
gun bir
¸sekilde ula¸sılmaktadır. Bu çalı¸smaların bir özetine [1] numaralı
bildiriden ula¸sılabilir. Ancak, son zamanlarda bu grubu giren
çalı¸smalar form de ˘
gi¸stirerek do ˘
gal ortamlarda metin tanıma [2]
[3], el yazısı tanıma [4] [5] [6] ve gerçek zamanlı metin tanıma
[7] [8] gibi alanlara yönelmi¸stir.
˙
Ikinci gruptaki çalı¸smalar ise yine aynı zamanlara denk
gelmektedir. Ancak, bu konudaki çalı¸smalara daha seyrek rast-
lanmaktadır. 2003 yılında yayınlanan bir inceleme bildirisinde
(survey) tekni˘
gin o zamana kadarki durumu özetlenmektedir
[9]. Son zamanlardaki çalı¸smalara ise [10] ve [11] verilebilir.
Ayrıca, bu çalı¸smalarda da daha spesifik alanlara yönelmi¸s
olanlar mevcuttur [12].
Bu iki yakla¸sımı birle¸stirip görüntü üzerinden tablo verisi
ayıklama çalı¸smaları ile pek sık olarak kar¸sıla¸sılmamaktadır.
[11]’de bu yönde bir yakla¸sım da mevcuttur. Ayrıca, bu alan-
daki çalı¸smaların son örnekleri [13] ve [14]’te verilmi¸stir.978-1-5386-1501-0/18/$31.00 c
2018 IEEE
Birbirine benzer çalı¸smaların tekrar tekrar yapılmasının
ana sebebi herkes için uygun bir yöntemin bulunamamasından
kaynaklanmaktadır. Bu bildirideki çalı¸sma da denenmi¸s olan
açık kaynak kodlu ve ticari ürünlerden yeterli performans
sa˘
glanamadı˘
gı için gerekli hale gelmi¸stir.
III. YÖNT EM
Giri¸s bölümünde bahsedildi ˘
gi gibi bu çalı¸smada bir dizi
sıralama ve gruplama basamakları arka arkaya kullanılarak
görüntü içerisinden metnin uygun bir formatta çekilmesi
sa˘
glanmı¸stır. Sistem girdi olarak görüntü formatından bir OCR
uygulaması (ABBYY FineReader) ile okunmu¸s kelimeleri ve
bu kelimelere ait pozisyon (sol, sa˘
g, üst ve alt piksel de˘
gerleri)
ve boyut (en ve boy) bilgilerini kullanmaktadır. Pozisyon
ve boyut bilgileri hesaplanırken kelimelere ait karakterlerin
OCR aracından elde edilen pozisyon bilgileri birle¸stirilmi¸stir.
Bütün adımlardaki piksel de˘
gerleri için sayfanın sol-üst nok-
tası ba¸slangıç noktası kabul edilmektedir. Bu adımdan sonra
problem bir akım (stream) i¸sleme problemi haline gelmi¸stir.
Uygulanan basamaklar kabaca a¸sa ˘
gıdaki gibi listelenebilir:
1) Sütunları tespit etme
2) Kelimeleri yukarıdan a¸sa˘
gıya do˘
gru sıralama ve satır-
lara ayırma
3) Her satırdaki kelimeleri soldan sa˘
ga do˘
gru sıralama
4) Kelimeleri sütunlara göre gruplama ve tablo yapısını
olu¸sturma
5) Birden fazla satırdan olu¸san hücreleri birle¸stirme (is-
te˘
ge ba˘
glı)
A. Sütun Tespiti
Önerilen yöntem gerçeklenirken öncelikle sütun tespiti
üzerine çalı¸sılmı¸stır. Bunun en önemli sebebi sütun sayısının
satır sayısından daha az olması ve bu sebeple sayfa e˘
gim-
lerinden daha az etkilenmesidir. sütunların tespit edilebilmesi
için her kelimenin yatay eksendeki orta noktalarının piksel
de˘
gerleri hesaplanarak bir histogram olu¸sturulmu¸stur. Bu his-
togramda kullanılan kutu (bin) sayısı empirik olarak sayfadaki
sütun sayısı * 10 ¸seklinde belirlenmi¸stir.
Sayfa kirlili˘
gi ya da format bozuklu˘
gundan meydana
gelebilecek yanlı¸s sütun tespitlerinin engellenebilmesi için be-
lirli bir e¸sik de ˘
gerin altındaki kutuların hiç dikkate alınmaması
gerekmektedir. Bunun için de histogram içerisinde en yüksek
de˘
gerin 1/4’ünden daha az de˘
gere sahip kutuların 0 olarak
kabul edilmesi sa˘
glanmı¸stır.
Histogram bilgisi bu ¸sekilde elde edildikten sonra ke-
limelerin yo˘
gunla¸stı ˘
gı kutuların bulunabilmesi için bir kayan
pencere (sliding window) yapısından yararlanılmı¸stır. Bu
adımda pencere sayısı, sayfadaki sütunların kutu sayısı bazında
ortalama uzunlukları göz önünde bulundurularak belirlenmi¸stir.
Test kümesinde yer alan sayfalarda kutu sayısı yukarıdaki for-
mülle belirlendi˘
gi takdirde yakla¸sık 5 kutuya denk gelmektedir
ve bu sebeple pencere sayısı 5 olarak kararla¸stırılmı¸stır. Hazır-
lanan pencere histogram datası üzerinde gezdirilerek pencere
içerisinde kalan kutulardan en yüksek de˘
gere sahip olan not
edilerek yeni bir histogram olu¸sturulmu¸stur. Bu uygulamanın
amacı lokal olarak en yüksek de˘
gere sahip olan kutuların tespi-
tini kolayla¸stırmaktır. Böylece yeni elde edilen histogramda
pencere sayısına e¸sit de ˘
gerdeki kutular lokal maksimumları
belirtmektedir ve sütunların orta noktaları bu kutular olarak
kabul edilmi¸stir.
¸Sekil 1: Do˘
gru Tespit Edilmi¸s Sütun Örnekleri
¸Sekil 1’de, yukarıda anlatılan yöntemle do˘
gru olarak tespit
edilmi¸s sütunlar gösterilmektedir. Tablo yapısını belirten her-
hangi bir çizgi ya da i¸saret bulunmadı˘
gı halde tüm sütunlar
ufak hata paylarıyla (bir kutu geni¸sli˘
ginden daha az) do˘
gru
olacak ¸sekilde tepit edilebilmi¸stir. Ancak, ¸Sekil 2’deki gibi
bir sütununda az bilgi içeren tablolarda önerilen yöntem bu
sütunları tespit edemeyebilmektedir. Bu durumun en önemli
sebebi sayfa kirlili˘
gi ya da format bozuklukları için alınan
1/4’lük önlemdir. Bu örneklerin do˘
gru sonuç vermesi bu
kontrolün kaldırılmasıyla mümkün olmasına ra˘
gmen, ba¸ska
belgelerde daha kötü sonuçlara sebep olabilmektedir. Bu se-
beple kontrolün bu ¸sekilde kalması daha uygun görülmü¸stür.
¸Sekil 2: Hatalı Tespit Edilmi¸s Sütun Örnekleri
B. Kelimelerin Sıralanması ve Satırlara Ayrılması
Sayfa üzerindeki sütun pozisyonları tespit edildikten sonra
kelimeler üst piksel de˘
gerleri göz önüne alınarak sıralanmı¸stır.
Sonrasında kelimelerin üst ve alt piksel de˘
gerleri kullanılarak
satır ayrımları yapılmı¸stır. Bu ayrım yapılırken sayfa e˘
gik-
li˘
ginin bir miktar tolere edilebilmesi için hep bir kelimenin alt
piksel de˘
geriyle kendisinden sonra gelen kelimenin üst piksel
de˘
geri kıyaslanmı¸stır. Bu de˘
gerler örtü¸smedi ˘
ginde, yani bir
kelimenin alt piksel de˘
geri kendisinden sonra gelen kelimenin
üst piksel de˘
gerinden daha küçük oldu˘
gunda bu iki kelimenin
aynı satırda olmadı˘
gı kabul edilerek sonraki kelimenin yeni bir
satıra yerle¸stirilmesi sa ˘
glanmı¸stır.
C. Satırlardaki Kelimelerin Sıralanması
Bu a¸samada kelimelerin ait oldukları satırlar içerisinde
soldan sa˘
ga sıralanmaları sa˘
glanmı¸stır. Ancak, birden fazla
satırdan olu¸san hücrelerdeki sıralamanın bozulmaması için bu
kontrol üst piksel de˘
gerlerini de içerecek ¸sekilde düzenlen-
mi¸stir. Böylece alt alta olan kelimelerin sol piksel de˘
ger-
lerine bakılmaksızın üstte olanı daha önde yer alacak hale
getirilmi¸stir.
D. Kelimelerin Sütunlara Ayrılması
Kelimeler sıralandıktan sonra sıralamalarına göre en yakın
oldukları sütuna atanmı¸stır. Bu atamalar yapılırken de her
kelime arasında bir bo¸sluk olacak ¸sekilde ba ˘
glama (concate-
nate) i¸slemi yapılmı¸stır. Bu i¸slem sonucunda elde edilen yapı,
ula¸sılmak istenen tablo yapısının ilk halidir ve çok düzgün
sayfalarda, örne˘
gin hiç bir hücresinde birden fazla satırlık
bilgi bulunmayan tablolarda, yeterli seviyede ba¸sarım göstere-
bilmektedir. Ancak, çalı¸sılan belgelerde sıklıkla bir hücre bir-
den fazla satırlık de˘
ger alabildi˘
gi için tablo içeri˘
ginde yalnızca
bir sütunu dolu olan satırlar olu¸smaktadır. ¸Sekil 3’te bu duruma
bir örnek gösterilmektedir. Tüm örnek tek satırlık bir bilgi
içermesine ra˘
gmen yukarıdaki adımlar sonucunda 4.sütunda
bulunan bilgi 3 satırlık yer kapladı˘
gı için bu bilgiler fazlalık
satırlar olarak sonuçlanmaktadır. Bu örnekler için de opsiyonel
olan E adımı uygulanarak birle¸sim sa ˘
glanabilmektedir.
¸Sekil 3: Hatalı Ayrılmı¸s Satır Örne˘
gi
E. Satırların Birle¸stirilmesi
Bahsedilen durumun çözülebilmesi için satır birle¸stirici bir
adım daha eklenmek durumunda kalınmı¸stır. Bu birle¸stirici,
öncelikle tabloyu yukarıdan a¸sa ˘
gıya do˘
gru tarayarak dolu olan
hücre sayılarına göre birle¸stirme yapılıp yapılmayaca ˘
gına karar
verir. Daha sonra ise tespit edilen az içeri˘
ge sahip sütunların
üst satıra mı yoksa alt satıra mı birle¸stirilece ˘
gini yakınlık du-
rumuna göre hesaplar. Bunun sonucuna göre de ilgili hücreleri
sırasına göre aralarda birer bo¸sluk bırakacak ¸sekilde ba˘
gla-
yarak (concatenate) birle¸stirme i¸slemini gerçekle¸stirir.
Satırların birle¸sip birle¸smeyece˘
ginin kararının verilebilmesi
için ise ardı¸sık ikili satırların içerikleri incelenmi¸stir. ˙
Incelenen
iki satırın aynı anda bilgi içeren sütun sayısı 2 veya daha az
ise bu iki satırın aslında tek bir satırlık bilgi içerdi˘
gi varsayımı
yapılmı¸stır. Yani ¸Sekil 3’teki örne˘
gi ele alacak olursak, yal-
nızca 4.sütunda ardı¸sık iki satırda birden bilgi bulunmaktadır.
Di˘
ger sütunlarda ya ilk satır ya da ikinci satır bilgi içer-
memektedir. Dolayısıyla bu üç satırın 2 adımda birle¸stirilmesi
uygundur. Buradaki kontrolün 2 olarak belirlenmesinin sebebi
belge kirlili˘
ginin yol açabilece˘
gi karakter okumalarıdır. E˘
ger
belge içeri˘
ginde birden fazla satırlık bilgi içeren hücreler
birden daha fazla sütunda bulunuyorsa, bu sayının bu tip sütun
sayısı + 1 ¸seklinde belirlenmesi yerinde olacaktır.
IV. SONUÇLAR VE KAR ¸SI LA ¸S TIR MA
Bu bölümde önerilen sistemin ba¸sarımları ticari olarak
satılmakta olan ürünlerle kar¸sıla¸stırarak sunulmu¸stur. 58 belge-
lik test kümesi üzerinde do˘
gruluk bilgilerinin çıkarılması için
bir yorumcu (annotator) ile çalı¸sılmı¸stır. Yorumcunun görevi
test kümesi içerisindeki her belgeyi inceleyerek satır ve sütun
sayılarının not edilmesi ile referans de˘
gerlerinin belirlemek
olmu¸stur.
Ticari ürünlerden ilki, çıktıları önerilen yöntemde de kul-
lanılanılan ABBYY FineReader 11 Release 8 versiyonudur. Bu
ürün çalı¸smadan önce de kullanılmakta ve tablo okuma per-
formansındaki problemler sebebiyle önerilen yöntemin ortaya
çıkmasında önemli bir rol oynamaktadır. Bu ürünün en önemli
problemleri sayfayı bloklar halinde okurken tabloyu da ikiye
veya daha fazla sayıya bölerek okuması, bazen de hiç tablo
tespit edememesidir.
Bu ürünün ba¸sarımı ölçülürken okunması istenen belgede
tespit edebildi˘
gi en büyük tablo yapısı göz önüne alınmı¸stır.
Örne˘
gin bir sayfada 27x5 ve 26x2 boyutlarında tablo tespit
ediyorsa 27 satır ve 5 sütun tespit edebildi˘
gi kabul edilmi¸stir.
Bir di˘
ger ticari ürün de Readiris Pro 16 versiyonudur. Bu
ürün görüntü formatındaki dosyaları okuyarak docx, pdf, xlsx
ve bir kaç farklı formda daha kaydetme imkanı sa˘
glamak-
tadır. Ürünün en büyük problemleri tablo yapısını olu¸stururken
bo¸s sütun ve satırlar bulması, biçim özelliklerini yeterince
düzgün kopyalayamamasıdır. Ayrıca, bilgileri çok fazla ayır-
maya giderek birden fazla satırdan olu¸san hücreleri iyi tespit
edememektedir.
Ba¸sarım ölçümleri için okunan belgeler xlsx formatında
kaydedilmi¸s, sonrasında ise bu dosyalar açılarak tespit edilen
satır ve sütun sayıları not edilmi¸stir. Bu a¸samada bo¸s satırlar
dikkate alınmamı¸s ve hesaplama dı¸sında tutulmu¸stur.
¸Sekil 4’te her bir ürün ve önerilen yöntem için satır ve
sütun sayısı yanlı¸s tespit edilmi¸s belge sayıları sunulmaktadır.
Bu sayılar hesaplanırken ilgili ürünün tespit etti˘
gi satır ve sütun
sayıları daha önce yorumcu tarafından belirlenmi¸s satır ve sü-
tun sayılarıyla kıya¸slanmı¸stır. Bu sayılar e¸sit olmadı ˘
gı durumda
ilgili ürün için hatalı belge sayısı 1 artırılmı¸stır. Hem satır bazlı
hem de sütun bazlı sonuçlar çıkarılarak görselle¸stirilmi¸stir.
¸Sekil 4: Satır Ve Sütun Sayıları Yanlı¸s Tespit Edilen Belge
Sayıları
Satır bazlı sonuçlarda Readiris en kötü performansı gös-
terirken (52/58 hatalı tespit), önerilen yöntem en iyi perfor-
mansa sahiptir (4/58 hatalı tespit). Sütun bazlı sonuçlarda ise
ABBYY ürünü bazı belgelerde birden fazla tablo tespit etti˘
gi
ve bu tablolar dikey olarak bölündü˘
gü için en kötü performansı
sergilemi¸stir (22/58 hatalı tespit). Bu hesaplamada da yine en
iyi ba¸sarım önerilen yönteme aittir (6/58 hatalı tespit). Ayrıca,
ABBYY ürünü 3 belgede hiç tablo tespit edememi¸stir.
Tablo I’de ise her ürün ve önerilen yöntem için test kümesi
üzerinde tespit edilen satır ve sütun sayıları kümülatif olarak
toplanarak, referans de˘
gerleriyle kıyaslanmı¸stır. Bu sonuçlar da
yine satır ve sütun bazlı olarak ikiye ayrılmı¸stır.
Tablo I: Toplam Satır ve Sütun Tespitleri
Satır Sütun
Sayı Fark Fark (%) Sayı Fark Fark (%)
Referans 1686 - - 418 - -
Abbyy 1554 -132 -7,83 365 -53 -12,68
ReadIris 2871 +1185 +70,28 423 +5 +1,20
Önerilen
Yöntem 1677 -9 -0,53 411 -7 -1,67
Satır bazlı sonuçlarda Readiris ürünü satır birle¸stirme yap-
madı˘
gı için oldukça kötü bir sonuç vermi¸stir ve yakla¸sık
%70 fazladan satır tespitinde bulunmu¸stur. ABBYY ürünü
ise referans de˘
gerlerine göre %7,83’lük eksik tespit ortaya
çıkarmı¸stır. Buna kar¸sılık önerilen yöntem %0,53 fark ile
önde kalmayı ba¸sarmı¸stır. Bu fark, tüm test kümesi üzerinde
yalnızca 9 eksik satır tespitine tekabül etmektedir.
Sütun bazlı sonuçlarda ise daha önce bahsedilen problem-
lerden dolayı ABBYY ürünü en kötü sonucu vermi¸stir (%12,68
eksik tespit). Ancak, Readiris ürünü belge bazında önerilen
yöntemden geride olmasına ra˘
gmen bu hesaplamada %1,20
fazla tespit ile en yüksek performansı göstermi¸stir. Önerilen
yöntem ise %1,67 eksik tespit ile hemen arkasında yer almı¸stır.
Sonuç olarak hem satır hem de sütun bazlı kıyaslamalar bir-
likte göz önüne alındı˘
gında önerilen yöntem bu iki ticari ürüne
göre bariz bir üstünlük sa˘
glayabilmektedir. Bu durumun önemli
sebeplerinden bir tanesi, önerilen yöntemin hedef odaklı olup
bütün OCR metnini bir tabloya çevirmeye çalı¸smasıdır. Di˘
ger
ürünlerde böyle bir durum söz konusu de˘
gildir.
V. KAPA NI ¸S
Bu bildiride tablo yapısında bilgi içeren basılı örnek-
lerden bilgilerin formu korunarak çıkarılmasını sa˘
glayan bir
yöntem önerilmi¸stir. Giri¸s bölümünde yapılan çalı¸smanın
genel amacı açıklanıp, bildiri akı¸sından bahsedilmi¸stir. Ardın-
dan ˙
Ilgili Çalı¸smalar bölümünde tekni ˘
gin bilinen duru-
muna de˘
ginilmi¸stir. 3.bölüm olan Yöntem bölümünde yapılan
çalı¸sma detaylarıyla açıklanmı¸stır. Bu yöntem ve mevcutta
bulunan ticari ürünler kullanılarak Sonuçlar ve Kar¸sıla¸stırma
bölümünde kıyaslamalı bir ¸sekilde performans ölçümleri
yapılmı¸stır.
Mevcut proje bir ba¸slangıç çalı¸sması olmakla birlikte
geli¸stirilebilir yanları fazladır. Örne˘
gin, sayfa içerikleri e˘
gik
gelen tarama örneklerinde bu durumun tolere edilebilmesi
için satır ve sütunların yatay ve dikey olarak de˘
gil, e˘
gimli
olarak tespit edilmesi gerekmektedir. Ayrıca, daha ileri
teknikler kullanılarak sayfa üzerindeki biçim özelliklerinin de
kopyalanabilmesi mümkündür. Bu çalı¸smaların da ilerleyen
zamanlarda yapılması planlanmaktadır.
TE ¸S EKK ÜR
Bu çalı¸smamız TÜB˙
ITAK TEYDEB tarafından 3160184
no’lu proje kapsamında desteklenmi¸stir.
KAYNAKÇ A
[1] Islam, N., Islam, Z., & Noor, N. (2016). A Survey on Optical Char-
acter Recognition System. Journal of Information & Communication
Technology-JICT Vol. 10 Issue. 2.
[2] Baran, R., Partila, P., & Wilk, R. (2018, January). Automated Text Detec-
tion and Character Recognition in Natural Scenes Based on Local Image
Features and Contour Processing Techniques. In International Conference
on Intelligent Human Systems Integration (pp. 42-48). Springer, Cham.
[3] Shabana, M. A., Jose, A., & Sunny, A. (2018). TEXT DETECTION
AND RECOGNITION IN NATURAL IMAGES.
[4] Kumar, P., Saini, R., Roy, P. P., & Pal, U. (2018). A lexicon-free approach
for 3D handwriting recognition using classifier combination. Pattern
Recognition Letters, 103, 1-7.
[5] Samanta, O., Roy, A., Parui, S. K., & Bhattacharya, U. (2018). An
HMM Framework based on Spherical-Linear Features for Online Cursive
Handwriting Recognition. Information Sciences.
[6] Sueiras, J., Ruiz, V., Sanchez, A., & Velez, J. F. (2018). Offline Con-
tinuous Handwriting Recognition Using Sequence to Sequence Neural
Networks. Neurocomputing.
[7] Chauhan, R., & Pipalia, D. (2018). Smart Electronic Real Time Text
Recognition Application. Journal of Electronic Design Technology, 8(3),
1-7.
[8] Liu, Z., Li, Y., Ren, F., Yu, H., & Goh, W. (2018). SqueezedText: A Real-
time Scene Text Recognition by Binary Convolutional Encoder-decoder
Network.
[9] Zanibbi, R., Blostein, D., & Cordy, J. R. (2004). A survey of table
recognition. Document Analysis and Recognition, 7(1), 1-16.
[10] Yildiz, B., Kaiser, K., & Miksch, S. (2005, December). pdf2table: A
method to extract table information from pdf files. In IICAI (pp. 1773-
1785).
[11] Coüasnon, B., & Lemaitre, A. (2014). Recognition of Tables and Forms.
Handbook of Document Image Processing and Recognition, 2014.
[12] Parikh, R., & Vasant, A. (2013). Table of Content Detection using
Machine Learning: Proposed System. International Journal of Artificial
Intelligence & Applications, 4(3), 13.
[13] Bansal, A., Harit, G., & Roy, S. D. (2014, December). Table Extraction
from Document Images using Fixed Point Model. In Proceedings of
the 2014 Indian Conference on Computer Vision Graphics and Image
Processing (p. 67). ACM.
[14] Vasileiadis, M., Kaklanis, N., Votis, K., & Tzovaras, D. (2017, April).
Extraction of Tabular Data from Document Images. In Proceedings of
the 14th Web for All Conference on The Future of Accessible Work (p.
24). ACM.