Monday, August 06, 2012

அடுத்த தலைமுறை தமிழ் -- OCR (Optical Character Recognition)

OCR (Optical Character Recognition) ஓசிஆர் மென்பொருள்களின் முக்கிய நோக்கம் பழைய ஆவணங்கள், புத்தகங்கள் போன்றவற்றை ஸ்கேன் செய்து அவற்றை மீண்டும் புதிய வகையில் பதிப்பிப்பதற்காக, திருத்தம் செய்யும் வகையிலான கோப்புகளாக உருவாக்குவதே ஆகும். மேலும் கோப்புகளை விரும்பும் வகையில் ஃபார்மெட் செய்யலாம், பல்வேறு டிவைஸ்களில் பயன்படுத்தும் வகையில் கோப்புகளை மாற்றியமைக்கலாம். 

ஆங்கிலத்தில் ஏராளமான வர்த்தகரீதியான மற்றும் கட்டற்ற இலவச மென்பொருள்கள் ஏராளமாக உள்ளன. ஆனால் இந்திய மொழிகளில், அதுவும் தமிழ் மொழியில் சிறப்பான ஓசிஆர் மென்பொருள் இதுவரை உருவாக்கப்படவில்லை.

ஏன் உருவாக்கப்படவில்லை? என ஒரு கேள்வி எழலாம். அதற்கு ஓரளவிற்கு இந்த கட்டுரை பதில் கூறும். தமிழ் ஓசிஆர் மென்பொருள் உருவாக்கப்படுவதில் எழக்கூடிய இடையூறுகள் பற்றி காண்போம்.

Scan:
பெரும்பாலும் ஓசிஆர் மென்பொருட்களின் முக்கிய நோக்கமே பழைய ஆவணங்களை புதுப்பிப்பதே ஆகும். எனவே அவ்வகை பழைய ஆவணங்களின் பதிப்பு சற்று சேதப்பட்டு இருப்பதற்கான சாத்தியக்கூறுகள் அதிகம். எனவே இவ்வகை ஆவணங்களை ஸ்கேன் செய்யும்பொழுது அதில் தெளிவற்ற படங்கள் கிடைக்கும் வாய்ப்பு அதிகமாகின்றது. இந்த தெளிவற்ற படங்களிலிருந்து ஓசிஆர் மென்பொருள் மூலம் துல்லியமான எழுத்து வடிவங்களை கொண்டு வருவது என்பது மிக கடினமான வேலையாகும்.

Font:
தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை. எனவே இப்படிப்பட்ட மென்பொருட்களில் non-unicode வகை ஃபோண்ட்களே பயன்படுத்தப்படுகின்றது. இவற்றிலும் tscii, tab, tam, shrilipi போன்று பலவகையான ஃபோண்ட்கள் உள்ளன. ஒவ்வொரு பதிப்பாளரும் தனக்கென ஒவ்வொரு வகையான ஃபோண்ட்களை பயன்படுத்துகின்றன. எனவே ஓசிஆர் உருவாக்கப்படும்போது ஒவ்வொன்றின் எழுத்து வடிவம், அவற்றின் நுணுக்கமான வேறுபாடுகள் என எல்லாவற்றை கருத்தில் கொண்டு உருவாக்கப்பட வேண்டியது அவசியமாகின்றது.

Script:
Inline image 1
தமிழ் மொழியின் எழுத்து வடிவமைப்பு ஓசிஆர் உருவாக்கத்தில் மிகவும் கவனத்தில் எடுத்துக்கொள்ள வேண்டிய அம்சமாகும். மேற்கண்ட படத்தில் காணுமாறு எழுத்துக்கள் மூன்று பிரிவுகளை கொண்டதாக அமைகின்றது. மேல்பகுதி மற்றும் கீழ்பகுதி பிரிவில் வரும் வளைவுகள் எந்தெந்த எழுத்துக்களுக்கு எப்படி வரும் என்பதையும் நடுவில் உள்ளவற்றோடு அவற்றை ஒத்திசைத்து முழு எழுத்தாக வெளிக்கொண்டு வருவது ஓசிஆர் நுட்பத்தில் மிகவும் கடினமான செயலாகும். மேலும் கா, மெ, போன்ற துணையெழுத்துகள் வரும் எழுத்துக்களை இணைத்து கொண்டு வருவதும் கருத்தில் கொள்ளப்பட வேண்டியாதகும். இவை தவிர, தமிழ்மொழியில் ஏற்படும் ல-வ, க-சு, ன-ள போன்ற எழுத்துக்களின் வடிவ ஒற்றுமை பல சமயங்களில் குழப்பம் விளைவிக்கும் ஒன்றாகும்.

மேலும் italic, bold போன்ற ஸ்டைல்கள் கலந்து வருவது, பலவகை ஃபோண்ட்கள் கலந்து வருதல், பல்வேறு எழுத்து அளவுகள் கலந்து வருதல், பழைய கிரந்த எழுத்துகள் கலந்திருத்தல், படங்கள் இணைந்திருத்தல், column பிரச்சினை போன்ற எல்லா வகையான இடையூறுகளை சமாளிக்கும் வகையிலான மென்பொருள் தயாரிக்கப்பட வேண்டும்.

இதுவரை தமிழ் ஓசிஆர் மென்பொருள் வளர்ச்சியில் எடுக்கப்பட்டுள்ள முயற்சிகளைக் காண்போம். 2002ஆம் ஆண்டு தமிழ்நாடு அரசு PonVizhi எனும் தமிழ் ஓசிஆர் மென்பொருளை வெளியிட்டது. இந்த மென்பொருள் ஆவணங்களின் ஸ்கேன்கள் துல்லியமாக இருந்தால் 90% சிறப்பாக எழுத்துக்களை பிரதியெடுக்கின்றன. இருந்தபோதிலும் இந்த மென்பொருள் ஒரு ஆரம்ப நிலை மென்பொருளாகவே இருக்கின்றது. இதுவரை இதில் பெரிதான மேம்பாடுகள் எதுவும் வரவில்லை. இதுபோக இணையத்தில் gTamilOCR எனும் மென்பொருளும் கிடைக்கின்றது. இது எவ்வகையில் செயல்படுகின்றதென தெரியவில்லை.

ஒரு முழுமையான தமிழ் ஓசிஆர் மென்பொருளை உருவாக்க மென்பொருள் வல்லுநர்கள் முனைந்து கொண்டுதான் இருக்கிறார்கள். தமிழ் மட்டுமின்றி இந்திய மொழிகள் பலவற்றிற்கும் ஓசிஆர் மென்பொருட்கள் உருவாக்கும் பணிகள் ஆங்காங்கே நடைபெற்று வருகின்றன. புதிதாக முயற்சிப்பவர்களுக்கும், அதற்கான அடிப்படை மூலங்களும் தேவையான தகவல்களுக்கும் இணையத்தில் ஏராளமாக கிடைக்கின்றன. கடினமான உழைப்பு மற்றும் முயற்சியுடன் முனைந்தால் நிச்சயம் மேற்கண்ட அனைத்து இடையூறுகளையும் சரிசெய்யும் வகையிலான மென்பொருளை உருவாக்குவது சாத்தியமே. ஆனால் அதற்கு எவ்வளவு காலம் ஆகும் என தெரியவில்லை. இம்முயற்சி வெற்றியடைந்தால் அடுத்ததாக கையெழுத்துப் பிரதிகளை படியெடுக்கும் Handwriting recognition மென்பொருள் உருவாக்கத்திற்கு அடியெடுத்து வைக்கலாம். 

11 comments:

ஜோதிஜி said...

ஞானாலயா என்பது புதுக்கோட்டையில் உள்ள தனிநபர்களால் நிர்வகிக்கப்படும் ஒரு நூலகம்.
இது தொடர்பாக நண்பர்கள் ஒன்றினைந்து சில காரியங்களை செய்ய முயற்சித்துக் கொண்டு
இருக்கின்றோம்.

ஒவ்வொரு நண்பர்களாக ஒன்று சேரத் தொடங்கினர். அப்போது தான்
இந்த ஓசிஆர் மென்பொருள் குறித்து எனக்கு புரிய வந்தது. இந்த கட்டுரையை எழுதியது
எஸ்.கே என்ற நண்பர்.

இவரின் தளத்தில் மென்பொருள் குறித்த ஏராளமான கட்டுரைகள் உண்டு.

திரு. எஸ்.கே வுக்கு நன்றி.

இவரைப்பற்றி தனியாக ஒரு பதிவே எழுதலாம் என்கிற அளவுக்கு நிறைய விசயங்கள் உண்டு. ஆச்சரியமான நண்பர். இவர் அடுத்த பகுதியாக இது குறித்து மேலும் விபரங்களை எழுதி தருகின்றேன் என்று சொல்லி இருக்கிறார்.

கோவி.கண்ணன் said...

//தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை.//

புத்தக எழுத்தை வாசித்து மென் பொருள் வடிவில் மாற்றிக் கொள்ள எழுத்துரு (Font) வகைகள் தடையாக இருக்காது, அது படிக்கும் வகையில் தெளிவாக இருக்கிறதா என்பதே முக்கியம்.

எந்த எழுத்துருவில் புத்தகம் அச்சிட்டு இருந்தாலும், அதே வகை எழுத்துருவை படித்து மாற்றிக் கொள்வது தான் பிரச்சனையாக உள்ளது. எழுத்து வடிவம் ஆப்டிகல் குறியிடாக மாற்றும் பொழுது ஒரு எழுத்திற்கான வரைவு அளவுகள் குறிப்பிட்ட வடிவத்தினுள்ளும், அளவிலும் இருக்க வேண்டும் என்கிற வரையரையில் எழுத்தை படிப்பதற்கு மென்பொருள் உருவாக்குவார்கள், ஒவ்வொரு எழுத்துருவின் வரைவு அளவுகள் மாறுவதால் பொதுவான மென் பொருளை வைத்து மாற்ற முடியாமல் போய்விடுகிறது.

நீச்சல்காரன் said...

நமது உள்ளீடு படமாக இருப்பதால் யுனிக்கோட் பிரச்சனை இருக்காது என்று நினைக்கிறேன். எழுத்தின் வடிவமே பிரச்சனையாகயிருக்கும்.

நிங்கள் இணைத்துள்ள படம் மின்னஞ்சல் பிரதி என்பதால் பிறருக்குத் தெரியவில்லை. அதனை மீண்டும் புதிதாகப் பதிவேற்றுங்கள்

ஓ.சி.ஆர். நுட்பம்பற்றி விளக்கும் இணையத்தளங்களைப் பட்டியலிடுங்கள் . பிறருக்கு உதவலாம்

கிருஷ்ண மூர்த்தி S said...

ஓசிஆர் இன்னும் கொஞ்சம் தகவல்கள் -

இந்த மென்பொருள் படங்களில் உள்ள எழுத்துக்களை இனம்கண்டு டெக்ஸ்டாக மாற்றுவதோடு நின்றுவிடுவதில்லை. ஒளியாகவும் அதாவது எழுத்துக்களை வார்த்தைகளாகப்படிக்க வைக்கும் வசதியும் கொண்டது. மைக்ரோசாப்ட் ரீடரில் .lit ரகக் கோப்பாக மாற்றி டெக்ஸ்டைப் படிக்கக் கேட்கவும் முடியும்.

1974 இல் இந்த ஓசிஆர் தொழில்நுட்பம் பார்வைக் குறைபாடு உள்ளவர்களுக்கும் கணினி செயல்பாடுகள் பயன்படுகிற மாதிரி விரிவடைந்தது.

ஓசிஆர் மென்பொருளை உருவாக்குவதில் கணிதத்தில் தேர்ச்சி அப்புறம் மொழி ஞானம் இரண்டுமே முக்கியத்தேவை. தமிழில் அப்படி இரண்டும் ஒன்று சேர வாய்ப்புக் கிட்டவில்லை என்பதனாலோ என்னவோ, இது வரை செய்யப்பட்ட முயற்சிகள் அப்படியே தேங்கி நிற்கின்றன.பொன்விழி வெர்ஷன் 2.1 வரை வந்த தகவல் இருக்கிறது.ஆனால், அதற்கு மேல் அபிவிருத்தி செய்யப்படவில்லை என்று கிழக்கு பத்ரி சொல்கிறார்.

டெசராக்ட் என்று கூகிள் கொட உபயோகித்துத் தமிழில் ஓபன் சோர்ஸ் தமிழ் ஓசிஆர் உருவாக்க முயற்சி மேற்கொள்ளப்பட்டது, ஒரு குறைந்தபட்ச ஊதியத்தைக் கூடத் தரமுடியாத நிலையில் அப்படியே நிற்கிறது. இப்போதும் குறைந்தபட்சம் ரூ. ஏழுலட்சம் (மூன்று வருட ஊதியம்) யாராவது ஸ்பான்சர் செய்ய முடிந்தால், ஆர்வமும் திறமையும் உள்ள ஒருவரைத் தேர்ந்தெடுத்து இந்தத் திட்டத்தை நிறைவேற்றித்தரத் தான் தயாராக இருப்பதாக திரு ம. ஸ்ரீ ராமதாஸ் சொல்கிறார். http://amachu.files.wordpress.com/2008/09/freesoftware_book.png

http://www.mitpressjournals.org/loi/coli you can download a quarterly magazine Computational Linguistics

திண்டுக்கல் தனபாலன் said...

ocr-ரைப் பற்றி விரிவான தகவல்கள்... நன்றி...

ஒரு மாதத்தில் 240௦ to 260௦ பக்கங்கள் ஆங்கிலத்தில் script இருக்கும். அதை நாம் word-இல் மாற்றித் தர வேண்டும்... (இரண்டு space இருந்தாலும் தவறு) அதில் ஆங்கில scripts விதவிதமாக இருக்கும். எப்படி இருந்தாலும் ocr-இல் கொடுத்தால் மாற்றிக் கொடுத்து விடும்... (சிறு சிறு பிழைகளோடு) ஒரு காலத்தில் 16 மாதங்கள் நான் அதை செய்தேன்... இதே போல் தமிழில் வந்தால் நன்றாக இருக்கும் என்று அப்போதே நினைத்ததுண்டு... மேலே (Krishna Moorthy S) ஐயா சொன்னது போல கூட இருக்கலாம். குறைந்தபட்சம் ரூ. ஏழுலட்சம் யாராவது தந்து உதவினால், தமிழுக்கு கிடைத்த வரப்பிரசாதம் என்று சொல்லலாம்... அரிய பல தமிழ் புத்தகங்களை அழியாமல் காக்கலாம்...

நன்றி…

ஜோதிஜி said...

தனபால் உங்கள் நீண்ட விமர்சனத்திற்கு நன்றி

Anonymous said...

உண்மையில் பயனுள்ள பகிர்வே இது ... தமிழில் OCR மென்பொருள்கள் மேம்பாடு அடைய வேண்டும். அதற்கான முயற்சிகளை முன்னெடுக்க வேண்டும் என நினைக்கின்றேன். அரசின் கையை எதிர்ப்பாராமல் தனியார் உதவியோடு செய்யலாம் ... !!! பல தெளிவுகள் பெற்றேன் இப்பதிவினால்.

Unknown said...

OCR (Optical Character Recognition) பற்றிய
கட்டுரையும் அதற்கான தொடர்புடைய விளக்கங்களும்
ஓசிஆர் தொழிற்நுட்பத்தை எளிதாக புரிய வைத்தது நன்றி

ஜோதிஜி said...

விமர்சனங்களை, தங்கள் கருத்துக்களை பகிர்ந்து கொண்ட நண்பர்கள் அணைவருக்கும் நன்றி. இது தொடர்பான சுட்டிகள், விளக்கங்கள், தொடர்புகள் இருந்தால் இந்த விமர்சனத்தின் வாயிலாக பகிர்ந்து கொள்ளுங்க. நாலைந்து கட்டுரையாக பிரித்து எழுதப்படும் இந்த ஓசிஆர் குறித்து புரிந்து கொள்ள உதவும்.

JaY Reborn @ Jaes said...

எஸ் கே அவர்களின் தொடர்பு எண் கிடைக்குமா ? எனது ஓ சி ஆர் திட்டப்பணியின் போதும் ஞானாலயாவை பற்றி கேள்விப்பட்டேன். உடன் செயலாற்ற வேண்டிய விடயமிது. நன்றி.

ஜோதிஜி said...

http://manamplus.blogspot.in/

இது அவரின் வலைதளம். இதன் மூலம் அவரை தொடர்பு கொள்ள முயற்சிக்கவும். நன்றி.