OCR (Optical Character Recognition) ஓசிஆர்
மென்பொருள்களின் முக்கிய நோக்கம் பழைய ஆவணங்கள், புத்தகங்கள் போன்றவற்றை ஸ்கேன் செய்து
அவற்றை மீண்டும் புதிய வகையில் பதிப்பிப்பதற்காக, திருத்தம் செய்யும் வகையிலான கோப்புகளாக
உருவாக்குவதே ஆகும். மேலும் கோப்புகளை விரும்பும் வகையில் ஃபார்மெட் செய்யலாம், பல்வேறு
டிவைஸ்களில் பயன்படுத்தும் வகையில் கோப்புகளை மாற்றியமைக்கலாம்.
ஆங்கிலத்தில் ஏராளமான
வர்த்தகரீதியான மற்றும் கட்டற்ற இலவச மென்பொருள்கள் ஏராளமாக உள்ளன. ஆனால் இந்திய மொழிகளில்,
அதுவும் தமிழ் மொழியில் சிறப்பான ஓசிஆர் மென்பொருள் இதுவரை உருவாக்கப்படவில்லை.
ஏன் உருவாக்கப்படவில்லை? என ஒரு கேள்வி எழலாம்.
அதற்கு ஓரளவிற்கு இந்த கட்டுரை பதில் கூறும். தமிழ் ஓசிஆர் மென்பொருள் உருவாக்கப்படுவதில்
எழக்கூடிய இடையூறுகள் பற்றி காண்போம்.
Scan:
பெரும்பாலும் ஓசிஆர் மென்பொருட்களின் முக்கிய
நோக்கமே பழைய ஆவணங்களை புதுப்பிப்பதே ஆகும். எனவே அவ்வகை பழைய ஆவணங்களின் பதிப்பு சற்று
சேதப்பட்டு இருப்பதற்கான சாத்தியக்கூறுகள் அதிகம். எனவே இவ்வகை ஆவணங்களை ஸ்கேன் செய்யும்பொழுது
அதில் தெளிவற்ற படங்கள் கிடைக்கும் வாய்ப்பு அதிகமாகின்றது. இந்த தெளிவற்ற படங்களிலிருந்து
ஓசிஆர் மென்பொருள் மூலம் துல்லியமான எழுத்து வடிவங்களை கொண்டு வருவது என்பது மிக கடினமான
வேலையாகும்.
Font:
தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட
ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம்.
புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை
சப்போர்ட் செய்வதில்லை. எனவே இப்படிப்பட்ட மென்பொருட்களில் non-unicode வகை ஃபோண்ட்களே
பயன்படுத்தப்படுகின்றது. இவற்றிலும் tscii, tab, tam, shrilipi போன்று பலவகையான ஃபோண்ட்கள்
உள்ளன. ஒவ்வொரு பதிப்பாளரும் தனக்கென ஒவ்வொரு வகையான ஃபோண்ட்களை பயன்படுத்துகின்றன.
எனவே ஓசிஆர் உருவாக்கப்படும்போது ஒவ்வொன்றின் எழுத்து வடிவம், அவற்றின் நுணுக்கமான
வேறுபாடுகள் என எல்லாவற்றை கருத்தில் கொண்டு உருவாக்கப்பட வேண்டியது அவசியமாகின்றது.
Script:
தமிழ் மொழியின் எழுத்து வடிவமைப்பு ஓசிஆர்
உருவாக்கத்தில் மிகவும் கவனத்தில் எடுத்துக்கொள்ள வேண்டிய அம்சமாகும். மேற்கண்ட படத்தில்
காணுமாறு எழுத்துக்கள் மூன்று பிரிவுகளை கொண்டதாக அமைகின்றது. மேல்பகுதி மற்றும் கீழ்பகுதி
பிரிவில் வரும் வளைவுகள் எந்தெந்த எழுத்துக்களுக்கு எப்படி வரும் என்பதையும் நடுவில்
உள்ளவற்றோடு அவற்றை ஒத்திசைத்து முழு எழுத்தாக வெளிக்கொண்டு வருவது ஓசிஆர் நுட்பத்தில்
மிகவும் கடினமான செயலாகும். மேலும் கா, மெ, போன்ற துணையெழுத்துகள் வரும் எழுத்துக்களை
இணைத்து கொண்டு வருவதும் கருத்தில் கொள்ளப்பட வேண்டியாதகும். இவை தவிர, தமிழ்மொழியில்
ஏற்படும் ல-வ, க-சு, ன-ள போன்ற எழுத்துக்களின் வடிவ ஒற்றுமை பல சமயங்களில் குழப்பம்
விளைவிக்கும் ஒன்றாகும்.
மேலும் italic, bold போன்ற ஸ்டைல்கள் கலந்து
வருவது, பலவகை ஃபோண்ட்கள் கலந்து வருதல், பல்வேறு எழுத்து அளவுகள் கலந்து வருதல், பழைய
கிரந்த எழுத்துகள் கலந்திருத்தல், படங்கள் இணைந்திருத்தல், column பிரச்சினை போன்ற
எல்லா வகையான இடையூறுகளை சமாளிக்கும் வகையிலான மென்பொருள் தயாரிக்கப்பட வேண்டும்.
இதுவரை தமிழ் ஓசிஆர் மென்பொருள் வளர்ச்சியில்
எடுக்கப்பட்டுள்ள முயற்சிகளைக் காண்போம். 2002ஆம் ஆண்டு தமிழ்நாடு அரசு PonVizhi எனும் தமிழ் ஓசிஆர்
மென்பொருளை வெளியிட்டது. இந்த மென்பொருள் ஆவணங்களின் ஸ்கேன்கள் துல்லியமாக இருந்தால்
90% சிறப்பாக எழுத்துக்களை பிரதியெடுக்கின்றன. இருந்தபோதிலும் இந்த மென்பொருள் ஒரு
ஆரம்ப நிலை மென்பொருளாகவே இருக்கின்றது. இதுவரை இதில் பெரிதான மேம்பாடுகள் எதுவும்
வரவில்லை. இதுபோக இணையத்தில் gTamilOCR
எனும் மென்பொருளும் கிடைக்கின்றது. இது எவ்வகையில் செயல்படுகின்றதென தெரியவில்லை.
ஒரு முழுமையான தமிழ் ஓசிஆர் மென்பொருளை உருவாக்க
மென்பொருள் வல்லுநர்கள் முனைந்து கொண்டுதான் இருக்கிறார்கள். தமிழ் மட்டுமின்றி இந்திய
மொழிகள் பலவற்றிற்கும் ஓசிஆர் மென்பொருட்கள் உருவாக்கும் பணிகள் ஆங்காங்கே நடைபெற்று
வருகின்றன. புதிதாக முயற்சிப்பவர்களுக்கும், அதற்கான அடிப்படை மூலங்களும் தேவையான தகவல்களுக்கும்
இணையத்தில் ஏராளமாக கிடைக்கின்றன. கடினமான உழைப்பு மற்றும் முயற்சியுடன் முனைந்தால்
நிச்சயம் மேற்கண்ட அனைத்து இடையூறுகளையும் சரிசெய்யும் வகையிலான மென்பொருளை உருவாக்குவது
சாத்தியமே. ஆனால் அதற்கு எவ்வளவு காலம் ஆகும் என தெரியவில்லை. இம்முயற்சி வெற்றியடைந்தால்
அடுத்ததாக கையெழுத்துப் பிரதிகளை படியெடுக்கும் Handwriting recognition மென்பொருள்
உருவாக்கத்திற்கு அடியெடுத்து வைக்கலாம்.
11 comments:
ஞானாலயா என்பது புதுக்கோட்டையில் உள்ள தனிநபர்களால் நிர்வகிக்கப்படும் ஒரு நூலகம்.
இது தொடர்பாக நண்பர்கள் ஒன்றினைந்து சில காரியங்களை செய்ய முயற்சித்துக் கொண்டு
இருக்கின்றோம்.
ஒவ்வொரு நண்பர்களாக ஒன்று சேரத் தொடங்கினர். அப்போது தான்
இந்த ஓசிஆர் மென்பொருள் குறித்து எனக்கு புரிய வந்தது. இந்த கட்டுரையை எழுதியது
எஸ்.கே என்ற நண்பர்.
இவரின் தளத்தில் மென்பொருள் குறித்த ஏராளமான கட்டுரைகள் உண்டு.
திரு. எஸ்.கே வுக்கு நன்றி.
இவரைப்பற்றி தனியாக ஒரு பதிவே எழுதலாம் என்கிற அளவுக்கு நிறைய விசயங்கள் உண்டு. ஆச்சரியமான நண்பர். இவர் அடுத்த பகுதியாக இது குறித்து மேலும் விபரங்களை எழுதி தருகின்றேன் என்று சொல்லி இருக்கிறார்.
//தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை.//
புத்தக எழுத்தை வாசித்து மென் பொருள் வடிவில் மாற்றிக் கொள்ள எழுத்துரு (Font) வகைகள் தடையாக இருக்காது, அது படிக்கும் வகையில் தெளிவாக இருக்கிறதா என்பதே முக்கியம்.
எந்த எழுத்துருவில் புத்தகம் அச்சிட்டு இருந்தாலும், அதே வகை எழுத்துருவை படித்து மாற்றிக் கொள்வது தான் பிரச்சனையாக உள்ளது. எழுத்து வடிவம் ஆப்டிகல் குறியிடாக மாற்றும் பொழுது ஒரு எழுத்திற்கான வரைவு அளவுகள் குறிப்பிட்ட வடிவத்தினுள்ளும், அளவிலும் இருக்க வேண்டும் என்கிற வரையரையில் எழுத்தை படிப்பதற்கு மென்பொருள் உருவாக்குவார்கள், ஒவ்வொரு எழுத்துருவின் வரைவு அளவுகள் மாறுவதால் பொதுவான மென் பொருளை வைத்து மாற்ற முடியாமல் போய்விடுகிறது.
நமது உள்ளீடு படமாக இருப்பதால் யுனிக்கோட் பிரச்சனை இருக்காது என்று நினைக்கிறேன். எழுத்தின் வடிவமே பிரச்சனையாகயிருக்கும்.
நிங்கள் இணைத்துள்ள படம் மின்னஞ்சல் பிரதி என்பதால் பிறருக்குத் தெரியவில்லை. அதனை மீண்டும் புதிதாகப் பதிவேற்றுங்கள்
ஓ.சி.ஆர். நுட்பம்பற்றி விளக்கும் இணையத்தளங்களைப் பட்டியலிடுங்கள் . பிறருக்கு உதவலாம்
ஓசிஆர் இன்னும் கொஞ்சம் தகவல்கள் -
இந்த மென்பொருள் படங்களில் உள்ள எழுத்துக்களை இனம்கண்டு டெக்ஸ்டாக மாற்றுவதோடு நின்றுவிடுவதில்லை. ஒளியாகவும் அதாவது எழுத்துக்களை வார்த்தைகளாகப்படிக்க வைக்கும் வசதியும் கொண்டது. மைக்ரோசாப்ட் ரீடரில் .lit ரகக் கோப்பாக மாற்றி டெக்ஸ்டைப் படிக்கக் கேட்கவும் முடியும்.
1974 இல் இந்த ஓசிஆர் தொழில்நுட்பம் பார்வைக் குறைபாடு உள்ளவர்களுக்கும் கணினி செயல்பாடுகள் பயன்படுகிற மாதிரி விரிவடைந்தது.
ஓசிஆர் மென்பொருளை உருவாக்குவதில் கணிதத்தில் தேர்ச்சி அப்புறம் மொழி ஞானம் இரண்டுமே முக்கியத்தேவை. தமிழில் அப்படி இரண்டும் ஒன்று சேர வாய்ப்புக் கிட்டவில்லை என்பதனாலோ என்னவோ, இது வரை செய்யப்பட்ட முயற்சிகள் அப்படியே தேங்கி நிற்கின்றன.பொன்விழி வெர்ஷன் 2.1 வரை வந்த தகவல் இருக்கிறது.ஆனால், அதற்கு மேல் அபிவிருத்தி செய்யப்படவில்லை என்று கிழக்கு பத்ரி சொல்கிறார்.
டெசராக்ட் என்று கூகிள் கொட உபயோகித்துத் தமிழில் ஓபன் சோர்ஸ் தமிழ் ஓசிஆர் உருவாக்க முயற்சி மேற்கொள்ளப்பட்டது, ஒரு குறைந்தபட்ச ஊதியத்தைக் கூடத் தரமுடியாத நிலையில் அப்படியே நிற்கிறது. இப்போதும் குறைந்தபட்சம் ரூ. ஏழுலட்சம் (மூன்று வருட ஊதியம்) யாராவது ஸ்பான்சர் செய்ய முடிந்தால், ஆர்வமும் திறமையும் உள்ள ஒருவரைத் தேர்ந்தெடுத்து இந்தத் திட்டத்தை நிறைவேற்றித்தரத் தான் தயாராக இருப்பதாக திரு ம. ஸ்ரீ ராமதாஸ் சொல்கிறார். http://amachu.files.wordpress.com/2008/09/freesoftware_book.png
http://www.mitpressjournals.org/loi/coli you can download a quarterly magazine Computational Linguistics
ocr-ரைப் பற்றி விரிவான தகவல்கள்... நன்றி...
ஒரு மாதத்தில் 240௦ to 260௦ பக்கங்கள் ஆங்கிலத்தில் script இருக்கும். அதை நாம் word-இல் மாற்றித் தர வேண்டும்... (இரண்டு space இருந்தாலும் தவறு) அதில் ஆங்கில scripts விதவிதமாக இருக்கும். எப்படி இருந்தாலும் ocr-இல் கொடுத்தால் மாற்றிக் கொடுத்து விடும்... (சிறு சிறு பிழைகளோடு) ஒரு காலத்தில் 16 மாதங்கள் நான் அதை செய்தேன்... இதே போல் தமிழில் வந்தால் நன்றாக இருக்கும் என்று அப்போதே நினைத்ததுண்டு... மேலே (Krishna Moorthy S) ஐயா சொன்னது போல கூட இருக்கலாம். குறைந்தபட்சம் ரூ. ஏழுலட்சம் யாராவது தந்து உதவினால், தமிழுக்கு கிடைத்த வரப்பிரசாதம் என்று சொல்லலாம்... அரிய பல தமிழ் புத்தகங்களை அழியாமல் காக்கலாம்...
நன்றி…
தனபால் உங்கள் நீண்ட விமர்சனத்திற்கு நன்றி
உண்மையில் பயனுள்ள பகிர்வே இது ... தமிழில் OCR மென்பொருள்கள் மேம்பாடு அடைய வேண்டும். அதற்கான முயற்சிகளை முன்னெடுக்க வேண்டும் என நினைக்கின்றேன். அரசின் கையை எதிர்ப்பாராமல் தனியார் உதவியோடு செய்யலாம் ... !!! பல தெளிவுகள் பெற்றேன் இப்பதிவினால்.
OCR (Optical Character Recognition) பற்றிய
கட்டுரையும் அதற்கான தொடர்புடைய விளக்கங்களும்
ஓசிஆர் தொழிற்நுட்பத்தை எளிதாக புரிய வைத்தது நன்றி
விமர்சனங்களை, தங்கள் கருத்துக்களை பகிர்ந்து கொண்ட நண்பர்கள் அணைவருக்கும் நன்றி. இது தொடர்பான சுட்டிகள், விளக்கங்கள், தொடர்புகள் இருந்தால் இந்த விமர்சனத்தின் வாயிலாக பகிர்ந்து கொள்ளுங்க. நாலைந்து கட்டுரையாக பிரித்து எழுதப்படும் இந்த ஓசிஆர் குறித்து புரிந்து கொள்ள உதவும்.
எஸ் கே அவர்களின் தொடர்பு எண் கிடைக்குமா ? எனது ஓ சி ஆர் திட்டப்பணியின் போதும் ஞானாலயாவை பற்றி கேள்விப்பட்டேன். உடன் செயலாற்ற வேண்டிய விடயமிது. நன்றி.
http://manamplus.blogspot.in/
இது அவரின் வலைதளம். இதன் மூலம் அவரை தொடர்பு கொள்ள முயற்சிக்கவும். நன்றி.
Post a Comment