அஸ்திவாரம்

Monday, August 06, 2012

அடுத்த தலைமுறை தமிழ் -- OCR (Optical Character Recognition)

OCR (Optical Character Recognition) ஓசிஆர் மென்பொருள்களின் முக்கிய நோக்கம் பழைய ஆவணங்கள், புத்தகங்கள் போன்றவற்றை ஸ்கேன் செய்து அவற்றை மீண்டும் புதிய வகையில் பதிப்பிப்பதற்காக, திருத்தம் செய்யும் வகையிலான கோப்புகளாக உருவாக்குவதே ஆகும். மேலும் கோப்புகளை விரும்பும் வகையில் ஃபார்மெட் செய்யலாம், பல்வேறு டிவைஸ்களில் பயன்படுத்தும் வகையில் கோப்புகளை மாற்றியமைக்கலாம். 

ஆங்கிலத்தில் ஏராளமான வர்த்தகரீதியான மற்றும் கட்டற்ற இலவச மென்பொருள்கள் ஏராளமாக உள்ளன. ஆனால் இந்திய மொழிகளில், அதுவும் தமிழ் மொழியில் சிறப்பான ஓசிஆர் மென்பொருள் இதுவரை உருவாக்கப்படவில்லை.

ஏன் உருவாக்கப்படவில்லை? என ஒரு கேள்வி எழலாம். அதற்கு ஓரளவிற்கு இந்த கட்டுரை பதில் கூறும். தமிழ் ஓசிஆர் மென்பொருள் உருவாக்கப்படுவதில் எழக்கூடிய இடையூறுகள் பற்றி காண்போம்.

Scan:
பெரும்பாலும் ஓசிஆர் மென்பொருட்களின் முக்கிய நோக்கமே பழைய ஆவணங்களை புதுப்பிப்பதே ஆகும். எனவே அவ்வகை பழைய ஆவணங்களின் பதிப்பு சற்று சேதப்பட்டு இருப்பதற்கான சாத்தியக்கூறுகள் அதிகம். எனவே இவ்வகை ஆவணங்களை ஸ்கேன் செய்யும்பொழுது அதில் தெளிவற்ற படங்கள் கிடைக்கும் வாய்ப்பு அதிகமாகின்றது. இந்த தெளிவற்ற படங்களிலிருந்து ஓசிஆர் மென்பொருள் மூலம் துல்லியமான எழுத்து வடிவங்களை கொண்டு வருவது என்பது மிக கடினமான வேலையாகும்.

Font:
தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை. எனவே இப்படிப்பட்ட மென்பொருட்களில் non-unicode வகை ஃபோண்ட்களே பயன்படுத்தப்படுகின்றது. இவற்றிலும் tscii, tab, tam, shrilipi போன்று பலவகையான ஃபோண்ட்கள் உள்ளன. ஒவ்வொரு பதிப்பாளரும் தனக்கென ஒவ்வொரு வகையான ஃபோண்ட்களை பயன்படுத்துகின்றன. எனவே ஓசிஆர் உருவாக்கப்படும்போது ஒவ்வொன்றின் எழுத்து வடிவம், அவற்றின் நுணுக்கமான வேறுபாடுகள் என எல்லாவற்றை கருத்தில் கொண்டு உருவாக்கப்பட வேண்டியது அவசியமாகின்றது.

Script:
Inline image 1
தமிழ் மொழியின் எழுத்து வடிவமைப்பு ஓசிஆர் உருவாக்கத்தில் மிகவும் கவனத்தில் எடுத்துக்கொள்ள வேண்டிய அம்சமாகும். மேற்கண்ட படத்தில் காணுமாறு எழுத்துக்கள் மூன்று பிரிவுகளை கொண்டதாக அமைகின்றது. மேல்பகுதி மற்றும் கீழ்பகுதி பிரிவில் வரும் வளைவுகள் எந்தெந்த எழுத்துக்களுக்கு எப்படி வரும் என்பதையும் நடுவில் உள்ளவற்றோடு அவற்றை ஒத்திசைத்து முழு எழுத்தாக வெளிக்கொண்டு வருவது ஓசிஆர் நுட்பத்தில் மிகவும் கடினமான செயலாகும். மேலும் கா, மெ, போன்ற துணையெழுத்துகள் வரும் எழுத்துக்களை இணைத்து கொண்டு வருவதும் கருத்தில் கொள்ளப்பட வேண்டியாதகும். இவை தவிர, தமிழ்மொழியில் ஏற்படும் ல-வ, க-சு, ன-ள போன்ற எழுத்துக்களின் வடிவ ஒற்றுமை பல சமயங்களில் குழப்பம் விளைவிக்கும் ஒன்றாகும்.

மேலும் italic, bold போன்ற ஸ்டைல்கள் கலந்து வருவது, பலவகை ஃபோண்ட்கள் கலந்து வருதல், பல்வேறு எழுத்து அளவுகள் கலந்து வருதல், பழைய கிரந்த எழுத்துகள் கலந்திருத்தல், படங்கள் இணைந்திருத்தல், column பிரச்சினை போன்ற எல்லா வகையான இடையூறுகளை சமாளிக்கும் வகையிலான மென்பொருள் தயாரிக்கப்பட வேண்டும்.

இதுவரை தமிழ் ஓசிஆர் மென்பொருள் வளர்ச்சியில் எடுக்கப்பட்டுள்ள முயற்சிகளைக் காண்போம். 2002ஆம் ஆண்டு தமிழ்நாடு அரசு PonVizhi எனும் தமிழ் ஓசிஆர் மென்பொருளை வெளியிட்டது. இந்த மென்பொருள் ஆவணங்களின் ஸ்கேன்கள் துல்லியமாக இருந்தால் 90% சிறப்பாக எழுத்துக்களை பிரதியெடுக்கின்றன. இருந்தபோதிலும் இந்த மென்பொருள் ஒரு ஆரம்ப நிலை மென்பொருளாகவே இருக்கின்றது. இதுவரை இதில் பெரிதான மேம்பாடுகள் எதுவும் வரவில்லை. இதுபோக இணையத்தில் gTamilOCR எனும் மென்பொருளும் கிடைக்கின்றது. இது எவ்வகையில் செயல்படுகின்றதென தெரியவில்லை.

ஒரு முழுமையான தமிழ் ஓசிஆர் மென்பொருளை உருவாக்க மென்பொருள் வல்லுநர்கள் முனைந்து கொண்டுதான் இருக்கிறார்கள். தமிழ் மட்டுமின்றி இந்திய மொழிகள் பலவற்றிற்கும் ஓசிஆர் மென்பொருட்கள் உருவாக்கும் பணிகள் ஆங்காங்கே நடைபெற்று வருகின்றன. புதிதாக முயற்சிப்பவர்களுக்கும், அதற்கான அடிப்படை மூலங்களும் தேவையான தகவல்களுக்கும் இணையத்தில் ஏராளமாக கிடைக்கின்றன. கடினமான உழைப்பு மற்றும் முயற்சியுடன் முனைந்தால் நிச்சயம் மேற்கண்ட அனைத்து இடையூறுகளையும் சரிசெய்யும் வகையிலான மென்பொருளை உருவாக்குவது சாத்தியமே. ஆனால் அதற்கு எவ்வளவு காலம் ஆகும் என தெரியவில்லை. இம்முயற்சி வெற்றியடைந்தால் அடுத்ததாக கையெழுத்துப் பிரதிகளை படியெடுக்கும் Handwriting recognition மென்பொருள் உருவாக்கத்திற்கு அடியெடுத்து வைக்கலாம். 

11 comments:

  1. ஞானாலயா என்பது புதுக்கோட்டையில் உள்ள தனிநபர்களால் நிர்வகிக்கப்படும் ஒரு நூலகம்.
    இது தொடர்பாக நண்பர்கள் ஒன்றினைந்து சில காரியங்களை செய்ய முயற்சித்துக் கொண்டு
    இருக்கின்றோம்.

    ஒவ்வொரு நண்பர்களாக ஒன்று சேரத் தொடங்கினர். அப்போது தான்
    இந்த ஓசிஆர் மென்பொருள் குறித்து எனக்கு புரிய வந்தது. இந்த கட்டுரையை எழுதியது
    எஸ்.கே என்ற நண்பர்.

    இவரின் தளத்தில் மென்பொருள் குறித்த ஏராளமான கட்டுரைகள் உண்டு.

    திரு. எஸ்.கே வுக்கு நன்றி.

    இவரைப்பற்றி தனியாக ஒரு பதிவே எழுதலாம் என்கிற அளவுக்கு நிறைய விசயங்கள் உண்டு. ஆச்சரியமான நண்பர். இவர் அடுத்த பகுதியாக இது குறித்து மேலும் விபரங்களை எழுதி தருகின்றேன் என்று சொல்லி இருக்கிறார்.

    ReplyDelete
    Replies
    1. எஸ் கே அவர்களின் தொடர்பு எண் கிடைக்குமா ? எனது ஓ சி ஆர் திட்டப்பணியின் போதும் ஞானாலயாவை பற்றி கேள்விப்பட்டேன். உடன் செயலாற்ற வேண்டிய விடயமிது. நன்றி.

      Delete
    2. http://manamplus.blogspot.in/

      இது அவரின் வலைதளம். இதன் மூலம் அவரை தொடர்பு கொள்ள முயற்சிக்கவும். நன்றி.

      Delete
  2. //தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை.//

    புத்தக எழுத்தை வாசித்து மென் பொருள் வடிவில் மாற்றிக் கொள்ள எழுத்துரு (Font) வகைகள் தடையாக இருக்காது, அது படிக்கும் வகையில் தெளிவாக இருக்கிறதா என்பதே முக்கியம்.

    எந்த எழுத்துருவில் புத்தகம் அச்சிட்டு இருந்தாலும், அதே வகை எழுத்துருவை படித்து மாற்றிக் கொள்வது தான் பிரச்சனையாக உள்ளது. எழுத்து வடிவம் ஆப்டிகல் குறியிடாக மாற்றும் பொழுது ஒரு எழுத்திற்கான வரைவு அளவுகள் குறிப்பிட்ட வடிவத்தினுள்ளும், அளவிலும் இருக்க வேண்டும் என்கிற வரையரையில் எழுத்தை படிப்பதற்கு மென்பொருள் உருவாக்குவார்கள், ஒவ்வொரு எழுத்துருவின் வரைவு அளவுகள் மாறுவதால் பொதுவான மென் பொருளை வைத்து மாற்ற முடியாமல் போய்விடுகிறது.

    ReplyDelete
  3. நமது உள்ளீடு படமாக இருப்பதால் யுனிக்கோட் பிரச்சனை இருக்காது என்று நினைக்கிறேன். எழுத்தின் வடிவமே பிரச்சனையாகயிருக்கும்.

    நிங்கள் இணைத்துள்ள படம் மின்னஞ்சல் பிரதி என்பதால் பிறருக்குத் தெரியவில்லை. அதனை மீண்டும் புதிதாகப் பதிவேற்றுங்கள்

    ஓ.சி.ஆர். நுட்பம்பற்றி விளக்கும் இணையத்தளங்களைப் பட்டியலிடுங்கள் . பிறருக்கு உதவலாம்

    ReplyDelete
  4. ஓசிஆர் இன்னும் கொஞ்சம் தகவல்கள் -

    இந்த மென்பொருள் படங்களில் உள்ள எழுத்துக்களை இனம்கண்டு டெக்ஸ்டாக மாற்றுவதோடு நின்றுவிடுவதில்லை. ஒளியாகவும் அதாவது எழுத்துக்களை வார்த்தைகளாகப்படிக்க வைக்கும் வசதியும் கொண்டது. மைக்ரோசாப்ட் ரீடரில் .lit ரகக் கோப்பாக மாற்றி டெக்ஸ்டைப் படிக்கக் கேட்கவும் முடியும்.

    1974 இல் இந்த ஓசிஆர் தொழில்நுட்பம் பார்வைக் குறைபாடு உள்ளவர்களுக்கும் கணினி செயல்பாடுகள் பயன்படுகிற மாதிரி விரிவடைந்தது.

    ஓசிஆர் மென்பொருளை உருவாக்குவதில் கணிதத்தில் தேர்ச்சி அப்புறம் மொழி ஞானம் இரண்டுமே முக்கியத்தேவை. தமிழில் அப்படி இரண்டும் ஒன்று சேர வாய்ப்புக் கிட்டவில்லை என்பதனாலோ என்னவோ, இது வரை செய்யப்பட்ட முயற்சிகள் அப்படியே தேங்கி நிற்கின்றன.பொன்விழி வெர்ஷன் 2.1 வரை வந்த தகவல் இருக்கிறது.ஆனால், அதற்கு மேல் அபிவிருத்தி செய்யப்படவில்லை என்று கிழக்கு பத்ரி சொல்கிறார்.

    டெசராக்ட் என்று கூகிள் கொட உபயோகித்துத் தமிழில் ஓபன் சோர்ஸ் தமிழ் ஓசிஆர் உருவாக்க முயற்சி மேற்கொள்ளப்பட்டது, ஒரு குறைந்தபட்ச ஊதியத்தைக் கூடத் தரமுடியாத நிலையில் அப்படியே நிற்கிறது. இப்போதும் குறைந்தபட்சம் ரூ. ஏழுலட்சம் (மூன்று வருட ஊதியம்) யாராவது ஸ்பான்சர் செய்ய முடிந்தால், ஆர்வமும் திறமையும் உள்ள ஒருவரைத் தேர்ந்தெடுத்து இந்தத் திட்டத்தை நிறைவேற்றித்தரத் தான் தயாராக இருப்பதாக திரு ம. ஸ்ரீ ராமதாஸ் சொல்கிறார். http://amachu.files.wordpress.com/2008/09/freesoftware_book.png

    http://www.mitpressjournals.org/loi/coli you can download a quarterly magazine Computational Linguistics

    ReplyDelete
  5. ocr-ரைப் பற்றி விரிவான தகவல்கள்... நன்றி...

    ஒரு மாதத்தில் 240௦ to 260௦ பக்கங்கள் ஆங்கிலத்தில் script இருக்கும். அதை நாம் word-இல் மாற்றித் தர வேண்டும்... (இரண்டு space இருந்தாலும் தவறு) அதில் ஆங்கில scripts விதவிதமாக இருக்கும். எப்படி இருந்தாலும் ocr-இல் கொடுத்தால் மாற்றிக் கொடுத்து விடும்... (சிறு சிறு பிழைகளோடு) ஒரு காலத்தில் 16 மாதங்கள் நான் அதை செய்தேன்... இதே போல் தமிழில் வந்தால் நன்றாக இருக்கும் என்று அப்போதே நினைத்ததுண்டு... மேலே (Krishna Moorthy S) ஐயா சொன்னது போல கூட இருக்கலாம். குறைந்தபட்சம் ரூ. ஏழுலட்சம் யாராவது தந்து உதவினால், தமிழுக்கு கிடைத்த வரப்பிரசாதம் என்று சொல்லலாம்... அரிய பல தமிழ் புத்தகங்களை அழியாமல் காக்கலாம்...

    நன்றி…

    ReplyDelete
  6. தனபால் உங்கள் நீண்ட விமர்சனத்திற்கு நன்றி

    ReplyDelete
  7. உண்மையில் பயனுள்ள பகிர்வே இது ... தமிழில் OCR மென்பொருள்கள் மேம்பாடு அடைய வேண்டும். அதற்கான முயற்சிகளை முன்னெடுக்க வேண்டும் என நினைக்கின்றேன். அரசின் கையை எதிர்ப்பாராமல் தனியார் உதவியோடு செய்யலாம் ... !!! பல தெளிவுகள் பெற்றேன் இப்பதிவினால்.

    ReplyDelete
  8. OCR (Optical Character Recognition) பற்றிய
    கட்டுரையும் அதற்கான தொடர்புடைய விளக்கங்களும்
    ஓசிஆர் தொழிற்நுட்பத்தை எளிதாக புரிய வைத்தது நன்றி

    ReplyDelete
  9. விமர்சனங்களை, தங்கள் கருத்துக்களை பகிர்ந்து கொண்ட நண்பர்கள் அணைவருக்கும் நன்றி. இது தொடர்பான சுட்டிகள், விளக்கங்கள், தொடர்புகள் இருந்தால் இந்த விமர்சனத்தின் வாயிலாக பகிர்ந்து கொள்ளுங்க. நாலைந்து கட்டுரையாக பிரித்து எழுதப்படும் இந்த ஓசிஆர் குறித்து புரிந்து கொள்ள உதவும்.

    ReplyDelete

கேட்பது தவறு. கொடுப்பது சிறப்பு.