Wednesday, August 08, 2012

கன்னித்தமிழ் இனியென்றும் கணினி தமிழ்

புதியதாக ஒரு ஓசிஆர் மென்பொருளை உருவாக்க வேண்டும் என்கிறபோது அதை உருவாக்க ஏற்ற கணிணி மொழிகளை அறிந்திருக்க வேண்டிய அவசியமாகின்றது. நமது தேவைகளுக்கு ஏற்ப (CODE) கோடிங்களை உருவாக்கி முழுமையாக்க நேரம் மற்றும் உழைப்பு நிறையவே தேவைப்படுகின்றது. அதுவும் தமிழ் மொழி போன்ற இந்திய மொழிகளுக்கு இன்னும் அதிகமாக இரண்டும் தேவைப்படும்.  


இந்நிலையில் ஏற்கனவே உள்ள சில மென்பொருட்களை கொண்டு புதிய மொழிகளுக்கு பயிற்சி அளிக்க முடியும். அவற்றை ocr engine என அழைக்கின்றனர்.Ocrad, Gocr என பலதரப்பட்ட ocr engine-கள் கிடைத்த போதிலும், பரவலாக தமிழ் ocr தயாரிக்க பயன்படுத்தப்படும் engine – Tesseract ocr engine ஆகும்.

Tesseract ஒரு இலவச ஓசிஆர் எஞ்சின் ஆகும். இதை எல்லா வகையான கணிணிகளிலும் பயன்படுத்த முடியும். இதுவரை மூன்று வெர்சன்களில் வந்துள்ள இம்மென்பொருள் ஏற்கனவே பல மொழிகளில் ocr பயன்பாட்டிற்காக பயன்படுத்தப்படுகின்றது. தமிழில் ocr மென்பொருளை உருவாக்க இதன் மூலம் முயற்சிகள் எடுக்கப்பட்டு வருகின்றன.  அடிப்படையாக இதில் ஸ்கேன் செய்யப்பட்ட எழுத்துக்களின் படங்களை கொண்டு ஒரு மொழியை பழக்கப்படுத்துகின்றனர்.

இம்மென்பொருளை இங்கே டவுன்லோட் செய்து கொள்ளலாம்.

புதிய மொழி ஒன்றிற்கு பயிற்சியளிக்கும் முறைகள் குறித்து இங்கே காணலாம்

அதிகமான மென்பொருள் அறிவு இல்லாத போதும், இம்மென்பொருளைக் கொண்டு தமிழ் ஓசிஆர் உருவாக்கும் பணிகளை முயற்சிக்க முடியும் என்கின்றனர். இருப்பினும் மேலே சொன்னது போல உழைப்பும் நேரமும் தேவைப்படுவதால் அது எப்போது முழுமையடையும் என காத்திருக்க வேண்டியுள்ளது. infitt  போன்ற அமைப்புகள் தொடர்ந்து தமிழ் ஓசிஆர் குறித்து ஆய்வுகள் செய்து வருகின்றன. கூடுதலாக தனிப்பட்ட முறையிலும் சில முயற்சிகள் நடக்கின்றன. அதன் ஒரு பலனாக tesseract மென்பொருள் கொண்டு தமிழுக்கான சில மொழிப்பயிற்சி தரவுகளை உருவாக்கியுள்ளனர்.

மேலும் அறிந்துகொள்ள சில கட்டுரைகள்:






3 comments:

திண்டுக்கல் தனபாலன் said...

மிக்க நன்றி நண்பரே...

நீங்கள் கொடுத்த தளங்களை சென்று பார்க்கிறேன்...

தொடர வாழ்த்துக்கள்...

arul said...

useful info thanks

Syed Zeeshan Ali said...

This post seem very yummy!!! I love chocolate!
Technology, Free Software and Best Tutorial
your blog is good! I'll visit again :)
God Bless You