அஸ்திவாரம்

Wednesday, August 08, 2012

கன்னித்தமிழ் இனியென்றும் கணினி தமிழ்

புதியதாக ஒரு ஓசிஆர் மென்பொருளை உருவாக்க வேண்டும் என்கிறபோது அதை உருவாக்க ஏற்ற கணிணி மொழிகளை அறிந்திருக்க வேண்டிய அவசியமாகின்றது. நமது தேவைகளுக்கு ஏற்ப (CODE) கோடிங்களை உருவாக்கி முழுமையாக்க நேரம் மற்றும் உழைப்பு நிறையவே தேவைப்படுகின்றது. அதுவும் தமிழ் மொழி போன்ற இந்திய மொழிகளுக்கு இன்னும் அதிகமாக இரண்டும் தேவைப்படும்.  


இந்நிலையில் ஏற்கனவே உள்ள சில மென்பொருட்களை கொண்டு புதிய மொழிகளுக்கு பயிற்சி அளிக்க முடியும். அவற்றை ocr engine என அழைக்கின்றனர்.Ocrad, Gocr என பலதரப்பட்ட ocr engine-கள் கிடைத்த போதிலும், பரவலாக தமிழ் ocr தயாரிக்க பயன்படுத்தப்படும் engine – Tesseract ocr engine ஆகும்.

Tesseract ஒரு இலவச ஓசிஆர் எஞ்சின் ஆகும். இதை எல்லா வகையான கணிணிகளிலும் பயன்படுத்த முடியும். இதுவரை மூன்று வெர்சன்களில் வந்துள்ள இம்மென்பொருள் ஏற்கனவே பல மொழிகளில் ocr பயன்பாட்டிற்காக பயன்படுத்தப்படுகின்றது. தமிழில் ocr மென்பொருளை உருவாக்க இதன் மூலம் முயற்சிகள் எடுக்கப்பட்டு வருகின்றன.  அடிப்படையாக இதில் ஸ்கேன் செய்யப்பட்ட எழுத்துக்களின் படங்களை கொண்டு ஒரு மொழியை பழக்கப்படுத்துகின்றனர்.

இம்மென்பொருளை இங்கே டவுன்லோட் செய்து கொள்ளலாம்.

புதிய மொழி ஒன்றிற்கு பயிற்சியளிக்கும் முறைகள் குறித்து இங்கே காணலாம்

அதிகமான மென்பொருள் அறிவு இல்லாத போதும், இம்மென்பொருளைக் கொண்டு தமிழ் ஓசிஆர் உருவாக்கும் பணிகளை முயற்சிக்க முடியும் என்கின்றனர். இருப்பினும் மேலே சொன்னது போல உழைப்பும் நேரமும் தேவைப்படுவதால் அது எப்போது முழுமையடையும் என காத்திருக்க வேண்டியுள்ளது. infitt  போன்ற அமைப்புகள் தொடர்ந்து தமிழ் ஓசிஆர் குறித்து ஆய்வுகள் செய்து வருகின்றன. கூடுதலாக தனிப்பட்ட முறையிலும் சில முயற்சிகள் நடக்கின்றன. அதன் ஒரு பலனாக tesseract மென்பொருள் கொண்டு தமிழுக்கான சில மொழிப்பயிற்சி தரவுகளை உருவாக்கியுள்ளனர்.

மேலும் அறிந்துகொள்ள சில கட்டுரைகள்:






2 comments:

  1. மிக்க நன்றி நண்பரே...

    நீங்கள் கொடுத்த தளங்களை சென்று பார்க்கிறேன்...

    தொடர வாழ்த்துக்கள்...

    ReplyDelete

கேட்பது தவறு. கொடுப்பது சிறப்பு.