हिंदी में छपे पेजों की खुद होगी टाइपिंग यानी हार्ड कॉपी से सॉफ्ट कॉपी
आज हम बताएँगे ऐसे दो तरीके, जिनसे आप हिंदी की हार्ड कॉपी को सॉफ्ट कॉपी में बदल सकते हैं।
स्कैन किए गए दस्तावेजों को टेक्स्ट फॉर्मैट में बदलने की गूगल की सुविधा सिर्फ अंग्रेजी तक सीमित नहीं है। यह करीब तीन दर्जन भाषाओं में उपलब्ध है, जिनमें हिंदी भी शामिल है। हालांकि हिंदी के इमेज-आधारित दस्तावेजों को कन्वर्ट करने पर हासिल होने वाले टेक्स्ट में बहुत गलतियां होती हैं। इसकी भारी प्रूफ रीडिंग करनी होगी। ऐसे में हिंदी में गूगल ड्राइव की ओसीआर सुविधा ज्यादा व्यावहारिक महसूस नहीं होती।
गूगल ड्राइव के अलावा कुछ और ओसीआर सॉफ्टवेयर हैं, जो हिंदी को ठीक-ठाक सपोर्ट करते हैं। इनमें वेब आधारित ओसीआर सर्विसेज भी शामिल हैं और कंप्यूटर में इन्स्टॉल होने वाले सॉफ्टवेयर भी।
www.i2ocr.com वेबसाइट दूसरी भाषाओं के साथ-साथ हिंदी टेक्स्ट रिकॉग्निशन की सुविधा भी देती है। यह पीडीएफ दस्तावेजों को नहीं पहचानती, इसलिए अपने दस्तावेज को स्कैन करने के बाद इमेज फाइल फॉर्मैट में सेव करें, जैसे jpg, bmp, png वगैरह। यह सुविधा फ्री में उपलब्ध है। IndSenz नाम की विदेशी कंपनी के डिवेलपर ओलिवर हेलविग की तरफ से विकसित IndSenz Hindi OCR सॉफ्टवेयर साधारण फॉर्मैटिंग वाले हिंदी टेक्स्ट के रिकॉग्निशन का काम बखूबी करता है, लेकिन यह फ्री नहीं है। आइए, देखते हैं ये दोनों सर्विसेज कैसे काम करती हैं :
वेब आधारित OCR
1. सबसे पहले www.i2ocr.com/free-online-hindi-ocr पर जाएं।
2. नीचे की तरफ, जहां Let’s OCR लिखा है, वहां Step 1 के तहत आपकी स्कैन फाइल को अपलोड करने की सुविधा मौजूद है। अपलोड करने के लिए कंप्यूटर में मौजूद स्कैन इमेज फाइल को चुन लें।
3. अब वेबसाइट पर Step 2 पर नजर डालें। यहां Hindi भाषा चुनी हुई होनी चाहिए। नहीं है, तो हिंदी को सिलेक्ट कर लें।
4. अब Step 3 पर मौजूद Extract Text बटन दबाएं, जिससे आपकी फाइल के अपलोड होने और उसके भीतर मौजूद टेक्स्ट को पहचानने की प्रक्रिया शुरू हो जाएगी।
5. इसी वेब पेज पर दो बॉक्स खुल जाएंगे। इनमें से लेफ्ट वाले बॉक्स में टेक्स्ट दिखाई देगा। इस टेक्स्ट को कॉपी कर अपने कंप्यूटर में खुली हुई वर्ड फाइल में पेस्ट कर लें। अब जरूरत के लिहाज से एडिट कर लें।
6. आप देख सकते हैं कि सामान्य फॉर्मैटिंग वाले हिंदी टेक्स्ट का 90 फीसदी शुद्धता के साथ कन्वर्जन हो जाता है। अगर संबंधित इमेज फाइल आपके कंप्यूटर में नहीं बल्कि किसी वेबसाइट पर है तो यहां उसका वेब अड्रेस देकर सीधे टेक्स्ट कन्वर्जन मुमकिन है।
सॉफ्टवेयर के जरिए कन्वर्जन
इंडसेन्ज़ कंपनी की तरफ से विकसित हिंदी ओसीआर सॉफ्टवेयर को www.indsenz.com वेबसाइट से डाउनलोड किया जा सकता है। इसे आजमाने के लिए फ्री वर्जन डाउनलोड किया जा सकता है, हालांकि वह सिर्फ सॉफ्टवेयर की क्षमताओं का प्रदर्शन भर करता है। फ्री वर्जन के जरिए इमेज फाइल से निकाला गया टेक्स्ट इस्तेमाल करना संभव नहीं है, क्योंकि इसे न तो फाइल की शक्ल में सेव किया जा सकता है और न ही कट-कॉपी-पेस्ट के जरिए ही सॉफ्टवेयर से बाहर ले जाया जा सकता है। बहरहाल, ट्रायल वर्जन अपनी क्षमताओं का बखूबी प्रदर्शन कर देता है। अगर आप इसका दफ्तर के काम-काज में नियमित रूप से इस्तेमाल करने के इच्छुक हैं तो आपको पेड वर्जन खरीदना होगा। इसके दो पेड वर्जन हैं। सामान्य वर्जन की कीमत करीब 12 हजार रुपए है, जबकि प्रफेशनल वर्जन करीब 16 हजार रुपए का पड़ेगा।
कैसे काम करता है
1. सबसे पहले indsenz.com से हिंदी ओसीआर सॉफ्टवेयर डाउनलोड कर कंप्यूटर में इन्स्टॉल करें। अब सॉफ्टवेयर को लॉन्च करें।
2. इसके फाइल मेनू में Open Images पर क्लिक करें।
4. अब खुलने वाले डायलॉग बॉक्स में अपनी स्कैन फाइल को चुन लें। यहां इमेज के साथ-साथ पीडीएफ फाइल को भी इस्तेमाल किया जा सकता है।
5. सॉफ्टवेयर के ऊपरी हिस्से में टूलबार में बने बटनों पर नजर डालें। यहां लेंस के आइकन वाले बटन पर माउस ले जाने पर Start the text recognition दिखाई देगा। इस बटन को क्लिक करे।
6. इससे इमेज फाइल में मौजूद टेक्स्ट को पहचानने की प्रक्रिया शुरू हो जाएगी। पहचाने गए टेक्स्ट को नीचे की ओर मौजूद बॉक्स में दिखाया जाएगा।
7. आप देख सकते हैं कि इस बॉक्स में माउस का कर्सर दिखाई दे रहा है और इस टेक्स्ट को सिलेक्ट करना मुमकिन है। जाहिर है, यह इमेज नहीं बल्कि टाइप किए हुए मैटर जैसा है।