08 सितंबर 2009

यूनिकोड-विश्वस्तरीय मानक

दिलीप कुमार सिंह
शोध छात्र, आई आई आई टी, हैदराबाद


सूचना प्रौद्योगिकी के क्षेत्र में हर पल प्रौद्योगिकी बदलती रहती है और पहले से अधिक उन्नत होती रहती है। इसी क्रम में हाल ही के वर्षों में सूचना भंडारण की एक आधुनिकतम पद्धति लोकप्रिय होती जा रही है जिसे यूनिकोड कहा जाता है। यह एक ऐसी तकनीकी है जिसकी मदद से हम बिना अंग्रेजी को जाने कम्प्यूटर की क्षमताओं को प्रयोग करने की स्थिति में आ रहे हैं। यह प्रोद्योगिकी एक आम कम्प्यूटर को विश्व की सभी भाषाओं में काम करने में सक्षम बना सकती है।

यूनिकोड का इतिहास
1987 मे जेरोक्स कंपनी के जो बेकर और एपल कंपनी के मार्क डेविस द्वारा यूनिवर्सल कैरेक्टर सेट के निर्माण पर अनुसंधान के साथ ही यूनिकोड की उत्पत्ति हुई। अगले वर्ष अगस्त में जो बेकर ने इंटरनेशनल/मल्टिलिंगुअल टेक्स्ट कैरेक्टर इनकोडिंग सिस्टम पर एक शोध पत्र प्रकाशित किया जिसमें प्रायोगिक रूप से यूनिकोड 88 शीर्षक के अंतर्गत 16 बिट कैरेक्टर माडल प्रस्तुत किया। उनका मूल 16 बिट डिजाईन वाला कैरेक्टर माडल इस विचारधारा पर आधारित था कि आधुनिक प्रयोग में आने वाली लिपियों और कैरेक्टरों को इनकोड किए जाने की आवश्यकता होगी। कैलीफोर्निया में स्थित यूनिकोड कांसर्टियम ने यूनिकोड स्टैंडर्ड को विकसित किया। इस कांसर्टियम द्वारा 1991 मे पहली बार दि यूनिकोड स्टैंडर्ड को प्रकाशित किया गया। इसका सबसे अद्यतन संस्करण यूनिकोड 5.0 सन 2007 मे प्रकाशित हुआ। करीब करीब सभी आधुनिक लिपियों को यूनिकोड के अंतर्गत समाहित किया गया है।

यूनिकोड
यूनिकोड प्रत्येक अक्षर के लिए एक विशेष संख्या प्रदान करता है चाहे कोई भी प्लेटफार्म (प्रोग्राम) अथवा कोई भी भाषा हो। ऐपल, एच.पी., आई.बी.एम., जस्ट सिस्टम, माइक्रोसाफ्ट, ओरैकल, सैप, सन, साईबेस, यूनिसिस जैसी उद्योग जगत की दिग्गज कंपनियों ने यूनिकोड स्टैण्डर्ड अपनाया है। यूनिकोड की आवश्यकता आधुनिक मानदंडों जैसे एक्स.एम.एल., जावा, जावास्क्रिप्ट, एल.डी.ए.पी., कोर्बा 3.0, ड्ब्ल्यू.एम.एल. के लिए होती है और यह आई.एस.ओ./आई.ई.सी. 10646 को लागू करने का आधिकारिक तरीका है।
मूल रूप से कम्प्यूटर केवल संख्याओं से संबंध रखते हैं। ये प्रत्येक अक्षर और वर्ण के लिए एक संख्या निर्धारित करके अक्षर और वर्ण संग्रहीत करते हैं। यूनिकोड के आविष्कार से पहले ऐसी संख्या देने के लिए सैकडों संकेत लिपि प्रणालियां थी। किसी एक संकेत लिपि में पर्याप्त अक्षर नहीं हो सकते हैं। उदाहरण के लिए-यूरोपीय संघ को अकेले ही अपने सभी भाषाओं को कवर करने के लिए अनेक विभिन्न संकेत लिपियों की आवश्यकता होती है। अंग्रेजी जैसी भाषा के लिए भी, सभी अक्षरों, विरामचिन्हों और सामान्य प्रयोग के तकनीकी प्रतीकों हेतु एक ही संकेत लिपि पर्याप्त नहीं थी।
ये संकेत लिपि प्रणालियां परस्पर विरोधी भी हैं। इसीलिए, दो संकेत लिपियां दो विभिन्न अक्षरों के लिए, एक ही नंबर प्रयोग कर सकती हैं, अथवा समान अक्षर के लिए विभिन्न नम्बरों का प्रयोग कर सकती हैं। किसी भी कम्प्यूटर (विशेष रूप से सर्वर) को विभिन्न संकेत लिपियां संभालनी पड़ती है; फिर भी जब दो विभिन्न संकेत लिपियों अथवा प्लेटफॉर्म (कम्प्यूटर) । प्लेटफॉर्मों के बीच डाटा भेजा जाता है तो उस डाटा के हमेशा खराब होने का जोखिम रहता है।
परम्परागत फोंट की ही तरह से यूनिकोड फोंट भी सिर्फ डेटा स्टोरेज संबंधी एनकोडिंग मानक ही हैं लेकिन यूनिकोड फोंट के प्रयोग से कम्प्यूटरों की कार्य प्रणाली में और उनके इस्तेमाल के तौर-तरीकों में क्रांतिकारी बदलाव आ गया है क्योंकि डेटा ही कम्प्यूटरों के संचालन का केन्द्र बिन्दु है। कम्प्यूटर से कुछ भी काम लेने के लिए पहले हमें उसमें कुछ इनपुट डालना पडता है तभी वांछित आउटपुट प्राप्त होता है। इन दोनों प्रक्रियाओं (इनपुट और आउटपुट) में जिन सूचनाओं (डाटा) का प्रयोग होता है उसे कम्प्यूटर पर अंकों के रूप में स्टोर किया जाता है क्योंकि वह सिर्फ अंकों की भाषा जानता है और वह भी सिर्फ दो अंकों ‘शून्य और एक’ की भाषा। इन दो अंकों को अलग-अलग तरीकों पारस्परिक संयोजन करके भिन्न-भिन्न डेटा को कम्प्यूटर में रखा जा सकता है। मिसाल के तौर पर 01000001 का अर्थ अंग्रेजी का कैपिटल ‘ए’ अक्षर और 00110001 से तात्पर्य ‘1’ का अंक है।
एनकोडिंग एक ऐसी प्रणाली है जो अक्षर या पाठ्य सामग्री और कम्प्यूटर पर स्टोर किए जाने वाले बाइनरी डिजिट्स के बीच सामंजस्य बिठाती हैं। एनकोडिंग में निर्धारित कोड के द्वारा कम्प्यूटर यह तय करता है कि किस बाइनरी कोड के लिए कौन सा अक्षर या अंक प्रदर्शित किया जाए। किस एनकोडिंग में कितने बाइनरी अंक प्रयुक्त होते हैं, इस पर उसकी क्षमता और नामकरण निर्भर होते हैं। उदाहरणार्थ- लोकप्रिय एस्की एनकोडिंग को 7 बिट एनकोडिंग कहा जाता है क्योंकि इसमें हर संकेत या सूचना के भंडारण के लिए ऐसे सात बाइनरी डिजिट्स का प्रयोग होता है। एस्की एनकोडिंग के तहत इस तरह के १२८ अलग-अलग संयोजन संभव हैं यानी इस एनकोडिंग का प्रयोग करने वाला कम्प्यूटर १२८ अलग-अलग अक्षरों या संकेतों को समझ सकता है। अब तक कंप्यूटर इसी सीमा में बंधे हुए थे और इसीलिए भाषाओं के प्रयोग के लिए उन भाषाओं के फोंट पर सीमित थे जो इन संकेतों को कंप्यूटर स्क्रीन पर अलग-अलग ढंग से प्रदर्शित करते हैं। यदि अंग्रेजी का फोंट इस्तेमाल करें तो ०१०००००१ संकेत को ए अक्षर के रूप में दिखाया जाएगा। लेकिन यदि हिंदी फोंट का प्रयोग करें तो यही संकेत ग, च या किसी और अक्षर के रूप में प्रदर्शित किया जाएगा।
यूनिकोड एक १६ बिट की एनकोडिंग व्यवस्था है, यानी इसमें हर संकेत को संग्रह और अभिव्यक्त करने के लिए सोलह बाइनरी डिजिट्स का इस्तेमाल होता है। इसीलिए इसमें ६५५३६ (यूनिकोड 5.0.0 में लगभग 99000) अद्वितीय संयोजन संभव हैं। इसी वजह से यूनिकोड हमारे कंप्यूटर में सहेजे गए डेटा को फोंट की सीमाओं से बाहर निकाल देता है। इस एनकोडिंग में किसी भी अक्षर, अंक या संकेत को सोलह अंकों के अद्वितीय संयोजन के रूप में सहेज कर रखा जा सकता है। चूंकि किसी एक भाषा में इतने सारे अद्वितीय अक्षर मौजूद नहीं हैं इसलिए इस स्टैंडर्ड (मानक) में विश्व की लगभग सारी भाषाओं को शामिल कर लिया गया है। हर भाषा को इन हजारों संयोजनों में से उसकी वर्णमाला संबंधी आवश्यकताओं के अनुसार स्थान दिया गया है। इस व्यवस्था में सभी भाषाएं समान दर्जा रखती हैं और सहजीवी हैं। यानी यूनिकोड आधारित कम्प्यूटर पहले से ही विश्व की हर भाषा से परिचित है (बशर्ते ऑपरेटिंग सिस्टम में इसकी क्षमता हो)। भले ही वह हिंदी हो या पंजाबी, या फिर उड़िया। इतना ही नहीं, वह उन प्राचीन भाषाओं से भी परिचित है जो अब बोलचाल में इस्तेमाल नहीं होतीं, जैसे कि पालि या प्राकृत। और उन भाषाओं से भी जो संकेतों के रूप में प्रयुक्त होती हैं, जैसे कि गणितीय या वैज्ञानिक संकेत।

यूनिकोड से बदलती दुनिया
यूनिकोड का प्रयोग कई संचालन प्रणालियों, सभी आधुनिक ब्राउजरों और कई अन्य उत्पादों में होता है। यूनिकोड स्टैंडर्ड की उत्पति और इसके सहायक उपकरणों की उपलब्धता, हाल ही के अति महत्वपूर्ण विश्वव्यापी सॉफ्टवेयर टेक्नोलॉजी रुझानों में से हैं।
यूनिकोड को ग्राहक-सर्वर अथवा बहु-आयामी उपकरणों और वेबसाइटों में शामिल करने से, परंपरागत उपकरणों के प्रयोग की अपेक्षा खर्च में अत्यधिक बचत होती है। यूनिकोड से एक ऐसा अकेला सॉफ्टवेयर उत्पाद अथवा अकेला वेबसाइट मिल जाता है, जिसे री-इंजीनियरिंग के बिना विभिन्न प्लैटफॉर्मों, भाषाओं और देशों में उपयोग किया जा सकता है। इससे डाटा को बिना किसी बाधा के विभिन्न प्रणालियों से होकर ले जाया जा सकता है।
यूनिकोड के प्रयोग से सबसे बड़ा लाभ यह हुआ है कि एक कंप्यूटर पर दर्ज किया गया पाठ (टेक्स्ट) विश्व के किसी भी अन्य यूनिकोड आधारित कम्प्यूटर पर खोला जा सकता है। इसके लिए अलग से उस भाषा के फोंट का इस्तेमाल करने की अनिवार्यता नहीं है क्योंकि यूनिकोड केंद्रित हर फोंट में सिद्धांतत: विश्व की हर भाषा के अक्षर मौजूद हैं। कंप्यूटर में पहले से मौजूद इस क्षमता को सिर्फ एक्टिवेट (सक्रिय) करने की जरूरत है जो विंडोज एक्सपी, विंडोज २०००, विंडोज २००३, विंडोज विस्ता, मैक एक्स १०, रेड हैट लिनक्स, उबन्तु, लिनक्स आदि ऑपरेटिंग सिस्टम्स के जरिए की जाती है। विश्व भाषाओं की यह उपलब्धता सिर्फ देखने या पढ़ने तक ही सीमित नहीं है। हिंदी जानने वाला व्यक्ति यूनिकोड आधारित किसी भी कम्प्यूटर में टाइप कर सकता है, भले ही वह विश्व के किसी भी कोने में क्यों न हो। सिर्फ हिंदी ही क्यों, एक ही फाइल में, एक ही फोंट का इस्तेमाल करते हुए आप विश्व की किसी भी भाषा में लिख सकते हैं। इस प्रक्रिया में अंग्रेजी कहीं भी आड़े नहीं आती। विश्व भर में चल रही भूमंडलीकरण की प्रक्रिया में सूचना प्रौद्योगिकी का यह अपना अलग ढंग का योगदान है।
यूनिकोड आधारित कम्प्यूटरों में हर काम किसी भी भारतीय भाषा में किया जा सकता है, बशर्ते ऑपरेटिंग सिस्टम या कंप्यूटर पर इन्स्टॉल किए गए सॉफ्टवेयर यूनिकोड व्यवस्था का पालन करें। मिसाल के तौर पर माइक्रोसॉट के ऑफिस संस्करण, सन माइक्रोसिस्टम्स के स्टार ऑफिस या फिर ओपनसोर्स पर आधारित ओपनऑफिस.ऑर्ग जैसे सॉफ्टवेयरों में आप शब्द संसाधक (वर्ड प्रोसेसर), तालिका आधारित सॉफ्टवेयर (स्प्रैडशीट), प्रस्तुति संबंधी सॉफ्टवेयर (पावर-प्वाइंट आदि) तक में हिंदी और अन्य भाषाओं का बिल्कुल उसी तरह प्रयोग कर सकते हैं जैसे कि अब तक अंग्रेजी में किया करते थे। यानी न सिर्फ टाइपिंग बल्कि शॉर्टिंग, इन्डेक्सिंग, सर्च, मेल मर्ज, हेडर-फुटर, फुटनोट्स, टिप्पणियां (कमेंट) आदि सब कुछ। कंप्यूटर पर फाइलों के नाम लिखने के लिए भी अब अंग्रेजी की जरूरत नहीं रह गई है। यदि आप अपनी फाइल का नाम हिंदी में 'मेरीफाइल.doc' भी रखना चाहें तो इसमें को अड़चन नहीं है। इंटरनेट पर भी अब यूनिकोड का मानक खूब लोकप्रिय हो रहा है और धीरे-धीरे लोग पुरानी एनकोडिंग व्यवस्था की सीमाओं से निकल कर यूनिकोड अपनाने की दिशा में बढ़ रहे हैं। गूगल,bing, विकीपीडिया, एमएसएन आदि इसके उदाहरण हैं जिनमें हिंदी में काम करना उसी तरह संभव है जैसे कि अंग्रेजी में। यूनिकोड आधारित भारतीय भाषाओं की वेबसाइटों की विषय वस्तु (कॉन्टेंट) का सर्च इंजनों द्वारा भी सहेजा जाता है यानी विश्व स्तर पर उनकी उपस्थिति और दायरा बढ़ता है। फिलहाल सर्च इंजनों पर हिंदी और अन्य भारतीय भाषाओं की वेबसाइटों की स्थिति दयनीय है क्योंकि हर वेबसाइट में अलग-अलग फोंट का इस्तेमाल होने के कारण सर्च इंजनों के लिए उनकी विषय वस्तु को समझना संभव नहीं है। यूनिकोड के प्रयोग से यही काम उनके लिए बहुत आसान हो जाता है।

कोई टिप्पणी नहीं:

एक टिप्पणी भेजें