03 अगस्त 2009

कार्पस : एक संकल्पना

कु. हर्षा रा. वडतकर
मनुष्य की प्रवृत्ति खोजी, जिज्ञासु और किसी भी असंभव चीज को संभव बनाने की ओर लगी रहती है। उसने हमेशा ही अपने सोच को मूर्त रूप देने की कोशिश की है। आज कंप्युटर से हर क्षेत्र में काम हो रहे हैं। सरल शब्दों में कहे तो कंप्यूटर मनुष्य के सहायक की भूमिका निभा रहा है।
प्रौद्योगिकी का लक्ष्य भाषा को माध्यम बनाकर भाषा विश्लेषण करना, भाषा के अनछुए पक्षों को उद्धाटित करना तथा भाषिक सिध्दांत को समृध्द बनाना है। विभिन्न सामाजिक संदर्भ, सास्कृतिक परिवेश और विषय-भेद के कारण भाषा विषमरूपी होती है। भाषा के इस विषमरूपी प्रकृति को समझने के लिए विद्वानों ने कभी 'रजिस्टर', 'शैली', 'उपकोड' आदि संकल्पनाओं को अपने भाषा सिध्दांत में स्थान दिया है । इसी कड़ी में 'कार्पोरा' की संकल्पना 19 वीं शताब्दी के अंत में प्रचलन में आयी । प्रौद्योगिकी के अंतर्गत हम भाषा और संगणक से संबंधित कार्यों का वर्णन करते है। जैसे मशीनी अनुवाद, लेक्सिकन, टैगर, जेनरेटर, कॉर्पस निर्माण आदि।
मै अपने आलेख में तीन प्रश्नों को लेकर बात करूंगी जिसकी जिज्ञासा इस क्षेत्र से संबंध रखने वाले सभी के मन में होती है। सर्वप्रथम, आज की स्थिति में प्रचलित संकल्पना ’कार्पोरा’ क्या है? इसकी आवश्यकता क्यों पड़ी है? तथा इसकी महत्व एवं उपयोगिता कितनी है? ’कॉर्पस’ कार्पोरा का बहुवचन रूप है। कार्पोरा में किसी भाषा के शब्द तथा वाक्यों को संग्रहित कर ग्राहय/पठनीय रूप में रखा जाता है जिससे मनुष्य मदद लेता है। अगर कार्पोरा उपलब्ध नही है तो हमें उस भाषा के अलग-अलग उपकरण बनाने के लिए प्रत्येक समय डेटा इकट्ठा करना पड़ता है। हम कार्पोरा की सहायता से समय की बचत तथा उपकरणों के निर्माण प्रक्रिया में तेजी ला सकते हैं।
कार्पोरा में लिखित तथा वाचिक डेटा द्वारा उपकरण बनाए जाते हैं जो अधिक सार्थक तथा उपयोगी होते हैं। इसमें इकट्ठा किये गये डेटा में आम लोगों की बातचीत तथा अलग-अलग समय पर एक व्यक्ति द्वारा प्रयोग में लायी जानेवाली भाषा एवं शब्दावली में बदलाव आदि की जानकारी होती हैं। एक अच्छे कार्पोरा से कई तरह के उपकरण बनाए जा सकते हैं जो मशीनी अनुवाद में प्रयोग किये जा सकते हैं। उदहारण के लिए वर्तनी जांचक, लेक्सिकन टैगर, मशीनी व्याकरण , जेनरेटर आदि।
कार्पोरा दो प्रकार में मौजूद होते हैं। लिखित कार्पोरा में भाषा के लिखित रूप जैसे साहित्य, समाचार पत्र, कहानी, उपन्यास आदि में प्रयोग की जानेवाली भाषा को रखते हैं तथा वाचीक रूप में सामान्य जनता के बीच सामान्य बोलचाल की भाषा को रिकार्ड करते हैं जिसमें व्याकरण का ध्यान नहीं रखा जाता। उदाहरण के लिए स्कूल का कार्पोरा, बाजार का कार्पोरा आदि।
अंतत: हम देखते हैं कि मशीनी अनुवाद की शुरूआत ही कॉर्पस निर्माण से होती है जिसमें कार्पोरा के उपकरण उपयोगी साबित होते हैं। इन उपकरणों में Pos Tagger , Chunker , Spell Checker , Lexicon आदि आते हैं।

1 टिप्पणी: