11 अक्टूबर 2009

मानव और मशीनी अनुवाद का तुलनात्मक अध्ययन *

अनुवाद चाहे मानव द्वारा किया जाय या फिर मशीन द्वारा दोनों का अंतिम लक्ष्य एक ही होता है- स्रोत भाषा के कथ्य को लक्ष्य भाषा में बदलना। अनुवाद एक बौद्धिक प्रक्रिया का परिणाम है। इस प्रकार की बौद्धिक प्रक्रिया को मशीन से कराना दुष्कर कार्य है। कंप्यूटर द्वारा भाषा और शब्द-संसाधन के क्षेत्र में अनुवाद कार्य बौद्धिक स्तर की एक आवश्यकता के रूप में सामने आया है। कंप्यूटर मानव-मस्तिष्क को पूर्ण रूप से प्रतिस्थापित नहीं कर सकता है, इसलिए उससे एक भाषिक कथन को दूसरे भाषिक कथन में सार्थकता से अंतरित कराना संभव नहीं हो पाया है।
मानव ने जब कंप्यूटर से अनुवाद कार्य कराने का प्रयास किया तो उसने उसका प्रारंभ एक शुध्द यांत्रिक कार्य के रूप में किया। प्रो. संगल के अनुसार प्रारंभ के दिनों में मशीनी अनुवाद एक द्विभाषिक कोश व शब्दक्रम परिवर्तन तक ही सीमित था। प्रारंभ में व्याकरणिक और बौद्धिक पक्ष को नजरअंदाज कर दिया गया था। परन्तु इससे अपेक्षित परिणाम नहीं आ पाए। धीरे-धीरे मशीन के प्रयोगकर्ताओं को यह बात स्पष्ट होने लगी कि कंप्यूटर से अनुवाद कराते समय यह कार्य कंप्यूटर विज्ञान, भाषा विज्ञान और मानव बुद्धि तीनों क्षेत्रों का है।
कृत्रिम बुद्धि मनुष्य के कार्य का बौद्धिक अनुकरण करती है और पूर्व संचित नियमों से परिवर्तित होती है। मस्तिष्क में सूक्ष्म और अव्यक्त रुप में विद्यमान इन नियमों और प्रतिबंधों को एल्गोरिदम या सूत्रों के माध्यम से कम्प्यूटर द्वारा परिचालित करवाना ही कृत्रिम बुध्दि कहलाती है परन्तु अनुवाद के सन्दर्भ में व्याकरणिक लक्षणों और सन्दर्भों से जुड़ी असीम भाषिक अभिव्यक्तियों को नियमबद्ध कर पाना अत्यंत कठिन कार्य हैं। मैने अपने शोध कार्य में चार मशीनी अनुवाद प्रणालियों का अध्ययन और विश्लेषण किया हैं तथा यह जानने की कोशीश की है कि कौन-सी प्रणाली किस हद तक अनुवाद करने में सक्षम है।
भारत में प्रचलित अंग्रेजी हिन्दी मशीन अनुवाद प्रणालियों (और मेरे द्वारा शोध कार्य में प्रयुक्त) का संक्षिप्त परिचय इस प्रकार है:
मंत्र:- सी.डैक पुणे के एप्लाइड ए. आई. ग्रुप ने 'मंत्र' नामक मशीनी अनुवाद प्रणाली विकसित की है। यह प्रशासनिक, वित्तीय एवं कृषि क्षेत्र के अंग्रेजी पत्रों का हिन्दी अनुवाद करती है। इस प्रणाली में मुख्यत: टैग फॉर्मेलिज्म का उपयोग किया गया है। यह प्रणाली पूर्व संपादन एवं उत्तर संपादन सुविधा से युक्त हैं, इससे प्रयोक्ता को कम प्रयास में अच्छा परिणाम मिलता है।
अनुसारक:- भारतीय भाषाओं के मध्य तथा अंग्रेजी से भारतीय भाषा मे अनुवाद कार्य कराने के लिए यह प्रणाली प्रारंभ में आई. आई. टी. कानपुर द्वारा विकसित की गयी थी। वर्तमान में आई.आई.आई. टी हैदराबाद, हैदराबाद विश्वविद्यालय एवं चिन्मय फाउंडेशन की मदद से यह काम चल रहा है। यह प्रणाली पाणिनी व्याकरण पर आधारित है।
शक्ति:- यह प्रणाली आई.आई.आई टी. हैदराबाद द्वारा अंग्रेजी से भारतीय भाषाओं में अनुवाद करने के लिए विकसित की गयी है। इस प्रणाली में भाषावैज्ञानिक विश्लेषण के साथ-साथ सांख्यिकी पद्धति और उदाहरण आधारित पद्धति का प्रयोग किया गया है।
गूगल:- यह प्रणाली गूगल डॉट कॉम द्वारा विकसित की गयी है। गूगल ने अब तक इक्कीस भाषा युग्मों के लिए यह सेवा आरंभ की है। इसमे अभी हाल में हिन्दी भाषा को जोड़ा गया है। इस प्रणाली में सांख्यिकीय पद्धति का उपयोग किया गया है ।
मशीनी अनुवाद की समस्याएँ
1. अक्सर मशीनी अनुवाद प्रणालियों द्वारा प्रजनित संयुक्त एवं मिश्र वाक्य हिन्दी की प्रकृति के अनुसार नहीं आ पाते है। बहुत से प्रजनित वाक्यों में अन्विति का अभाव रहता है।
2. अनुवाद प्रणाली द्वारा अनुवाद होने पर अक्सर शब्दों के प्रसंगानुकूल अर्थ न आकर सर्वाधिक प्रचलित अर्थ आ जाता है। कुछ शब्द ऐसे होते है जिनको कोई अर्थ उपलब्ध न होने पर उसे अंग्रेजी में ज्यो का त्यों मशीन ले लेती है।
3. मिश्र वाक्यों के अनुवाद में सर्वाधिक गलतियाँ होती है। प्रणाली यह नहीं समझ पाती कि कौन-सा उपवाक्य प्रधान है और कौन-सा आश्रित है।
4. सबसे बड़ी समस्या अनुवाद के क्षेत्र में मुहावरों और लोकोक्तियों को पहचानने की है।
5. बहुअर्थीय वाक्यों और शब्दों के अनुवाद में भी समस्या रहती है।
मशीन अनुवाद को उन्नत बनाने के सुझाव:-
1. मशीनी अनुवाद के शब्दकोश को और अधिक विस्तृत बनाया जाना चाहिए। इसमें मुहावरों और लोकोक्तियों के लिए अलग से कोश बनाया जाना चाहिए।
2. यदि नियम आधारित पद्धति से मशीनी अनुवाद प्रणाली का निर्माण किया गया है तो इसमें इसके व्याकरण संबंधी नियमों को और अधिक स्पष्ट बनाना चाहिए और भाषा में हो रहे प्रयोगों को अधिक से अधिक नियम के रूप में बनाकर व्याकरण में देना चाहिए यदि सांख्यिकी आधारित अनुवाद प्रणाली हो तो इसे अध्ययन के लिए अधिक से अधिक सभी क्षेत्रों का प्रतिनिधित्व करने वाला कार्पस देना चाहिए।
3. बहुअर्थतता से निपटने के लिए संदर्भ को समझने योग्य प्रणाली विकसित करने का प्रयत्न करना चाहिए।
4. मशीनी अनुवाद प्रणाली को विभिन्न भाषायी संसाधनों, जैसे- वर्डनेट, फ्रेमनेट, इत्यादि से यथेष्ट मदद लेकर प्रणाली को समुन्नत बनाना चाहिए।
I met the girl who was most beautiful.
मानव अनुवाद: मैं उस लड़की से मिला जो सबसे अधिक सुंदर थी।
अनुसारक: मैं लड़की को मिला जिस सबसे अधिक सुंदर थी।
गूगल: मैं लड़की से मुलाकात की थी जो सबसे सुंदर है।
शक्ति: मैं लड़की जो सुंदर होना
उपर्युक्त अंग्रेजी वाक्य मिश्र प्रकार का है, जिसके कारण सभी मशीनी अनुवाद प्रणालियों द्वारा अनूदित वाक्य में वाक्य की निहित संरचना नहीं आ पायी है, परंतु फिर भी ये वाक्य के अर्थ को संप्रेषित कर देती हैं। तीनों मशीनी अनुवाद प्रणालियों द्वारा भिन्न-भिन्न अनुवाद हुआ है।
प्रस्तुत शोध वर्तमान समय में भारत में चल रहे मशीनी अनुवाद के क्षेत्र में हो रहे कार्यों के बारे में जानकारी देने के साथ ही मानव और मशीनी अनुवाद का तुलनात्मक अध्ययन करता है और तुलना के फलस्वरूप मशीनी द्वारा की जाने वाली गलतियों का पता चलता है। मशीनी अनुवाद की शुद्धता को बढ़ाने के लिए इन गलतियों का निदान करना बहुत आवश्यक है। इसलिए बाद में शोध में कुछ उपाय सुझाए गए हैं। इन उपायों को अपनाकर कोई भी मशीनी अनुवाद प्रणाली और अधिक शुद्ध परिणाम दे सकेगी।
*शोध-छात्रा अर्चना बलवीर द्वारा एम. फिल. हिन्दी (भाषा-प्रौद्योगिकी) में प्रस्तुत किए गए शोध-प्रबंध का
सारलेख

कोई टिप्पणी नहीं:

एक टिप्पणी भेजें