Artificial intelligence को नहीं दी ईमानदार होने की ट्रेनिंग
Artificial intelligence झूठ बोल सकता है, धोखा दे सकता है
Artificial intelligence : CELL PRESS जर्नल में प्रकाशित शोध में सामने आये ऐसे व्यवहार विश्लेषण
Artificial intelligence | नई दिल्ली । AI कृत्रिम बुद्धिमत्ता मनुष्यों को धोखा दे सकता है और झूठ भी बोल सकता है। एक शोध से ये पता चला है कि (एआई) सिस्टम मानव जाति को अपने लक्ष्यों को प्राप्त करने की दिशा से भटका सकता है, उनमें हेरफेर करने की क्षमता विकसित कर सकता है। सबसे बड़ा डर इसमें चुनाव में छेड़छाड़ जैसे जोखिम भी शामिल हैं।
मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) के शोधकर्ताओं के नेतृत्व में किए गए इस अध्ययन में विभिन्न एआई प्रणालियों के व्यवहार का विश्लेषण किया गया और इसे सेल प्रेस (CELL PRESS) जर्नल में प्रकाशित किया गया। निष्कर्षों ने एक परेशान करने वाली प्रवृत्ति को उजागर किया है। खास कार्यों के लिए प्रोग्राम किया गया एआई सफलता प्राप्त करने के लिए खामियों का फायदा उठाना और उपयोगकर्ताओं को धोखा देना सीख रहा है।
Artificial intelligence : जानकारी छिपा सकता है
शोधकर्ताओं ने पाया कि एआई सिस्टम रणनीतिक रूप से जानकारी को छिपा सकता है या यहां तक कि मनुष्यों को कुछ कार्यों में धोखा देने के लिए गलत जानकारी भी बना सकता है, जिससे पता चलता है कि धोखा देने की इस क्षमता के गंभीर परिणाम हो सकते हैं। यह धोखा AI तक फैला हुआ है जो जानबूझकर सुरक्षा परीक्षणों को गुमराह करता है।
अध्ययन में कहा गया है कि ‘झूठ बोलने’ और ‘धोखा देने’ की क्षमता गंभीर खतरे पैदा करती है, जिसमें धोखाधड़ी और चुनाव में छेड़छाड़ जैसे अल्पकालिक जोखिम से लेकर एआई सिस्टम पर नियंत्रण खोने जैसे दीर्घकालिक जोखिम शामिल हैं।
पेपर ने धोखे को सच्चाई के अलावा किसी अन्य परिणाम की खोज में झूठी मान्यताओं को व्यवस्थित रूप से शामिल करना” के रूप में परिभाषित किया।
एआई सिस्टम अपने प्रशिक्षण के दौरान धोखे की कला सीखते हैं। हालाँकि, डेवलपर्स को अभी तक यह समझ में नहीं आया है कि सिस्टम मनुष्यों को हेरफेर करने का प्रबंधन कैसे करते हैं। इसका कारण ब्लैक बॉक्स समस्या है, जो एआई की अपारदर्शी निर्णय लेने की प्रक्रिया का वर्णन करती है।
Artificial intelligence : धोखे को रोकने का कोई हल नहीं
पीटर एस पार्क, एक एआई एमआईटी में अस्तित्व संबंधी सुरक्षा पोस्टडॉक्टरल फेलो और लेखक ने डाउन टू अर्थ को बताया, किसी ने यह पता नहीं लगाया है कि एआई धोखे को कैसे रोका जाए क्योंकि एआई की हमारी वैज्ञानिक समझ- जैसे कि एआई सिस्टम को ईमानदार होने के लिए कैसे प्रशिक्षित किया जाए और भ्रामक एआई प्रवृत्तियों का जल्द पता कैसे लगाया जाए, को लेकर अभी अपर्याप्त है।
मेटा द्वारा 2022 के विज्ञान अध्ययन पर उनका ध्यान आकर्षित करने के बाद पार्क और उनके सहयोगियों ने इस अध्ययन की शुरुआत की। अध्ययन में सीआईसीईआरओ का वर्णन किया गया है, जो गठबंधन-निर्माण, विश्व-विजय बोर्ड गेम डिप्लोमेसी में उत्कृष्टता प्राप्त करने के लिए मेटा द्वारा बनाई गई एक एआई प्रणाली है।
पार्क ने बताया, लेकिन मेटा टीम ने कहा कि सिसरो “काफ़ी हद तक ईमानदार और मददगार” था और वह अपने मानवीय सहयोगियों की “जानबूझकर कभी पीठ में छुरा नहीं घोंपेगा”। उन्होंने कहा, “मुझे इस असामान्य रूप से चिकनी-चुपड़ी भाषा पर संदेह था क्योंकि मैं जानता था कि पीठ में छुरा घोंपना कूटनीति के खेल का एक महत्वपूर्ण हिस्सा था।”
उनके विश्लेषण से पता चला कि सच्चा होने के लिए प्रशिक्षित होने के बावजूद सिसरो ईमानदार होने में विफल रहा। अखबार ने कहा कि उसने बातचीत में बढ़त हासिल करने के लिए अपनी प्राथमिकताओं को गलत तरीके से पेश करना सीख लिया है। इसने एक मानव खिलाड़ी के साथ एक नकली गठबंधन भी बनाया ताकि उन्हें हमले के दौरान खुद को असुरक्षित छोड़ने के लिए धोखा दिया जा सके।
कंपनी ने स्वीकार किया कि उनके एआई एजेंटों ने “केवल अपने लक्ष्यों को प्राप्त करने की कोशिश करके, बिना किसी स्पष्ट मानवीय डिजाइन के धोखा देना सीख लिया है।”
एआई धोखे का एक और उदाहरण एआई सुरक्षा परीक्षणों में देखा जाता है, एक बहु-विषयक डोमेन जिसमें एआई विफलताओं से जुड़े जोखिमों को कम करना, एआई एल्गोरिदम की मजबूती और लचीलापन सुनिश्चित करना, मानव-एआई सहयोग को सक्षम करना और महत्वपूर्ण डोमेन में नैतिक चिंताओं को संबोधित करना शामिल है।
एआई पर संयुक्त राज्य अमेरिका के राष्ट्रपति जो बिडेन के कार्यकारी आदेश में इन प्रणालियों को विकसित करने वाली कंपनियों को सुरक्षा परीक्षण परिणामों की रिपोर्ट करने की आवश्यकता थी।
जब एआई ने अपने तेजी से प्रतिकृति बनाने वाले वेरिएंट को खत्म करने के लिए सुरक्षा परीक्षण किया तो उसने गलत खेलना भी सीख लिया। पार्क ने एक बयान में बताया, “मानव डेवलपर्स और नियामकों द्वारा उस पर लगाए गए सुरक्षा परीक्षणों को व्यवस्थित रूप से धोखा देकर, एक भ्रामक एआई हम मनुष्यों को सुरक्षा की झूठी भावना में ले जा सकता है।”
एआई सिस्टम प्रशिक्षण के दौरान झूठ बोलना भी सीखते हैं, जो मानवीय प्रतिक्रिया पर निर्भर है। वे मानव समीक्षकों को बताते हैं कि उन्होंने वास्तव में ऐसा किए बिना ही एक कार्य पूरा कर लिया है।
उदाहरण के लिए, जब ChatGPT विकसित करने वाली कंपनी OpenAI ने मानव की नकल करने की तकनीक का उपयोग करके गेंद को पकड़ने के लिए एक नकली रोबोट को प्रशिक्षित किया, तो उसने झूठ बोला। बिना गेंद पकड़े ही कह दिया-गेंद पकड़ ली है।
पेपर में कहा गया है कि बड़े भाषा मॉडल रणनीतिक धोखे और चाटुकारिता तकनीकों का उपयोग करके मनुष्यों से हेरफेर करते हैं।
पार्क ने बताया कि रणनीतिक धोखे में कुछ लक्ष्यों को प्राप्त करने के लिए जानबूझकर मनुष्यों को गुमराह करना शामिल है, जबकि चाटुकारिता में उपयोगकर्ताओं का पक्ष लेने के लिए उनसे सहमत होना और चापलूसी करना शामिल है, भले ही वह निष्ठाहीन ही क्यों न हो।
उदाहरण के लिए, GPT-4, OpenAI द्वारा बनाया गया एक मल्टीमॉडल बड़ा भाषा मॉडल है, जिसने मानव कार्यकर्ता को यह समझाने के लिए कि वह एक रोबोट नहीं है, यह दिखावा करके “मैं एक रोबोट नहीं हूं” कार्य को हल करने में एक मानव को धोखा दिया।
यूरोपीय संघ AIअधिनियम और राष्ट्रपति बिडेन के एआई कार्यकारी आदेश दोनों ने एआई धोखे के बारे में चिंताओं को उजागर किया है। पार्क ने कहा, इस खतरे की तैयारी और प्रतिक्रिया के लिए एआई धोखे का पता लगाने और उसे रोकने पर अनुसंधान को और अधिक प्रोत्साहन दिया जाना चाहिए।
Artificial intelligence