संपादक, न्यूज़NORTH
What is Deepfake and AI-generated video?: डीपफेक एक ऐसा शब्द है जो हाल के दिनों में आपको बार-बार सुनने को मिला होगा। दिलचस्प रूप से डीपफेक अपने पीछे की तकनीक के साथ ही साथ इससे जुड़े खतरों को लेकर भी चर्चा में रहा है। एक वीडियो में किसी असली व्यक्ति की जगह किसी अन्य का चेहरा लगा देना, या फिर किसी ईमेज या वीडियो में दो व्यक्तियों के चेहरों को आपस में बदल देना, ऐसे फेंक कंटेंट आज के समय में काफी आम होते जा रहे हैं।
लेकिन अधिकांश लोग अभी भी इस नए तकनीक खतरे से अच्छी तरह परिचित नहीं हैं। ऐसे में आज हम आपको यहाँ बताने जा रहे हैं कि आखिर ‘डीपफेक’ होता क्या है? ये तकनीक काम कैसे करती है? और ‘एआई जनरेटेड वीडियो या ईमेज’ पूरी दुनिया के लिए एक नई परेशानी का विषय कैसे हैं?
क्या है Deepfake?
आसान भाषा में समझने की कोशिश करें तो ‘डीपफेक’ एक तरह का ऐसे कंटेंट (ईमेज, वीडियो या ऑडियो) के रूप में समझा जा सकता है, जिसे मशीन-लर्निंग एल्गोरिदम के तहत तैयार किया जाता है। यह वीडियो या ईमेज आर्टिफिशियल कंटेंट होता है, जिसका मतलब है ये असली नहीं होते, इन्हें कृत्रिम रूप से बनाया जाता है। इसी के चलते इन्हें डीपफेक कहा जाता है, ‘फेंक’ का मतलब हम सब जानते ही हैं, जो असली ना हो।
डीप सिंथेसिस के बारे में
जैसा हमनें पहले ही आपको बताया किसी असली वीडियो में नजर आ रहे व्यक्ति का चेहरा किसी अन्य व्यक्ति से बदल देना आदि उदाहरण कॉमन हो चले हैं। इसके लिए शायद आपने ‘डीप सिंथेसिस’ शब्द का इस्तेमाल होते भी सुना हो।
डीप सिंथेसिस को वर्चूअल दृश्य तैयार करने के लिहाज से ईमेज, ऑडियो और वीडियो उत्पन्न करने के लिये मशीन लर्निंग और वर्चूअल रियलिटी जैसी तकनीकों के उपयोग के तौर पर परिभाषित किया जाता रहा है।
डीप फेक असल में इसी का एक एप्लिकेशन है, जिसमें सिंथेटिक मीडिया का इस्तेमाल करके किसी ईमेज, वीडियो या ऑडियो में छेड़छाड़ की जाती है। जैसी किसी एक व्यक्ति के चेहरे या आवाज़ को दूसरे व्यक्ति के चेहरे या आवाज के साथ स्वैप कर देना या बदल देना। कई बार यह बहुत खतरनाक भी साबित होता है।
इन डीपफेक ईमेज, वीडियो या ऑडियो को एक विशेष प्रकार की मशीन लर्निंग तकनीक द्वारा बनाया जाता है और इसी तकनीक को ‘डीप लर्निंग’ के नाम से जाना जाता है। अब आगे हम देखेंगे कि आखिर डीपफेक काम कैसे करता है?
कहाँ से आया डीपफेक शब्द?
कहते हैं कि डीपफेक (Deepfake) शब्द पहली बार साल 2017 के दौरान ऑनलाइन अस्तित्व में आया। असल में उस दौरान एक Reddit यूजर्स ने खुद के अकाउंट का नाम ही ‘डीपफेक’ रखा था। उस यूजर ने एक अश्लील वीडियो बनाकर पोस्ट किया था। इस वीडियो में उसने किसी अन्य का चेहरा लगा दिया था। इसके लिए उसने गूगल की ओपन-सोर्स व डीप-लर्निंग तकनीक में हेरफेर की थी।
डीपफेक या डीप लर्निंग काम कैसे करती है?
शुरुआत करते हैं एक आसान स्पष्टीकरण से, ताकि बहुत अधिक तकनीकी ज्ञान ना होने पर ही सामान्य लोग सरलता से समझ सकें। डीप लर्निंग एक तरह की मशीन लर्निंग का ही प्रकार है। सबसे पहले एक एल्गोरिदम को तैयार कर उसमें कुछ उदाहरण इनपुट किए जाते हैं, ताकि एल्गोरिदम इन उदाहरणों को समझ सके और उसी के अनुसार किसी उपयोगकर्ता द्वारा बताई गई डिटेल्स को ध्यान में रखते हुए, आउटपुट जनरेट कर सके।
ये कुछ ऐसा ही है जैसे इंसान अपने जन्म के बाद से चीजों का अनुभव करते हुए, उन्हें सीखता है और बाद में उसी के अनुसार अपनी प्रतिक्रियाएं देता है। जैसे छोटे बच्चों के आसपास पहले-पहले जब बहुत ही चीजें होती हैं, तो शुरुआत में वह अधिकतर चीजों को मुँह में डालने की कोशिश करते हैं। लेकिन धीरे-धीरे वह उन्हें समझते हुए और यह सीखना शुरू करते हैं कि कौन सी चीजें खाने योग्य होती हैं और कौन सी नहीं। मशीन लर्निंग भी काफी हद तक ऐसा ही है।
प्रदान किए गए इनपुट या डेटा के आधार पर पहले मशीन लर्निंग और डीप लर्निंग एल्गोरिदम चीजों की रूपरेखाओं को समझने की कोशिश करता है। फिर पहले से मौजूद डेटा पर प्राप्त ट्रेनिंग को आधार बनाते हुए, एल्गोरिदम किसी यूजर्स द्वारा बताए गए विवरण ईमेज, वीडियो या प्रॉम्प्ट को ध्यान में रखते हुए, असली जैसी दिख सकने वाली ईमेज या वीडियो तैयार करने की कोशिश करता है। इसके तकनीकी पहलुओं को समझने की कोशिश करें तो यह कुछ इस प्रकार होगा –
– ‘डीप लर्निंग’ एक तरह से ‘मशीन लर्निंग’ का ही प्रकार हैं।
– डीप लर्निंग में कुछ अतिरिक्त ‘छिपी हुई परतें’ शामिल होती हैं।
– शुरुआती इनपुट डेटा की मदद से पहले एल्गोरिदम को ट्रेन किया जाता है।
– यह एल्गोरिदम भी खास होते हैं, जिन्हें न्यूरल नेटवर्क कहते हैं।
– जिन छिपी परतों की पहले हमें बात की इसी नेटवर्क में नोड्स की एक सीरीज होती है।
– यह सीरीज ही इनपुट सिग्नल (उदाहरण: असली ईमेज) को आउटपुट सिग्नल (उदाहरण: फेंक ईमेज) में बदलने के लिए गणितीय ट्रांसफ़ॉमेशन का इस्तेमाल करते है।
दिलचस्प रूप से न्यूरल नेटवर्क में जितनी अधिक ‘छिपी हुई परतें’ होती हैं, उस नेटवर्क को उतना ही ‘डीप’ माना जाता है। असल में न्यूरल नेटवर्क व रिकर्सिव न्यूरल नेटवर्क (RNNs) को मुख्य रूप से ईमेज की पहचान संबंधित कामों के लिहाज से बेहतरीन प्रदर्शन के लिए जाना जाता है।
न्यूज़North अब WhatsApp पर, सबसे तेज अपडेट्स पानें के लिए अभी जुड़ें!
किसी मुश्किल डीप फेक बनाने के लिए सामान्यतः दो एल्गोरिदम इस्तेमाल किए जाते हैं। इनमें से एक एल्गोरिदम असली ईमेज की बेहतरीन नकली प्रतियाँ तैयार करने के लिहाज से प्रशिक्षित होता है, जबकि दूसरा एल्गोरिदम यह पता करने के लिहाज से प्रशिक्षित होता है कि कब कोई ईमेज नकली है या नहीं? दोनों मॉडल साथ ही साथ दोहराये जाते हैं।
डीपफेक कैसे फोटोशॉप से अलग होता है?
इस बात में कोई शक नहीं आजकल इंटरनेट पर फेंक ईमेज की भरमार है। वैसे आपने Snapchat जैसे ऐप्स में पहले ही मनोरंजन के लिहाज से “फेस स्वैपिंग” जैसे फीचर दिया जाते रहे हैं।
हालाँकि इन तारीकों या अन्य तमाम उपलब्ध ऐप्स के जरिए किए गए एडिट को पहचानना आसान होता है और इसलिए यह वास्तविक जीवन में उतने हानिकारक साबित नहीं होते। लेकिन इसके विपरीत आर्टिफिशियल इंटेलिजेंस एल्गोरिदम पर आधारित डीप लर्निंग तकनीक की मदद से तैयार कंटेंट में असली या नक़ली का फर्क बता पाना बेहद मुश्किल हो जाता है और आसानी से भ्रम की स्थिति पैदा की जा सकती है।
डीपफेक के खतरे:
डीपफेक तकनीक हाल में कुछ मशहूर हस्तियों को भी परेशान करती नजर आई और इसी के चलते यह काफी चर्चा में भी रही। Deepfakes का निम्नलिखित स्वरूपों में ख़तरनाक इस्तेमाल किया जा सकता है,
– घोटालों और झाँसे आदि का शिकार बनाने के लिए
– सेलिब्रिटी पोर्नोग्राफी
– चुनाव के दौरान झूठे प्रचार या हेर-फेर के लिए,
– सोशल इंजीनियरिंग
– पहचान की चोरी
– वित्तीय धोखाधड़ी आदि
कैसे बनाए जाते हैं एआई जनरेटेड डीपफेक वीडियो?
शुरुआत करते हैं आर्टिफिशियल इंटेलिजेंस (एआई) वीडियो से, जो आजकल खूब ख़बरों में रहते हैं। हाल में ही OpenAI ने भी Sora नामक एक नई सुविधा पेश की है। ये एआई वीडियो मुख्य रूप से टेक्स्ट-टू-वीडियो तकनीक का इस्तेमाल करते हैं।
इनके तहत आप किसी भी एआई टूल को टेक्स्ट प्रॉम्प्ट के जरिए निर्देश देते हैं और उसके बाद यह एआई टूल अपने एल्गोरिदम व उपलब्ध डेटा की मदद से विवरण अनुसार वीडियो तैयार करते हैं। इसमें कई बार डेटासेट का इस्तेमाल कर एआई ऐसे अस्तित्वहीन मानव चेहरे का भी निर्माण कर देता है, जो असल दुनिया में मौजूद ही नहीं है।
वहीं डीपफेक कंटेंट में इस्तेमाल होने वाली तकनीकों की बात करें तो यह कुछ इस प्रकार हैं –
– Deep Learning और Neural Networks
– Facial Recognition और Superimposition
– Audio Manipulation
वैसे तो डीपफेक वीडियो की बात करें तो इनको बनाए जाने के कई तरीकों का इस्तेमाल किया जाता है। इसको लेकर कई देशों में रोकथाम के प्रयास की शुरुआत भी की है, जिसमें भारत भी शामिल है। लेकिन ऑनलाइन कुछ ऐसे टूल्स आज भी मौजूद हैं, जिनकी मदद से लोग सिंथेटिक मीडिया के किसी अंश का इस्तेमाल करते हुए, रियल लागने वाले डीपफेक वीडियो का निर्माण करते हैं। बाजार में कैसे ऐसे नो-कोड ऐप्स, वेबसाइट और ओपन-सोर्स सॉफ़्टवेयर भी मौजूद हैं, जो आप फेस स्वैप से लेकर ऑडियो की नक़ल करने जैसी सेवाओं की भी पेशकश करते हैं।