تكنولوجيا

احذروا.. هكذا تسرب منصات الذكاء الاصطناعي بياناتكم

نشر مجموعه مـن الباحثين فى جامعات أميركية وسويسرية بالتعاون مع شركة “غوغل” وشركتها الفرعية DeepMind، ورقة بحثية توضح كيف يمكن ان تتسرب البيانات مـن منصات إنشاء الصور التى تستند فى عملها الي نماذج الذكاء الاصطناعي التوليدي مثل: DALL-E أو Imagen أو Stable Diffusion.

إذ تعمل هذه المنصات جميعها بالطريقة نفسها التى تعتمد على جانب المستخدم الذى يكتب مطالبة نصية محددة، على سبيل المثال: “كرسي بذراعين على شكل ثمرة أفوكادو”، ويحصل على صورة مولدة مـن النص اثناء ثوانٍ.

وقد دُربت نماذج الذكاء الاصطناعي التوليدي المستخدمة فى هذه المنصات على عَدَّدَ كثير جدًا مـن الصور التى تحمل وصفًا محددًا لاحقًا، وتكمن فكرة الشبكات العصبية فى قدرتها على إنشاء صور جديدة وفريدة بعد معالجة كمية هائلة مـن بيانات التدريب.

ومع ذلك، تُظهر الدراسة الجديدة ان هذه الصور ليست دائمًا فريدة، وفي بعض الحالات، يمكن ان تقوم الشَّبَكَةُ العصبية بإعادة إنتاج صورة مطابقة تمامًا لصورة سابقة استخدمت فى التدريب، وهذا يعني ان الشبكات العصبية قد تكشف عَنْ البيانات الخاصة دون قصد.

وتتحدى هذه الدراسة وجهات النظر القائلة إن نماذج الذكاء الاصطناعي المستخدمة فى توليد الصور لا تحفظ بيانات التدريب الخاصة بها، وإن بيانات التدريب قد تظل خاصة إذا لم يُوضح عنها.

تقديم المزيد مـن البيانات

يمكن ان تكون نتائـج أنظمة التعلم العميق مدهشة بالنسبة لغير المتخصصين، ويمكن ان يظنوا أنها سحرية، ولكن فى الواقع، ليس هناك اى سحر فى الامر، فجميع الشبكات العصبية تستند فى عملها الي المبدأ نفسه، وهو التدريب باستخدام مجموعه كبيرة مـن البيانات، وتوصيفات دقيقة لكل صورة، على سبيل المثال: سلاسل مـن صور القطط والكلاب.

وبعد التدريب، ترصد الشَّبَكَةُ العصبية صورة جديدة ويُطلب منها تحديد هل هى لقطة أم كلب؟ ومن هذه النقطة المتواضعة، ينتقل مُطوّرو هذه النماذج الي سيناريوهات أكثر تعقيدًا، فيقومون بإنشاء صورة لحيوان أليف غير موجود بالفعل باستخدام الخوارزمية التى دُربت على العديد مـن صور القطط. وتُجرى هذه التجارب ليس فقط باستخدام الصور، ولكن أيضًا بالنصوص ومقاطع الفيـديو وحتى الصوت.

نقطه البداية لجميع الشبكات العصبية هى مجموعه بيانات التدريب، إذ لا تستطيع الشبكات العصبية إنشاء كائنات جديدة مـن العدم. على سبيل المثال، لإنشاء صورة لِقطةٍ، يجب على الخوارزمية دراسة آلاف الصور الفوتوغرافية أو الرسومات الحقيقية للقطط.

الذكاء الاصطناعي - آيستوك

الذكاء الاصطناعي – آيستوك

جهود كبيرة للحفاظ على سرية مجموعـات البيانات

يُولي الباحثون فى ورقتهم البحثية نماذج التعلم الآلي اهتمامًا حصريًا، ويعملون على النحو القادم: تشويه بيانات التدريب – وهي صور الأشخاص والسيارات والمنازل وما الي ذلك – عَنْ طريق إضافة تشويش، وبعد ذلك، تُدرب الشَّبَكَةُ العصبية على استعادة هذه الصور الي حالتها الأصلية.

وتتيح هذه الطريقة إمكانية إنشاء صور ذات جودة مقبولة، لكن العيب المحتمل – بالمقارنة مع الخوارزميات فى الشبكات التنافسية التوليدية، على سبيل المثال – هو ميلها الأكبر لتسريب البيانات. إذ يمكن استخراج البيانات الأصلية منها بثلاث طرق مختلفة على الأقل، وهي:

– استخدام استعلامات محددة لإجبار الشَّبَكَةُ العصبية على إخراج صورة مصدر محدد، وليس شيئًا فريدًا تم إنشاؤه بناءً على آلاف الصور.
– يمكن إعادة بناء الصُّورَةُ الأصلية حتـى لو توفر جزء منها فقط.
– مـن الممكن ببساطة تحديد إذا كانـت صورة معينة مُضمنة فى بيانات التدريب أم لا.
وفي كثير مـن الأحيان، تكون الشبكات العصبية كسولة، وبدلاً مـن إنتاج صورة جديدة، فإنها تنتج شيئًا مـن مجموعه التدريب إذا كان يحتوي على عدة نسخ مكررة مـن الصُّورَةُ نفسها. إذا تكررت صورة فى مجموعه التدريب أكثر مـن مئة مرة، فهناك فرصة كبيرة جدًا لتسريبها فى شكلها شبه الأصلي.

ومع ذلك، أظهر الباحثون طرقًا لاسترداد صور التدريب التى ظهرت مرة واحده فقط فى المجموعة الأصلية، فمن بين 500 صورة اختبرها الباحثون، أعادت الخوارزمية بشكل عشوائي إنشاء ثلاثة منها.

مَن سرق مـن؟

فى يناير 2023، رفـع ثلاثة فنانين دعوى قضائية امام منصات توليد الصور التى تستند فى عملها الي الذكاء الاصطناعي بسـبب استخدام صورهم الموجودة عبر الإنترنت لتدريب نماذجها دون اى احترام لحقوق التأليف والنشر.

وتستطيع الشَّبَكَةُ العصبية بالفعل نسخ طريقة فنان معين، ومن ثم تحرمه مـن الدخل. وتشير الورقة البحثية الي أنه فى بعض الحالات، تستطيع الخوارزميات، لأسباب مختلفة، التورط فى الانتحال الصريح، وتوليد رسومات وصور فوتوغرافية وصور أخرى تكاد تكون متطابقة مع أعمال الأشخاص الحقيقيين.

لذلك قدم الباحثون توصيات لتعزيز خصوصية مجموعه التدريب الأصلية:

1- التخلص مـن التكرار فى مجموعـات التدريب.
2- إعادة معالجة صور التدريب، على سبيل المثال: عَنْ طريق إضافة تشويش أو تغيير السطوع؛ ويجعل هذا تسريب البيانات أقل احتمالًا.
3- اختبار الخوارزمية باستخدام صور تدريبية خاصة، ثم التحقق مـن أنها لا تعيد إنتاجها بدقة دون قصد.

ما القادم؟

مـن المؤكد ان منصات الفن التوليدي أثارت نقاشًا مثيرًا للاهتمام اثناء الفتره الاخيره، نقاشًا يجب فيه البحث عَنْ توازن بين الفنانين ومطوري التكنولوجيا. فمن ناحية، يجب احترام حقوق التأليف والنشر، ومن جانب اخر، هل الفن المولد عبر الذكاء الاصطناعي مختلف جدًا عَنْ فن الإنسان؟

لكن دعونا نتحدث عَنْ الأمان. ترصد الورقة البحثية مجموعه محددة مـن الحقائق عَنْ نموذج واحد فقط للتعلم الآلي. وبتوسيع المفهوم ليشمل جميع الخوارزميات المتشابهة، نصل الي موقف مثير للاهتمام. فليس مـن الصعب تخيل سيناريو يُسلّم فيه مساعد ذكي لمشغل مجموعه هاتف محمول معلومات الشركة الحساسة استجابة لاستعلام المستخدم، أو كتابة مطالبة نصية خادعة لشبكة عصبية عامة لإنشاء نسخة مـن جواز سفر شخص ما. ومع ذلك يؤكد الباحثون ان مثل هذه المشكلات لا تزال نظرية فى الوقت الحاضر.

لكن هناك مشاكل أخرى حقيقة ونعاني منها الان، إذ تُستخدم نماذج توليد النصوص مثل: ChatGPT الان لكتابة تعليمات برمجية ضارة حقيقية.

ويساعد GitHub Copilot المبرمجين فى كتابة التعليمات البرمجية باستخدام كمية هائلة مـن البرامج المجانية المصدر كمدخلات. ولا تحترم الأداة دائمًا حقوق التأليف والنشر وخصوصية المؤلفين الذين انتهى الامر بوجود تعليماتهم البرمجية فى مجموعه موسعة للغاية مـن بيانات التدريب.

ومع تطور الشبكات العصبية، ستتطور الهجمات التى تتعرض لها أيضًا هذه الشبكات، مع عواقب لم يفهمها أحد حتـى الان.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى