روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ در دهههای آتی، ریسکهای امنیتی مربوط به سیستمهای هوش مصنوعی کانون اصلی پژوهشهای محققین خواهد شد. یکی از ریسکهایی که این روزها کمتر بدان پرداخته میشود امکان تروجانزده کردنِ مدل هوش مصنوعی است. این شامل جاساز کردن کارایی پنهان یا خطاهای تعمدی در سیستم یادگیری ماشین میشود که ظاهراً در نگاه اول دارد درست کار میکند. متودهای مختلفی برای ایجاد چنین اسب تروجانی وجود دارد که به فراخور میزان پیچیدگی و مقیاس ممکن است متفاوت باشد. باید جلوی همه اینها را گرفت و با آنها مبارزه کرد.
کد مخرب در مدل
برخی فرمتهای ذخیرهگاه مدل یادگیری ماشین حاوی کد قابل اجرا هستند. برای مثال، کد دلخواه میتواند موقع لود فایل در فرمت پیکل[1] که فرمت استاندارد پیتون برای سریالی کرد داده است (تبدیل داده به نوعی که مناسب ذخیره و انتقال باشد) اجرا شود. مشخصاً این فرمت در آرشیو یادگیری عمیق PyTorch استفاده میشود. در آرشیو محبوب دیگر یادگیری ماشین –که TensorFlow باشد- مدلها در فرمتهای .keras و HDF5 از لایه لامبدا[2] که همچنین فرمانهای دلخواه پیتون را اجرا میکند پشتیبانی مینماید. این کد میتواند براحتی کارایی مخرب را پنهان کند. سندسازی TensorFlow شامل هشداری میشود مبنی بر اینکه مدل TensorFlow میتواند فایلها را بخواند و بنویسد و دادههای شبکه را ارسال و دریافت کرده و حتی پروسههای کوچکی را نیز لانچ کند. به بیانی دیگر، این یک برنامه تمام عیار است. کد آلوده میتواند به محض اینکه مدلهای یادگیری ماشین لود شدند فعال شود. در فوریه 2024 حدود 100 مدل با کارایی مخرب در ذخیره مدلهای محبوب به نام Hugging Face کشف شدند. از میان اینها، 20 درصد پوسه معکوس روی دستگاه آلوده ساخته و 10 درصد هم نرمافزاری اضافه لانچ کرده بودند.
آموزش مسمومیت مجموعه داده
مدلها با دستکاری مجموعه دادههای اولیه میتوانند در مرحله آموزش، تروجانزده شوند. این پروسه که مسمومیت داده نام دارد میتواند هدفمند یا غیرهدفمند باشد. مسمومیت هدفمند مدل را تربیت میکند تا در برخی موارد نادرست کار کند (برای مثال همیشه ادعا کند یوری گاگارین اولین فردی بوده که قدم بر روی ماه گذاشته). مسمومیت غیرهدفمند هدفش پایین آوردن کیفیت کلی مدل است. حملات هدفدار را سخت میشود در مدل تربیتشده تشخیص داد زیرا نیازمند دادههای ورودی خاص هستند اما مسمومیت داده ورودی برای مدل بزرگ هزینهبردار است زیرا نیازمند تغییر حجم قابلتوجهی از داده بدون شناسایی شدن است. در عمل، مواردی شناختهشده وجود دارد از دستکاری مدلهایی که در حین عملیات هنوز دارند یاد میگیرند. بارزترین نمونه مسموم شدن چت بات مایکروسافت است که برای بیان دیدگاه های نژادپرستانه و افراطی در کمتر از یک روز آموزش داده شد. یک مثال عملیتر، تلاش برای مسموم کردن طبقه بندی کننده هرزنامه جیمیل است. در اینجا، مهاجمین دهها هزار ایمیل هرزنامه را بهعنوان مشروع علامتگذاری میکنند تا هرزنامه بیشتری به صندوق ورودی کاربر ارسال شود. همین هدف را می توان با تغییر برچسب های آموزشی در مجموعه دادههای مشروح یا با تزریق داده های مسموم به فرآیند تنظیم دقیق یک مدل از پیش آموزش دیده به دست آورد.
منطق پنهان یا در سایه
متود جدید دستکاری آلودهی سیستمهای هوش مصنوعی معرفی شاخههای اضافی به گراف رایانشی مدل است. این حمله کد قابل اجرا یا دستکاری پروسه تربیت را دربرنمیگیرد اما مدل دستکاریشده میتواند در واکنش به برخی دادههای ورودی از پیش تعیینشده رفتار مطلوب و خواستهشدهای را نشان دهد. این حمله بر این حقیقت نفوذ دارد که مدلهای یادگیری ماشین از گراف رایانشی برای ساختاربندی محاسبات لازم برای تربیت و اجرا استفاده میکنند. این جدول یا گراف توالی را که در آن بلوکهای عصبی شبکه وصل هستند و پارامترهای عملیاتی خود را تعریف میکنند شرح می دهد. جداول رایانشی برای هر مدل به طور جداگانه طراحی شدند؛ هرچند در برخی معماریهای مدل یادگیری ماشین آنها پویا و دینامیک هستند. محققین نشان دادهاند که گراف رایانشی یک کد از قبل تربیتشده را میشود با افزودن شاخهای در مراحل اولیه عملیاتش که سیگنال خاصی در داده ورودی شناسایی میشود دستکاری کرد. به محض شناسایی، مدل طوری هدایت میشود که تحت منطقی که به طور جداگانه برنامهریزیشده عمل کند. در نمونهای از این پژوهش، مدل محبوب تشخیص اشیاد ویدیویی به نام YOLO دستکاری شده بود که اگر فنجان در قاب وجود داشت افراد آن قاب، نادیده گرفته شوند. خطر این متود در کاراییاش در همه مدلهاست؛ صرفنظر از فرمت ذخیرهگاه، مدل و مقیاس کارکرد. یک بکدر را می توان برای پردازش زبان طبیعی، تشخیص اشیا، وظایف طبقه بندی و مدل های زبان چندوجهی پیاده سازی کرد. علاوه بر این، چنین اصلاحی را میتوان حفظ کرد حتی اگر مدل تحت آموزش و تنظیم دقیق باشد.
راهکارهای امنیتی
اقدام امنیتی کلیدی، کنترل تام زنجیره تأمین است. این یعنی تضمین اینکه اصل هر جزئی در سیستم هوش مصنوعی شناختهشده و آزاد از هر دستکاری مخربی باشد. میتوان به موارد زیر اشاره داشت:
- کدی که مدل هوش مصنوعی را اجرا میکند
- محیط محاسباتی که مدل در آن کار میکند (معمولا میزبانی کلود)
- فایلهای مدل
- داده های مورد استفاده برای آموزش
- دادههای مورد استفاده برای تنظیم دقیق
- مخازن اصلی ML به تدریج امضاهای دیجیتال را برای تأیید منشاء و کد مدلها پیاده سازی میکنند.
در مواردی که کنترل شدید روی خاستگاه اصلی داده و کد محسوس نیست، باید به نفع پیشنهادات ارائهدهندههای بااعتبار، از مدلهای منابع مشکوک دست کشید. همچنین مهم است که برای ذخیره مدلهای یادگیری ماشین از فرمتهای امن استفاده کنید. هشدارهای ذخیرهگاه Hugging Face موقع لود مدلهایی که قادر به اجرای کد هستند نمایش داده میشوند. همچنین فرمت اولیه ذخیرهگاه مدل Safetensor است که اجرای کد را مسدود میکند.
[1] Pickle
[2] lambda layer
کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.