وبلاگ کسپرسکی آنلاین | چطور هکرها با ChatGPT یا Microsoft Copilot می‌توانند چت‌های شما را بخوانند؟

روابط عمومی شرکت ایدکو (توزیع‌کننده‌ی محصولات کسپرسکی در ایران)؛ محققین اسرائیلی از آزمایشگاه هوش مصنوعی Offensive مقاله‌ای را منتشر کردند که در آن متور ریستور کردن متن پیام‌های چت‌بات هوش‌مصنوعی رهگیری‌شده شرح داده شده است. امروز قرار است ببینیم چطور این حمله کار می‌کند و در واقعیت تا چه اندازه می‌تواند خطرناک باشد.

چه اطلاعاتی را می‌شود از پیام‌های چت‌بات هوش مصنوعی رهگیری‌شده استخراج کرد؟

چت‌بات‌ها در حالت طبیعی پیام‌ها را در فرم رمزگذاری‌شده ارسال می‌کنند. پیاده‌سازی مدل‌های بزرگ زبانی و چت‌بات‌هایی که بر پایه آن‌ها ساخته می‌شود قابلیت‌هایی دارند که این رمزگذاری را به طور جدی‌ای تضعیف می‌کنند. ترکیب این قابلیت‌ها اجرای حمله کانال جانبی را وقتی محتوای پیام از تکه‌های اطلاعات نشت‌شده ریستور می‌شود ممکن می‌سازد. به منظور درک آنچه در حین این حمله رخ می‌دهد، باید کمی به جزئیات LLM و ساز و کار چت‌بات بپردازیم. اولین چیز که باید بدانیم این است که مدل‌های بزرگ زبانی یا همان LLMها روی یک کاراکتر یا کلمه واحد عمل نمی‌کنند بلکه کارشان با توکن‌ها پیش می‌رود که می‌توان آن‌ها را واحدهای معنادار متن توصیف نمود. صفحه Tokenizer در وبسایت OpenAI اجازه می‌دهد ساز و کار داخلی را نگاهی بیاندازید.

دومین قابلیت که این حمله را تسهیل می‌کند و اگر خودتان سابقه کار کردن با چت‌بات را شخصاً داشته‌اید قطعاً در مورد آن می‌دانید: اینها نه در تکه‌های بزرگ که به صورت تدریجی پاسخ‌ها را می‌فرستند (تقریباً انگار فردی دارد آن‌ها را تایپ می‌کند). اما برخلاف فرد، LLMها به توکن می‌نویسند- نه در کاراکترهای مجزا. در نتیجه، چت‌بات‌ها به صورت در لحظه توکن‌های تولیدشده ارسال می‌کنند –یکی پس از دیگری. بیشتر چت‌بات‌ها این کار را می‌کنند به استثنای گوگل جمینای[1] که همین آن را در برابر این حمله غیرقابل‌نفوذ می‌کند. مشخصه سوم: در زمان نگارش این مقاله اکثرت چت‌بات‌ها پیش از رمزگذاری یک پیام از فشرده‌سازی، کدگذاری یا اصطلاحاً پدینگ[2] استفاده نمی‌کنند. حملات کانال جانبی هر سه این ویژگی را اکسپلویت می‌کنند. گرچه پیام‌های رهگیری‌شده چت‌بات را نمی‌شود رمزگشایی کرد اما مهاجمین می‌توانند از آن‌ها داده‌های مفیدی استخراج کنند- خصوصاً طول هر توکن را که توسط چت‌بات ارسال‌ شده. نتیجه: شما نمی‌توانید ببینید دقیقاً چه رمزگذاری شده اما طول توکل هر کلمه افشا خواهد شد.

استفاده از اطلاعات استخراج‌شده برای ریستور کردن متن پیام

فقط می‌ماند حدس اینکه کدام کلمات پشت توکن‌ها پنهانند. و خوب می‌دانید که LLMها در حدس زدن چنین بازی‌هایی قهار هستند. در حقیقت هدف اصلی‌شان در زندگی همین است: حدس زدن کلمات دست در زمینه مورد نظر. پس برای ریستور کردن متن پیام اورجینال از توالی منتج طول توکن، محققین به LLM روی آوردند. اگر بخواهیم دقیق باشیم دو LLM در این حد ماهرند زیرا محققین مشاهده کردند که مبادلات آغازین در مکالمات با چت‌بات‌ها تقریباً همیشه فرمولی هستند؛ در نتیجه با مدلی که خصوصاً بر روی مجموعه‌ای از پیام‌های مقدمه‌ای که مدل‌های محبوب زبان تولیدشان کردند براحتی قابل حدس است. از این رو، اولین مدل برای ریستور پیام‌های مقدمه‌ای استفاده می‌شود و آن‌ها را به مدل دوم می‌دهد که کارش مدیریت باقی مکالمه است. این متنی را تولید می‌کند که در آن طول توکن‌ها با پیام اورجینال تطابق دارد. اما برخی کلمات با درجات مختلف موفقیت جستجو فراگیر می‌شوند. توجه داشته باشید که هماهنگی بی‌نقص بین پیام ریستورشده و اورجینال به ندرت پیش می‌آید- معمولاً چنین است که بخشی از متن اشتباه حدس زده می‌شود. گاهی هم نتیجه رضایت‌بخش است. اما در مورد ناموفق، متن از نوساخته‌شده ممکن است وجه اشتراک کمی با نسخه اورجینال داشته باشد یا اصلاً هیچ وجه اشتراکی وجود نداشته باشد. در مجموع، محققین روی چندین چت‌بات هوش مصنوعی تحقیق انجام دادند و پی بردند بیشترشان به این حمله آسیب‌پذیرند به استثنای همان جمینای و البته GitHub Copilot که نباید با Microsoft Copilot اشتباه شود.

آیا باید نگران باشم؟

لازم به ذکر است که این حمله به صورت گذشته‌نگر است. فرض کنید شخصی زحمت شنود و ذخیره مکالمات شما را با ChatGPT (نه به این آسانی، اما ممکن) کشیده است، که در آن شما اسرار وحشتناکی را فاش کرده‌اید. در این صورت، با استفاده از روشی که در بالا توضیح داده شد، شخص از نظر تئوری قادر به خواندن پیام‌ها خواهد بود. خوشبختانه، شانس رهگیری خیلی زیاد نیست: همانطور که محققین خاطرنشان کردند، حتی موضوع کلی مکالمه تنها در 55٪ مواقع تعیین می‌شد. در مورد بازسازی موفق، این رقم تنها 29٪ بود. اینکه تفاوت‌های معنایی چقدر مهم هستند بستگی به برداشت شما دارد. با این حال، توجه داشته باشید که این روش به احتمال زیاد هیچ ویژگی واقعی (نام، مقادیر عددی، تاریخ، آدرس، جزئیات تماس، سایر اطلاعات حیاتی) را با هیچ درجه‌ای از قابلیت اطمینان استخراج نخواهد کرد. و این حمله یک محدودیت دیگر دارد که محققین نسبت به ذکر آن کوتاهی می‌کنند: موفقیت بازیابی متن تا حد زیادی به زبانی بستگی دارد که پیام‌های رهگیری شده با آن نوشته می‌شوند: موفقیت توکن‌سازی از زبانی به زبان دیگر بسیار متفاوت است. این مقاله بر زبان انگلیسی متمرکز بود که با نشانه های بسیار طولانی مشخص می شود که به طور کلی معادل یک کلمه کامل است. از این رو، متن انگلیسی نشانه‌گذاری شده الگوهای متمایزی را نشان می‌دهد که بازسازی را نسبتاً ساده می‌کند. هیچ زبان دیگری نزدیک به زبان انگلیسی نیست. حتی برای آن دسته از زبان‌هایی که در گروه‌های ژرمنی و رومی هستند، که شبیه‌ترین زبان‌ها به انگلیسی هستند، میانگین طول رمز 1.5 تا 2 برابر کوتاه‌تر است. و برای روسی، 2.5 برابر: یک نشانه روسی معمولی تنها چند کاراکتر طول دارد، که احتمالاً اثربخشی این حمله را به صفر می‌رساند.

دست کم دو توسعه‌دهنده چت‌بات هوش مصنوعی Cloudflare و OpenAI از الان با افزودن متود پدینگ که بالاتر توضیح دادیم به این مقاله واکنش نشان دادند. سایر توسعه‌دهندگان چت‌بان هوش مصنوعی نیز قرار است این رویه را پیش گیرند و ارتباط‌گیری آتی با چت‌بات‌ها (این را از ما به عنوان تضمین قبول کنید) در برابر این حمله مصون خواهند شد.

[1] Google Gemini

[2]Padding : اضافه کردن داده‌های زباله به متن معنی‌دار برای کاهش قابلیت پیش‌بینی و افزایش قدرت رمزنگاری

کسپرسکی آنلاین (ایدکو)

کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز می‌شناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.