روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ محققین اسرائیلی از آزمایشگاه هوش مصنوعی Offensive مقالهای را منتشر کردند که در آن متور ریستور کردن متن پیامهای چتبات هوشمصنوعی رهگیریشده شرح داده شده است. امروز قرار است ببینیم چطور این حمله کار میکند و در واقعیت تا چه اندازه میتواند خطرناک باشد.
چه اطلاعاتی را میشود از پیامهای چتبات هوش مصنوعی رهگیریشده استخراج کرد؟
چتباتها در حالت طبیعی پیامها را در فرم رمزگذاریشده ارسال میکنند. پیادهسازی مدلهای بزرگ زبانی و چتباتهایی که بر پایه آنها ساخته میشود قابلیتهایی دارند که این رمزگذاری را به طور جدیای تضعیف میکنند. ترکیب این قابلیتها اجرای حمله کانال جانبی را وقتی محتوای پیام از تکههای اطلاعات نشتشده ریستور میشود ممکن میسازد. به منظور درک آنچه در حین این حمله رخ میدهد، باید کمی به جزئیات LLM و ساز و کار چتبات بپردازیم. اولین چیز که باید بدانیم این است که مدلهای بزرگ زبانی یا همان LLMها روی یک کاراکتر یا کلمه واحد عمل نمیکنند بلکه کارشان با توکنها پیش میرود که میتوان آنها را واحدهای معنادار متن توصیف نمود. صفحه Tokenizer در وبسایت OpenAI اجازه میدهد ساز و کار داخلی را نگاهی بیاندازید.
دومین قابلیت که این حمله را تسهیل میکند و اگر خودتان سابقه کار کردن با چتبات را شخصاً داشتهاید قطعاً در مورد آن میدانید: اینها نه در تکههای بزرگ که به صورت تدریجی پاسخها را میفرستند (تقریباً انگار فردی دارد آنها را تایپ میکند). اما برخلاف فرد، LLMها به توکن مینویسند- نه در کاراکترهای مجزا. در نتیجه، چتباتها به صورت در لحظه توکنهای تولیدشده ارسال میکنند –یکی پس از دیگری. بیشتر چتباتها این کار را میکنند به استثنای گوگل جمینای[1] که همین آن را در برابر این حمله غیرقابلنفوذ میکند. مشخصه سوم: در زمان نگارش این مقاله اکثرت چتباتها پیش از رمزگذاری یک پیام از فشردهسازی، کدگذاری یا اصطلاحاً پدینگ[2] استفاده نمیکنند. حملات کانال جانبی هر سه این ویژگی را اکسپلویت میکنند. گرچه پیامهای رهگیریشده چتبات را نمیشود رمزگشایی کرد اما مهاجمین میتوانند از آنها دادههای مفیدی استخراج کنند- خصوصاً طول هر توکن را که توسط چتبات ارسال شده. نتیجه: شما نمیتوانید ببینید دقیقاً چه رمزگذاری شده اما طول توکل هر کلمه افشا خواهد شد.
استفاده از اطلاعات استخراجشده برای ریستور کردن متن پیام
فقط میماند حدس اینکه کدام کلمات پشت توکنها پنهانند. و خوب میدانید که LLMها در حدس زدن چنین بازیهایی قهار هستند. در حقیقت هدف اصلیشان در زندگی همین است: حدس زدن کلمات دست در زمینه مورد نظر. پس برای ریستور کردن متن پیام اورجینال از توالی منتج طول توکن، محققین به LLM روی آوردند. اگر بخواهیم دقیق باشیم دو LLM در این حد ماهرند زیرا محققین مشاهده کردند که مبادلات آغازین در مکالمات با چتباتها تقریباً همیشه فرمولی هستند؛ در نتیجه با مدلی که خصوصاً بر روی مجموعهای از پیامهای مقدمهای که مدلهای محبوب زبان تولیدشان کردند براحتی قابل حدس است. از این رو، اولین مدل برای ریستور پیامهای مقدمهای استفاده میشود و آنها را به مدل دوم میدهد که کارش مدیریت باقی مکالمه است. این متنی را تولید میکند که در آن طول توکنها با پیام اورجینال تطابق دارد. اما برخی کلمات با درجات مختلف موفقیت جستجو فراگیر میشوند. توجه داشته باشید که هماهنگی بینقص بین پیام ریستورشده و اورجینال به ندرت پیش میآید- معمولاً چنین است که بخشی از متن اشتباه حدس زده میشود. گاهی هم نتیجه رضایتبخش است. اما در مورد ناموفق، متن از نوساختهشده ممکن است وجه اشتراک کمی با نسخه اورجینال داشته باشد یا اصلاً هیچ وجه اشتراکی وجود نداشته باشد. در مجموع، محققین روی چندین چتبات هوش مصنوعی تحقیق انجام دادند و پی بردند بیشترشان به این حمله آسیبپذیرند به استثنای همان جمینای و البته GitHub Copilot که نباید با Microsoft Copilot اشتباه شود.
آیا باید نگران باشم؟
لازم به ذکر است که این حمله به صورت گذشتهنگر است. فرض کنید شخصی زحمت شنود و ذخیره مکالمات شما را با ChatGPT (نه به این آسانی، اما ممکن) کشیده است، که در آن شما اسرار وحشتناکی را فاش کردهاید. در این صورت، با استفاده از روشی که در بالا توضیح داده شد، شخص از نظر تئوری قادر به خواندن پیامها خواهد بود. خوشبختانه، شانس رهگیری خیلی زیاد نیست: همانطور که محققین خاطرنشان کردند، حتی موضوع کلی مکالمه تنها در 55٪ مواقع تعیین میشد. در مورد بازسازی موفق، این رقم تنها 29٪ بود. اینکه تفاوتهای معنایی چقدر مهم هستند بستگی به برداشت شما دارد. با این حال، توجه داشته باشید که این روش به احتمال زیاد هیچ ویژگی واقعی (نام، مقادیر عددی، تاریخ، آدرس، جزئیات تماس، سایر اطلاعات حیاتی) را با هیچ درجهای از قابلیت اطمینان استخراج نخواهد کرد. و این حمله یک محدودیت دیگر دارد که محققین نسبت به ذکر آن کوتاهی میکنند: موفقیت بازیابی متن تا حد زیادی به زبانی بستگی دارد که پیامهای رهگیری شده با آن نوشته میشوند: موفقیت توکنسازی از زبانی به زبان دیگر بسیار متفاوت است. این مقاله بر زبان انگلیسی متمرکز بود که با نشانه های بسیار طولانی مشخص می شود که به طور کلی معادل یک کلمه کامل است. از این رو، متن انگلیسی نشانهگذاری شده الگوهای متمایزی را نشان میدهد که بازسازی را نسبتاً ساده میکند. هیچ زبان دیگری نزدیک به زبان انگلیسی نیست. حتی برای آن دسته از زبانهایی که در گروههای ژرمنی و رومی هستند، که شبیهترین زبانها به انگلیسی هستند، میانگین طول رمز 1.5 تا 2 برابر کوتاهتر است. و برای روسی، 2.5 برابر: یک نشانه روسی معمولی تنها چند کاراکتر طول دارد، که احتمالاً اثربخشی این حمله را به صفر میرساند.
دست کم دو توسعهدهنده چتبات هوش مصنوعی Cloudflare و OpenAI از الان با افزودن متود پدینگ که بالاتر توضیح دادیم به این مقاله واکنش نشان دادند. سایر توسعهدهندگان چتبان هوش مصنوعی نیز قرار است این رویه را پیش گیرند و ارتباطگیری آتی با چتباتها (این را از ما به عنوان تضمین قبول کنید) در برابر این حمله مصون خواهند شد.
[1] Google Gemini
[2]Padding : اضافه کردن دادههای زباله به متن معنیدار برای کاهش قابلیت پیشبینی و افزایش قدرت رمزنگاری
کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.