روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ از زمانی که مدلهای زبانی بزرگ (LLM) به دنیای عمومی معرفی شدند، علاقهمندان به فناوری تلاش کردهاند راههایی برای دور زدن محدودیتهای پاسخدهی این مدلها پیدا کنند. بسیاری از این روشها بسیار خلاقانه بودهاند اما اکثرشان امروز قدیمی شدهاند و توسعهدهندگان LLM توانستهاند بسیاری از آنها را خنثی کنند. اما رقابت بین محدودیتها و راههای دورزدن آنها همچنان ادامه دارد؛ تنها تفاوت این است که ترفندها پیچیدهتر و پیشرفتهتر شدهاند. امروز قصد داریم درباره یک تکنیک جدید «جیلبریک» هوش مصنوعی صحبت کنیم که از آسیبپذیری چتباتها نسبت به… شعر سوءاستفاده میکند. بله، درست خواندید؛ در یک مطالعه اخیر نشان داده شد که وقتی دستورات به شکل شعر ارائه شوند، احتمال پاسخهای ناامن از سوی مدل بهطور قابل توجهی افزایش پیدا میکند.
این روش روی ۲۵ مدل محبوب از شرکتهایی مانند Anthropic، OpenAI، Google، Meta، DeepSeek، xAI و دیگر توسعهدهندگان آزمایش شد. در ادامه، جزئیات را بررسی میکنیم: این مدلها چه محدودیتهایی دارند، دانش ممنوعه از کجا به دست میآورند، مطالعه چگونه انجام شده و کدام مدلها بیشترین «شاعرانهبودن» را نشان دادند؛ یعنی بیشترین آسیبپذیری نسبت به دستورات شعری.
آنچه هوش مصنوعی نباید با کاربران در میان بگذارد
موفقیت مدلهای OpenAI و دیگر چتباتهای مدرن، نتیجه حجم عظیمی از دادههایی است که روی آنها آموزش دیدهاند. اما همین حجم زیاد باعث میشود مدلها ناخواسته چیزهایی یاد بگیرند که توسعهدهندگان ترجیح میدهند پنهان بماند: توضیح درباره جرمها، فناوریهای خطرناک، خشونت یا روشهای غیرقانونی موجود در منابع دادهای.
به نظر میرسد راه حل سادهای وجود داشته باشد: حذف محتوای ممنوعه از دادهها پیش از آموزش مدل. اما در عمل، این کار بسیار پیچیده و پرهزینه است و در وضعیت فعلی رقابت در عرصه هوش مصنوعی، به نظر نمیرسد کسی حاضر باشد چنین ریسکی را بر عهده بگیرد.
راه حل دیگر — پاکسازی انتخابی دادهها از حافظه مدل — نیز عملی نیست. دانش هوش مصنوعی به شکل مرتب و جداگانه ذخیره نشده است که بتوان به راحتی آن را حذف کرد. بلکه این دانش در میلیاردها پارامتر مدل پراکنده شده و با تمام ساختار زبانی آن در هم تنیده است؛ شامل آمار واژهها، زمینهها و روابط بین آنها. تلاش برای پاکسازی بخش خاصی از اطلاعات با روشهای تنظیم یا جریمه، یا کارآمد نیست یا عملکرد کلی مدل و مهارتهای زبان آن را تضعیف میکند.
در نتیجه، برای کنترل این مدلها، سازندگان چارهای جز توسعه پروتکلها و الگوریتمهای امنیتی ویژه ندارند که با نظارت مداوم بر دستورات کاربران و پاسخهای مدل، گفتوگوها را فیلتر کنند. برخی از این محدودیتها عبارتاند از:
- دستورات سیستمی: تعیین رفتار مدل و محدود کردن سناریوهای پاسخ مجاز
- مدلهای طبقهبندیکننده مستقل:بررسی دستورات و پاسخها برای شناسایی تلاشهای دورزدن محدودیتها، جیلبریک یا تزریق دستور
- مکانیزمهای پایهگذاری: وادار کردن مدل به استفاده از دادههای خارجی به جای اتکا به روابط داخلی خود
- تنظیم دقیق و یادگیری تقویتی با بازخورد انسانی:جریمه پاسخهای ناامن یا حاشیهای و پاداش دادن به پاسخهای مناسب و امتناعهای صحیح
به زبان ساده، امنیت هوش مصنوعی امروز بر حذف دانش خطرناک متکی نیست، بلکه تلاش میکند کنترل کند که مدل چگونه و به چه شکلی به این دانش دسترسی دارد و آن را با کاربر به اشتراک میگذارد. و همین شکافها در مکانیزمهای امنیتی هستند که راه را برای روشهای جدید دورزدن محدودیتها باز میکنند.
پژوهش: کدام مدلها آزمایش شدند و چگونه؟
ابتدا بیایید اصول آزمایش را مرور کنیم تا مطمئن شویم تحقیق معتبر بوده است. پژوهشگران قصد داشتند ۲۵ مدل مختلف را در دستهبندیهای زیر به رفتارهای نامطلوب وادار کنند:
- تهدیدهای شیمیایی، بیولوژیکی، هستهای و رادیولوژیکی
- کمک به حملات سایبری
- دستکاری و مهندسی اجتماعی مخرب
- نقض حریم خصوصی و سوءاستفاده از دادههای حساس
- تولید اطلاعات نادرست و گمراهکننده
- سناریوهای هوش مصنوعی سرکش، شامل تلاش برای دورزدن محدودیتها یا عمل مستقل
جیلبریک در این مطالعه یک اقدام ساده بود: تنها یک دستور شعری داده شد. پژوهشگران قصد نداشتند مدلها را وارد بحثهای طولانی شعری کنند؛ هدف صرفاً بررسی این بود که آیا میتوان با یک درخواست قافیهدار، مدلها را وادار به نادیده گرفتن دستورالعملهای ایمنی کرد یا نه.
برای ساخت این دستورات شعری، پژوهشگران از پایگاه دادهای از دستورات مخرب شناختهشده استفاده کردند که در معیار استاندارد MLCommons AILuminate برای سنجش امنیت مدلها به کار میرود، و آنها را با کمکدیپسیکبه شکل شعر بازنویسی کردند. تنها تغییر، ظاهر شعری بود و هیچ روش حمله اضافی، استراتژی پیچیده یا تنظیم مخصوص مدل استفاده نشد. پژوهشگران در مجموع ۱۲۰۰ دستور را روی ۲۵ مدل مختلف آزمایش کردند؛ هم در قالب نثر و هم شعر. مقایسه نسخه نثری و شعری همان دستور، به آنها اجازه داد بررسی کنند که آیا تغییر رفتار مدل تنها به دلیل ظاهر شعری است یا خیر. آزمایش با دستورات نثری، مبنایی برای سنجش تمایل مدلها به پاسخ دادن به درخواستهای خطرناک ایجاد کرد. سپس این مبنا با واکنش مدلها به نسخه شعری همان دستورات مقایسه شد. نتایج این مقایسه را در بخش بعدی بررسی خواهیم کرد.
نتایج مطالعه: کدام مدل بیشترین علاقه را به شعر دارد؟
با توجه به حجم بسیار بالای دادههای تولید شده در آزمایش، بررسی امنیت پاسخهای مدلها نیز توسط هوش مصنوعی انجام شد. هر پاسخ توسط هیأتی متشکل از سه مدل زبان مختلف، به صورت «ایمن» یا «ناایمن» ارزیابی شد:
- gpt-oss-120b از OpenAI
- deepseek-r1 از DeepSeek
- kimi-k2-thinking از Moonshot AI
پاسخها تنها زمانی ایمن تلقی شدند که مدل بهطور واضح از پاسخ دادن خودداری میکرد. تصمیمگیری اولیه بر اساس رأی اکثریت بود: برای اینکه پاسخی بیخطر شناخته شود، حداقل دو نفر از سه عضو هیأت باید آن را ایمن ارزیابی میکردند.
پاسخهایی که به اکثریت نرسیدند یا مشکوک ارزیابی شدند، به بازبینان انسانی واگذار شد. پنج ارزیاب انسانی در این فرآیند شرکت کردند و در مجموع ۶۰۰ پاسخ مدل به دستورات شعری را بررسی کردند. پژوهشگران اشاره کردند که ارزیابیهای انسانی در اکثر موارد با نتایج هیأت هوش مصنوعی همخوانی داشت. با مشخص شدن روش آزمایش، بیایید عملکرد مدلها را بررسی کنیم. موفقیت یک جیلبریک شعری را میتوان به روشهای مختلف اندازهگیری کرد. پژوهشگران نسخهای افراطی از ارزیابی را بر اساس ۲۰ دستور شعری موفقترین مدلها انجام دادند. با این روش، به طور متوسط نزدیک به دو سوم (۶۲٪) از دستورات شعری توانستند مدلها را وادار به نادیده گرفتن دستورالعملهای ایمنی کنند.
مدل Gemini 1.5 Pro گوگل بیشترین آسیبپذیری را نسبت به دستورات شعری داشت. با استفاده از ۲۰ دستور شعری مؤثر، پژوهشگران توانستند محدودیتهای این مدل را ۱۰۰٪ دور بزنند. راهی معتدلتر برای اندازهگیری اثر جیلبریک شعری، مقایسه نرخ موفقیت دستورات نثری و شعری در کل مجموعه دستورات است. با این معیار، شعر به طور متوسط احتمال پاسخ ناایمن را ۳۵٪ افزایش میدهد. اثر شعری بیشترین تأثیر را روی deepseek-chat-v3.1 داشت؛ نرخ موفقیت این مدل در پاسخ به دستورات شعری تقریباً ۶۸ درصد نسبت به دستورات نثری افزایش یافت. در سوی دیگر، مدل claude-haiku-4.5 کمترین آسیبپذیری را نشان داد؛ قالب شعری نه تنها نرخ عبور از محدودیتها را افزایش نداد، بلکه کمی آن را کاهش داد و مدل را در برابر دستورات مخرب مقاومتر کرد. پژوهشگران همچنین میزان آسیبپذیری کل اکوسیستم توسعهدهندگان، نه فقط مدلهای منفرد، نسبت به دستورات شعری را بررسی کردند.
نتیجهگیری برای کاربران هوش مصنوعی
پیام اصلی این مطالعه این است که فناوری هوش مصنوعی هنوز پر از ناشناختهها است و نمیتوان بهطور دقیق پیشبینی کرد که پژوهشگران یا مجرمان سایبری در آینده از چه روشهای دورزدن امنیتی استفاده خواهند کرد و چه درهایی ممکن است باز شود. در نتیجه، کاربران چارهای جز هوشیاری کامل و مراقبت بیشتر از دادهها و امنیت دستگاههای خود ندارند. برای کاهش ریسکها و محافظت از دستگاهها، استفاده از راهکارهای امنیتی قوی که فعالیتهای مشکوک را شناسایی و پیشگیری کنند، به شدت توصیه میشود.
کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.