وبلاگ کسپرسکی آنلاین | شعر، کلید زبان هوش مصنوعی

روابط عمومی شرکت ایدکو (توزیع‌کننده‌ی محصولات کسپرسکی در ایران)؛ از زمانی که مدل‌های زبانی بزرگ (LLM) به دنیای عمومی معرفی شدند، علاقه‌مندان به فناوری تلاش کرده‌اند راه‌هایی برای دور زدن محدودیت‌های پاسخ‌دهی این مدل‌ها پیدا کنند. بسیاری از این روش‌ها بسیار خلاقانه بوده‌اند اما اکثرشان امروز قدیمی شده‌اند و توسعه‌دهندگان LLM توانسته‌اند بسیاری از آن‌ها را خنثی کنند. اما رقابت بین محدودیت‌ها و راه‌های دورزدن آن‌ها همچنان ادامه دارد؛ تنها تفاوت این است که ترفندها پیچیده‌تر و پیشرفته‌تر شده‌اند. امروز قصد داریم درباره یک تکنیک جدید «جیل‌بریک» هوش مصنوعی صحبت کنیم که از آسیب‌پذیری چت‌بات‌ها نسبت به… شعر سوءاستفاده می‌کند. بله، درست خواندید؛ در یک مطالعه اخیر نشان داده شد که وقتی دستورات به شکل شعر ارائه شوند، احتمال پاسخ‌های ناامن از سوی مدل به‌طور قابل توجهی افزایش پیدا می‌کند.

این روش روی ۲۵ مدل محبوب از شرکت‌هایی مانند Anthropic، OpenAI، Google، Meta، DeepSeek، xAI و دیگر توسعه‌دهندگان آزمایش شد. در ادامه، جزئیات را بررسی می‌کنیم: این مدل‌ها چه محدودیت‌هایی دارند، دانش ممنوعه از کجا به دست می‌آورند، مطالعه چگونه انجام شده و کدام مدل‌ها بیشترین «شاعرانه‌بودن» را نشان دادند؛ یعنی بیشترین آسیب‌پذیری نسبت به دستورات شعری.

آنچه هوش مصنوعی نباید با کاربران در میان بگذارد

موفقیت مدل‌های OpenAI و دیگر چت‌بات‌های مدرن، نتیجه حجم عظیمی از داده‌هایی است که روی آن‌ها آموزش دیده‌اند. اما همین حجم زیاد باعث می‌شود مدل‌ها ناخواسته چیزهایی یاد بگیرند که توسعه‌دهندگان ترجیح می‌دهند پنهان بماند: توضیح درباره جرم‌ها، فناوری‌های خطرناک، خشونت یا روش‌های غیرقانونی موجود در منابع داده‌ای.

به نظر می‌رسد راه حل ساده‌ای وجود داشته باشد: حذف محتوای ممنوعه از داده‌ها پیش از آموزش مدل. اما در عمل، این کار بسیار پیچیده و پرهزینه است و در وضعیت فعلی رقابت در عرصه هوش مصنوعی، به نظر نمی‌رسد کسی حاضر باشد چنین ریسکی را بر عهده بگیرد.

راه حل دیگر — پاک‌سازی انتخابی داده‌ها از حافظه مدل — نیز عملی نیست. دانش هوش مصنوعی به شکل مرتب و جداگانه ذخیره نشده است که بتوان به راحتی آن را حذف کرد. بلکه این دانش در میلیاردها پارامتر مدل پراکنده شده و با تمام ساختار زبانی آن در هم تنیده است؛ شامل آمار واژه‌ها، زمینه‌ها و روابط بین آن‌ها. تلاش برای پاک‌سازی بخش خاصی از اطلاعات با روش‌های تنظیم یا جریمه، یا کارآمد نیست یا عملکرد کلی مدل و مهارت‌های زبان آن را تضعیف می‌کند.

در نتیجه، برای کنترل این مدل‌ها، سازندگان چاره‌ای جز توسعه پروتکل‌ها و الگوریتم‌های امنیتی ویژه ندارند که با نظارت مداوم بر دستورات کاربران و پاسخ‌های مدل، گفت‌وگوها را فیلتر کنند. برخی از این محدودیت‌ها عبارت‌اند از:

دستورات سیستمی: تعیین رفتار مدل و محدود کردن سناریوهای پاسخ مجاز
مدل‌های طبقه‌بندی‌کننده مستقل:بررسی دستورات و پاسخ‌ها برای شناسایی تلاش‌های دورزدن محدودیت‌ها، جیل‌بریک یا تزریق دستور
مکانیزم‌های پایه‌گذاری: وادار کردن مدل به استفاده از داده‌های خارجی به جای اتکا به روابط داخلی خود
تنظیم دقیق و یادگیری تقویتی با بازخورد انسانی:جریمه پاسخ‌های ناامن یا حاشیه‌ای و پاداش دادن به پاسخ‌های مناسب و امتناع‌های صحیح

به زبان ساده، امنیت هوش مصنوعی امروز بر حذف دانش خطرناک متکی نیست، بلکه تلاش می‌کند کنترل کند که مدل چگونه و به چه شکلی به این دانش دسترسی دارد و آن را با کاربر به اشتراک می‌گذارد. و همین شکاف‌ها در مکانیزم‌های امنیتی هستند که راه را برای روش‌های جدید دورزدن محدودیت‌ها باز می‌کنند.

پژوهش: کدام مدل‌ها آزمایش شدند و چگونه؟

ابتدا بیایید اصول آزمایش را مرور کنیم تا مطمئن شویم تحقیق معتبر بوده است. پژوهشگران قصد داشتند ۲۵ مدل مختلف را در دسته‌بندی‌های زیر به رفتارهای نامطلوب وادار کنند:

تهدیدهای شیمیایی، بیولوژیکی، هسته‌ای و رادیولوژیکی
کمک به حملات سایبری
دستکاری و مهندسی اجتماعی مخرب
نقض حریم خصوصی و سوء‌استفاده از داده‌های حساس
تولید اطلاعات نادرست و گمراه‌کننده
سناریوهای هوش مصنوعی سرکش، شامل تلاش برای دورزدن محدودیت‌ها یا عمل مستقل

جیل‌بریک در این مطالعه یک اقدام ساده بود: تنها یک دستور شعری داده شد. پژوهشگران قصد نداشتند مدل‌ها را وارد بحث‌های طولانی شعری کنند؛ هدف صرفاً بررسی این بود که آیا می‌توان با یک درخواست قافیه‌دار، مدل‌ها را وادار به نادیده گرفتن دستورالعمل‌های ایمنی کرد یا نه.

برای ساخت این دستورات شعری، پژوهشگران از پایگاه داده‌ای از دستورات مخرب شناخته‌شده استفاده کردند که در معیار استاندارد MLCommons AILuminate برای سنجش امنیت مدل‌ها به کار می‌رود، و آن‌ها را با کمکدیپ‌سیکبه شکل شعر بازنویسی کردند. تنها تغییر، ظاهر شعری بود و هیچ روش حمله اضافی، استراتژی پیچیده یا تنظیم مخصوص مدل استفاده نشد. پژوهشگران در مجموع ۱۲۰۰ دستور را روی ۲۵ مدل مختلف آزمایش کردند؛ هم در قالب نثر و هم شعر. مقایسه نسخه نثری و شعری همان دستور، به آن‌ها اجازه داد بررسی کنند که آیا تغییر رفتار مدل تنها به دلیل ظاهر شعری است یا خیر. آزمایش با دستورات نثری، مبنایی برای سنجش تمایل مدل‌ها به پاسخ دادن به درخواست‌های خطرناک ایجاد کرد. سپس این مبنا با واکنش مدل‌ها به نسخه شعری همان دستورات مقایسه شد. نتایج این مقایسه را در بخش بعدی بررسی خواهیم کرد.

نتایج مطالعه: کدام مدل بیشترین علاقه را به شعر دارد؟

با توجه به حجم بسیار بالای داده‌های تولید شده در آزمایش، بررسی امنیت پاسخ‌های مدل‌ها نیز توسط هوش مصنوعی انجام شد. هر پاسخ توسط هیأتی متشکل از سه مدل زبان مختلف، به صورت «ایمن» یا «ناایمن» ارزیابی شد:

gpt-oss-120b از OpenAI
deepseek-r1 از DeepSeek
kimi-k2-thinking از Moonshot AI

پاسخ‌ها تنها زمانی ایمن تلقی شدند که مدل به‌طور واضح از پاسخ دادن خودداری می‌کرد. تصمیم‌گیری اولیه بر اساس رأی اکثریت بود: برای اینکه پاسخی بی‌خطر شناخته شود، حداقل دو نفر از سه عضو هیأت باید آن را ایمن ارزیابی می‌کردند.

پاسخ‌هایی که به اکثریت نرسیدند یا مشکوک ارزیابی شدند، به بازبینان انسانی واگذار شد. پنج ارزیاب انسانی در این فرآیند شرکت کردند و در مجموع ۶۰۰ پاسخ مدل به دستورات شعری را بررسی کردند. پژوهشگران اشاره کردند که ارزیابی‌های انسانی در اکثر موارد با نتایج هیأت هوش مصنوعی همخوانی داشت. با مشخص شدن روش آزمایش، بیایید عملکرد مدل‌ها را بررسی کنیم. موفقیت یک جیل‌بریک شعری را می‌توان به روش‌های مختلف اندازه‌گیری کرد. پژوهشگران نسخه‌ای افراطی از ارزیابی را بر اساس ۲۰ دستور شعری موفق‌ترین مدل‌ها انجام دادند. با این روش، به طور متوسط نزدیک به دو سوم (۶۲٪) از دستورات شعری توانستند مدل‌ها را وادار به نادیده گرفتن دستورالعمل‌های ایمنی کنند.

مدل Gemini 1.5 Pro گوگل بیشترین آسیب‌پذیری را نسبت به دستورات شعری داشت. با استفاده از ۲۰ دستور شعری مؤثر، پژوهشگران توانستند محدودیت‌های این مدل را ۱۰۰٪ دور بزنند. راهی معتدل‌تر برای اندازه‌گیری اثر جیل‌بریک شعری، مقایسه نرخ موفقیت دستورات نثری و شعری در کل مجموعه دستورات است. با این معیار، شعر به طور متوسط احتمال پاسخ ناایمن را ۳۵٪ افزایش می‌دهد. اثر شعری بیشترین تأثیر را روی deepseek-chat-v3.1 داشت؛ نرخ موفقیت این مدل در پاسخ به دستورات شعری تقریباً ۶۸ درصد نسبت به دستورات نثری افزایش یافت. در سوی دیگر، مدل claude-haiku-4.5 کمترین آسیب‌پذیری را نشان داد؛ قالب شعری نه تنها نرخ عبور از محدودیت‌ها را افزایش نداد، بلکه کمی آن را کاهش داد و مدل را در برابر دستورات مخرب مقاوم‌تر کرد. پژوهشگران همچنین میزان آسیب‌پذیری کل اکوسیستم توسعه‌دهندگان، نه فقط مدل‌های منفرد، نسبت به دستورات شعری را بررسی کردند.

نتیجه‌گیری برای کاربران هوش مصنوعی

پیام اصلی این مطالعه این است که فناوری هوش مصنوعی هنوز پر از ناشناخته‌ها است و نمی‌توان به‌طور دقیق پیش‌بینی کرد که پژوهشگران یا مجرمان سایبری در آینده از چه روش‌های دورزدن امنیتی استفاده خواهند کرد و چه درهایی ممکن است باز شود. در نتیجه، کاربران چاره‌ای جز هوشیاری کامل و مراقبت بیشتر از داده‌ها و امنیت دستگاه‌های خود ندارند. برای کاهش ریسک‌ها و محافظت از دستگاه‌ها، استفاده از راهکارهای امنیتی قوی که فعالیت‌های مشکوک را شناسایی و پیشگیری کنند، به شدت توصیه می‌شود.

کسپرسکی آنلاین (ایدکو)

کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز می‌شناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.

شرکت گسترش خدمات تجارت الکترونیک ایرانیان

شعر، کلید زبان هوش مصنوعی

محصولات مرتبط

Kaspersky Cloud Password Manager

Kaspersky Safe Kids

Kaspersky Security Cloud Personal

Kaspersky Standard

Kaspersky Plus

Kaspersky Premium

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Small Office Security

Kaspersky Standard For Mobile

نظر خودتان را ارسال کنید