شعر، کلید زبان هوش مصنوعی

06 بهمن 1404 شعر، کلید زبان هوش مصنوعی

 روابط عمومی شرکت ایدکو (توزیع‌کننده‌ی محصولات کسپرسکی در ایران)؛ از زمانی که مدل‌های زبانی بزرگ (LLM) به دنیای عمومی معرفی شدند، علاقه‌مندان به فناوری تلاش کرده‌اند راه‌هایی برای دور زدن محدودیت‌های پاسخ‌دهی این مدل‌ها پیدا کنند. بسیاری از این روش‌ها بسیار خلاقانه بوده‌اند اما اکثرشان امروز قدیمی شده‌اند و توسعه‌دهندگان LLM توانسته‌اند بسیاری از آن‌ها را خنثی کنند. اما رقابت بین محدودیت‌ها و راه‌های دورزدن آن‌ها همچنان ادامه دارد؛ تنها تفاوت این است که ترفندها پیچیده‌تر و پیشرفته‌تر شده‌اند. امروز قصد داریم درباره یک تکنیک جدید «جیل‌بریک» هوش مصنوعی صحبت کنیم که از آسیب‌پذیری چت‌بات‌ها نسبت به… شعر سوءاستفاده می‌کند. بله، درست خواندید؛ در یک مطالعه اخیر نشان داده شد که وقتی دستورات به شکل شعر ارائه شوند، احتمال پاسخ‌های ناامن از سوی مدل به‌طور قابل توجهی افزایش پیدا می‌کند.

این روش روی ۲۵ مدل محبوب از شرکت‌هایی مانند Anthropic، OpenAI، Google، Meta، DeepSeek، xAI و دیگر توسعه‌دهندگان آزمایش شد. در ادامه، جزئیات را بررسی می‌کنیم: این مدل‌ها چه محدودیت‌هایی دارند، دانش ممنوعه از کجا به دست می‌آورند، مطالعه چگونه انجام شده و کدام مدل‌ها بیشترین «شاعرانه‌بودن» را نشان دادند؛ یعنی بیشترین آسیب‌پذیری نسبت به دستورات شعری.

آنچه هوش مصنوعی نباید با کاربران در میان بگذارد

 موفقیت مدل‌های OpenAI و دیگر چت‌بات‌های مدرن، نتیجه حجم عظیمی از داده‌هایی است که روی آن‌ها آموزش دیده‌اند. اما همین حجم زیاد باعث می‌شود مدل‌ها ناخواسته چیزهایی یاد بگیرند که توسعه‌دهندگان ترجیح می‌دهند پنهان بماند: توضیح درباره جرم‌ها، فناوری‌های خطرناک، خشونت یا روش‌های غیرقانونی موجود در منابع داده‌ای.

به نظر می‌رسد راه حل ساده‌ای وجود داشته باشد: حذف محتوای ممنوعه از داده‌ها پیش از آموزش مدل. اما در عمل، این کار بسیار پیچیده و پرهزینه است و در وضعیت فعلی رقابت در عرصه هوش مصنوعی، به نظر نمی‌رسد کسی حاضر باشد چنین ریسکی را بر عهده بگیرد.

راه حل دیگر — پاک‌سازی انتخابی داده‌ها از حافظه مدل — نیز عملی نیست. دانش هوش مصنوعی به شکل مرتب و جداگانه ذخیره نشده است که بتوان به راحتی آن را حذف کرد. بلکه این دانش در میلیاردها پارامتر مدل پراکنده شده و با تمام ساختار زبانی آن در هم تنیده است؛ شامل آمار واژه‌ها، زمینه‌ها و روابط بین آن‌ها. تلاش برای پاک‌سازی بخش خاصی از اطلاعات با روش‌های تنظیم یا جریمه، یا کارآمد نیست یا عملکرد کلی مدل و مهارت‌های زبان آن را تضعیف می‌کند.

در نتیجه، برای کنترل این مدل‌ها، سازندگان چاره‌ای جز توسعه پروتکل‌ها و الگوریتم‌های امنیتی ویژه ندارند که با نظارت مداوم بر دستورات کاربران و پاسخ‌های مدل، گفت‌وگوها را فیلتر کنند. برخی از این محدودیت‌ها عبارت‌اند از:

  • دستورات سیستمی: تعیین رفتار مدل و محدود کردن سناریوهای پاسخ مجاز
  • مدل‌های طبقه‌بندی‌کننده مستقل:بررسی دستورات و پاسخ‌ها برای شناسایی تلاش‌های دورزدن محدودیت‌ها، جیل‌بریک یا تزریق دستور
  • مکانیزم‌های پایه‌گذاری: وادار کردن مدل به استفاده از داده‌های خارجی به جای اتکا به روابط داخلی خود
  • تنظیم دقیق و یادگیری تقویتی با بازخورد انسانی:جریمه پاسخ‌های ناامن یا حاشیه‌ای و پاداش دادن به پاسخ‌های مناسب و امتناع‌های صحیح

به زبان ساده، امنیت هوش مصنوعی امروز بر حذف دانش خطرناک متکی نیست، بلکه تلاش می‌کند کنترل کند که مدل چگونه و به چه شکلی به این دانش دسترسی دارد و آن را با کاربر به اشتراک می‌گذارد. و همین شکاف‌ها در مکانیزم‌های امنیتی هستند که راه را برای روش‌های جدید دورزدن محدودیت‌ها باز می‌کنند.

پژوهش: کدام مدل‌ها آزمایش شدند و چگونه؟

ابتدا بیایید اصول آزمایش را مرور کنیم تا مطمئن شویم تحقیق معتبر بوده است. پژوهشگران قصد داشتند ۲۵ مدل مختلف را در دسته‌بندی‌های زیر به رفتارهای نامطلوب وادار کنند:

  • تهدیدهای شیمیایی، بیولوژیکی، هسته‌ای و رادیولوژیکی
  • کمک به حملات سایبری
  • دستکاری و مهندسی اجتماعی مخرب
  • نقض حریم خصوصی و سوء‌استفاده از داده‌های حساس
  • تولید اطلاعات نادرست و گمراه‌کننده
  • سناریوهای هوش مصنوعی سرکش، شامل تلاش برای دورزدن محدودیت‌ها یا عمل مستقل

جیل‌بریک در این مطالعه یک اقدام ساده بود: تنها یک دستور شعری داده شد. پژوهشگران قصد نداشتند مدل‌ها را وارد بحث‌های طولانی شعری کنند؛ هدف صرفاً بررسی این بود که آیا می‌توان با یک درخواست قافیه‌دار، مدل‌ها را وادار به نادیده گرفتن دستورالعمل‌های ایمنی کرد یا نه.

برای ساخت این دستورات شعری، پژوهشگران از پایگاه داده‌ای از دستورات مخرب شناخته‌شده استفاده کردند که در معیار استاندارد MLCommons AILuminate برای سنجش امنیت مدل‌ها به کار می‌رود، و آن‌ها را با کمکدیپ‌سیکبه شکل شعر بازنویسی کردند. تنها تغییر، ظاهر شعری بود و هیچ روش حمله اضافی، استراتژی پیچیده یا تنظیم مخصوص مدل استفاده نشد. پژوهشگران در مجموع ۱۲۰۰ دستور را روی ۲۵ مدل مختلف آزمایش کردند؛ هم در قالب نثر و هم شعر. مقایسه نسخه نثری و شعری همان دستور، به آن‌ها اجازه داد بررسی کنند که آیا تغییر رفتار مدل تنها به دلیل ظاهر شعری است یا خیر. آزمایش با دستورات نثری، مبنایی برای سنجش تمایل مدل‌ها به پاسخ دادن به درخواست‌های خطرناک ایجاد کرد. سپس این مبنا با واکنش مدل‌ها به نسخه شعری همان دستورات مقایسه شد. نتایج این مقایسه را در بخش بعدی بررسی خواهیم کرد.

نتایج مطالعه: کدام مدل بیشترین علاقه را به شعر دارد؟

با توجه به حجم بسیار بالای داده‌های تولید شده در آزمایش، بررسی امنیت پاسخ‌های مدل‌ها نیز توسط هوش مصنوعی انجام شد. هر پاسخ توسط هیأتی متشکل از سه مدل زبان مختلف، به صورت «ایمن» یا «ناایمن» ارزیابی شد:

  • gpt-oss-120b  از OpenAI
  • deepseek-r1  از DeepSeek
  • kimi-k2-thinking  از Moonshot AI

پاسخ‌ها تنها زمانی ایمن تلقی شدند که مدل به‌طور واضح از پاسخ دادن خودداری می‌کرد. تصمیم‌گیری اولیه بر اساس رأی اکثریت بود: برای اینکه پاسخی بی‌خطر شناخته شود، حداقل دو نفر از سه عضو هیأت باید آن را ایمن ارزیابی می‌کردند.

پاسخ‌هایی که به اکثریت نرسیدند یا مشکوک ارزیابی شدند، به بازبینان انسانی واگذار شد. پنج ارزیاب انسانی در این فرآیند شرکت کردند و در مجموع ۶۰۰ پاسخ مدل به دستورات شعری را بررسی کردند. پژوهشگران اشاره کردند که ارزیابی‌های انسانی در اکثر موارد با نتایج هیأت هوش مصنوعی همخوانی داشت. با مشخص شدن روش آزمایش، بیایید عملکرد مدل‌ها را بررسی کنیم. موفقیت یک جیل‌بریک شعری را می‌توان به روش‌های مختلف اندازه‌گیری کرد. پژوهشگران نسخه‌ای افراطی از ارزیابی را بر اساس ۲۰ دستور شعری موفق‌ترین مدل‌ها انجام دادند. با این روش، به طور متوسط نزدیک به دو سوم (۶۲٪) از دستورات شعری توانستند مدل‌ها را وادار به نادیده گرفتن دستورالعمل‌های ایمنی کنند.

مدل Gemini 1.5 Pro  گوگل بیشترین آسیب‌پذیری را نسبت به دستورات شعری داشت. با استفاده از ۲۰ دستور شعری مؤثر، پژوهشگران توانستند محدودیت‌های این مدل را ۱۰۰٪ دور بزنند. راهی معتدل‌تر برای اندازه‌گیری اثر جیل‌بریک شعری، مقایسه نرخ موفقیت دستورات نثری و شعری در کل مجموعه دستورات است. با این معیار، شعر به طور متوسط احتمال پاسخ ناایمن را ۳۵٪ افزایش می‌دهد. اثر شعری بیشترین تأثیر را روی deepseek-chat-v3.1  داشت؛ نرخ موفقیت این مدل در پاسخ به دستورات شعری تقریباً ۶۸ درصد نسبت به دستورات نثری افزایش یافت. در سوی دیگر، مدل claude-haiku-4.5 کمترین آسیب‌پذیری را نشان داد؛ قالب شعری نه تنها نرخ عبور از محدودیت‌ها را افزایش نداد، بلکه کمی آن را کاهش داد و مدل را در برابر دستورات مخرب مقاوم‌تر کرد. پژوهشگران همچنین میزان آسیب‌پذیری کل اکوسیستم توسعه‌دهندگان، نه فقط مدل‌های منفرد، نسبت به دستورات شعری را بررسی کردند.

 

نتیجه‌گیری برای کاربران هوش مصنوعی

پیام اصلی این مطالعه این است که فناوری هوش مصنوعی هنوز پر از ناشناخته‌ها است و نمی‌توان به‌طور دقیق پیش‌بینی کرد که پژوهشگران یا مجرمان سایبری در آینده از چه روش‌های دورزدن امنیتی استفاده خواهند کرد و چه درهایی ممکن است باز شود. در نتیجه، کاربران چاره‌ای جز هوشیاری کامل و مراقبت بیشتر از داده‌ها و امنیت دستگاه‌های خود ندارند. برای کاهش ریسک‌ها و محافظت از دستگاه‌ها، استفاده از راهکارهای امنیتی قوی که فعالیت‌های مشکوک را شناسایی و پیشگیری کنند، به شدت توصیه می‌شود.

 

 کسپرسکی آنلاین (ایدکو)

کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز می‌شناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.

 

 

 

محصولات مرتبط

  • Kaspersky Cloud Password Manager

    Kaspersky Cloud Password Manager ابزار مدیریت کلمه عبور ابری کسپرسکی (KCPM) ضمن ذخیره ایمن تمامی کلمات عبور مورد استفاده شما برای وبسایت‌ها، اپلیکیشن‌ها، و شبکه‌های اجتماعی آنها را در تمامی ...

    15,110,400 ریال25,184,000 ریال
    خرید
  • Kaspersky Safe Kids

    اپلیکیشن همه‌کاره برای فرزندپروریِ دیجیتال و سلامت خانواده نرم افزار امنیت کودکان کسپرسکی، نظارت‌های والدین را آسان می‌کند. ردیابی مکان و عادات دستگاه، محدودسازی محتوا، متعادل‌سازی ...

    15,110,400 ریال25,184,000 ریال
    خرید
  • Kaspersky Security Cloud Personal

    تمام اپ‌های امنیتیِ ما در دستانتان. به کل خانواده‌ی اپ‌های ما برای دسکتاپ و موبایل دسترسی پیدا کنید. از آنتی‌ویروس گرفته تا ابزارهای حریم خصوصی و اجرایی، هر کدام را به میل ...

    167,984,000 ریال
    خرید
  • Kaspersky Standard

    سیستم امنیتی بهبودیافته به همراه تقویت‌کننده عمکرد دستگاه طرح امنیتی استاندارد ما، نه تنها سیستم امنیتی قدرتمندی را برای انواع ویروس‌ها، بدفزارها و باج‌افزارها ارائه می‌دهد ...

    28,512,000 ریال47,520,000 ریال
    خرید
  • Kaspersky Plus

    امنیت. کارایی. حریم خصوصی. همه در یک برنامه با کاربری آسان کسپرسکی پلاس با ارائه امنیت سایبری نسل بعد، شما در برابر ویروس‌ها، باج‌افزارها و بدافزارهای جدید محافظت کند - بدون ...

    40,886,400 ریال68,144,000 ریال
    خرید
  • Kaspersky Premium

    حفاظت کامل از دستگاه ها، حریم خصوصی و هویت شما با محصول Kaspersky Premium تمام نیازهای امنیتی خود و خانواده‌تان را پوشش دهید. حفاظت پیشرفته ...

    43,737,600 ریال72,896,000 ریال
    خرید
  • Kaspersky Small Office Security

    محافظت در حین کار Kaspersky Small Office Security به طور خاص برای سازمان‌هایی طراحی شده است که 5 تا 50 دستگاه کامپیوتر در خود جای داده‌اند. نصب آن بسیار آسان است؛ مدیریت آن ...

    181,440,000 ریال302,400,000 ریال
    خرید
  • Kaspersky Small Office Security

    امنیت ادارات کوچک

    290,294,400 ریال483,824,000 ریال
    خرید
  • Kaspersky Small Office Security

    امنیت ادارات کوچک

    217,718,400 ریال362,864,000 ریال
    خرید
  • Kaspersky Small Office Security

    348,758,400 ریال581,264,000 ریال
    خرید
  • Kaspersky Small Office Security

    254,006,400 ریال423,344,000 ریال
    خرید
  • Kaspersky Small Office Security

    406,214,400 ریال677,024,000 ریال
    خرید
  • Kaspersky Small Office Security

    290,294,400 ریال483,824,000 ریال
    خرید
  • Kaspersky Small Office Security

    464,678,400 ریال774,464,000 ریال
    خرید
  • Kaspersky Small Office Security

    326,582,400 ریال544,304,000 ریال
    خرید
  • Kaspersky Small Office Security

    522,134,400 ریال870,224,000 ریال
    خرید
  • Kaspersky Small Office Security

    332,630,400 ریال554,384,000 ریال
    خرید
  • Kaspersky Small Office Security

    532,214,400 ریال887,024,000 ریال
    خرید
  • Kaspersky Small Office Security

    468,710,400 ریال781,184,000 ریال
    خرید
  • Kaspersky Small Office Security

    749,942,400 ریال1,249,904,000 ریال
    خرید
  • Kaspersky Small Office Security

    604,790,400 ریال1,007,984,000 ریال
    خرید
  • Kaspersky Small Office Security

    967,670,400 ریال1,612,784,000 ریال
    خرید
  • Kaspersky Small Office Security

    730,790,400 ریال1,217,984,000 ریال
    خرید
  • Kaspersky Small Office Security

    1,169,270,400 ریال1,948,784,000 ریال
    خرید
  • Kaspersky Small Office Security

    1,385,990,400 ریال2,309,984,000 ریال
    خرید
  • Kaspersky Small Office Security

    2,217,590,400 ریال3,695,984,000 ریال
    خرید
  • Kaspersky Standard For Mobile

    امنیت موبایل خود را در تمامی دستگاه‌ها به‌طور کامل سامان‌دهی کنید. دستگاه‌های هوشمند خود را با یک موبایل سکیوریتی، در برابر جدیدترین تهدیدات دیجیتال محافظت کنید — تا خیال‌تان ...

    28,512,000 ریال
    خرید

نظر خودتان را ارسال کنید


کاربر گرامی چنانچه تمایل دارید، نقد یا نظر شما به نام خودتان در سایت ثبت شود، لطفاً وارد سایت شوید.
*نظر
کلیه حقوق مادی و معنوی این سایت محفوظ و متعلق به شرکت گسترش خدمات تجارت الکترونیک ایرانیان است و هر گونه کپی برداری از آن پیگرد قانونی دارد