روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ دیپفیکهای صوتی که میتوانند هر صدایی را تقلید کنند تا همین الان نیز در اسکمهای چند میلیون دلاری استفاده شدهاند. در ادامه توضیح خواهیم داد دیپفیکها چطور ساخته میشوند و چطور میشود از خود در برابر آنها محافظت کنید. با ما همراه باشید.
آیا تا به حال شده به این فکر کنید چطور کسی را که آن سوی خط با ما حرف میزند میشناسیم؟ آن فرد پشت خط صرفاً نامی است که روی نمایشگر نمایش داده میشود. اگر از شمارهای که ذخیره کردهایم صدای ناآشنا بشنویم آیا به چیزی مشکوک خواهیم شد یا نه؟ برای تشخیص اینکه واقعاً داریم با چه کسی حرف میزنیم ناخودآگاه آهنگ، لحن و طرز حرف زدن فرد را مد نظر قرار میدهیم. اما آیا این مؤلفهها در عصر هوش مصنوعی میتوانند کافی و قابل اعتماد باشند؟ اخبار اخیر نشان داده است که آنچه میشنویم همیشه هم مورد اطمینان نیست زیرا صداها میتوانند با استفاده از فناوری دیپفیک تقلید شوند.
کمک کنید، به دردسر افتادهام
بهار 2023 اسکمرها در آریزونا تلاش داشتند از راه تلفن زنی را تلکه کنند. او صدای دختری 15 ساله را آنسوی خط میشنود که درخواست کمک میکند. گویا حین کمک، کسی را گوشی را آن دختر میزند و باج میخواهد و از پشت خط صدای جیغ دختر شنیده میشود. زن که مطمئن است صدا، صدای دخترش است تازه بعد از اینکه خیالش بابت جان دختر راحت میشود میفهمد قربانی این اسکم شده. نمیشود 100% ثابت کرد مهاجمین در این اسکم برای تقلید صدای دختر نوجوان از دیپفیک استفاده کردند. شاید اسکم قدیمیتری به کار رفته باشد. مثلا کیفیت تماس، استرسی که به زن وارد شده و بازی روانی که مهاجمین با او راه انداختهاند دست به دست هم داد تا زن باور کند دخترش گروگان گرفته شده. اما حتی اگر فناوریهای عصبی شبکه هم در این مورد استفاده نشده بود، باز هم دیپفیکها با توجه به اینکه هر روز بیشتر متقاعدکننده و خطرناک میشوند میتوانند رخ دهند. برای مبارزه با اکسپلویت از فناوری دیپفیک توسط اسکمرها باید ابتدا با ساز و کار اسکم دیپفیک آشنا شویم.
دیپفیکها چه هستند؟
هوش مصنوعی دیپفیک (فناوری یادگیری عمیق+ جعل) در طول چند سال گذشته به شدت رشد کرده است. فناوری یادگیری ماشین را میشود برای ایجاد تصاویر، ویدیو یا محتوای صوتی جعلی استفاده کرد. برای مثال شبکههای عصبی را میتوان در عکس ها و ویدیوها برای جایگزین کردن صورت فرد با کسی دیگر در عین حال که حالات چهره و نور تصویر باقی میماند استفاده کرد. گرچه اوایل این فیکها کیفیت بدی داشتند و خیلی راحت میشد تشخیصشان داد اما با پیشرفت الگوریتمها نتایج اکنون متقاعدکنندهتر شدند و سخت میشود اصل را از جعل تمیز داد. در سال 2022 اولین نمایش تلویزیونی دیپفیک در روسیه منتشر شد که در آن دیپفیکهای جیسون استاتهام، مارگو رابی، کیانو ریوز و رابت پتینگسون شخصیتهای اصلی بودند.
مکالمه صوتی
اما امروزه تمرکز ما بر روی فناوری بکاررفته در ایجاد دیپ فیک صوتی است. این همچنین به عنوان تبدیل صدا (یا "شبیهسازی صدا" در صورتی که یک کپی دیجیتال کامل از آن ایجاد میکنید) شناخته میشود. تبدیل صدا بر اساس رمزگذارهای خودکار است - نوعی شبکه عصبی که ابتدا دادههای ورودی (بخشی از رمزگذار) را به یک نمایش داخلی فشرده فشرده میکند و سپس یاد میگیرد که آن را از این نمایش (بخشی از رمزگشا) برای بازیابی دادههای اصلی فشرده کند. . به این ترتیب مدل یاد میگیرد که داده ها را در قالب فشرده ارائه و در عین حال مهمترین اطلاعات را هایلایت کند.
برای ساخت دیپفیکهای صوتی دو ضبط صوتی به مدل تزریق میشود؛ یعنی ضبط دوم به ضبط اولی تبدیل خواهد شد. رمزگذار محتوا برای تعیین آنچه در ضبط اول گفته شد استفاده میشود و رمزگذار سخنگو نیز برای استخراج مشخصههای اصلی صدا از ضبط دوم (یعنی اینکه فرد دوم چطور صحبت میکند) مورد استفاده قرار میگیرد. بازنماییهای فشرده آنچه باید گفته شود و اینکه چطور باید گفته شود با هم ترکیب شده و نتیجه با استفاده از کدگشا تولید میگردد. از این رو آنچه در ضبط اول گفته شد اکنون توسط فرد داخل ضبط دوم گفته میشود.
رویکردهای دیگری هم هستند که از کدگذارهای خودکار استفاده میکنند؛ برای مثال آنهایی که از شبکههای مولد رقابتی[1] (GAN) یا مدلهای انتشار استفاده میکنند. تحقیق در مورد نحوه ساخت چنین دیپفیکهایی مشخصاً توسط صنعت فیلمسازی پشتیبانی میشود. کمی تأمل کنید: با دیپ فیکهای صوتی و تصویری این امکان وجود دارد که بشود چهره بازیگران فیلم و نمایشهای تلویزیونی را تقلید کرد و با حالات صورت سینکشده به هر زبانی فیلمها را دوبله کرد.
ساز و کار
تیم کسپرسکی وقتی داشت روی فناوریهای دیپفیک تحقیق میکرد با خودش پرسید دیپفیک کردن صدای خود فرد چقدر میتواند سخت باشد. کاشف بعمل آمد که کلی ابزار رایگان و منبع باز برای کار با مکالمات صوتی وجود دارد اما پیدا کردن نتیجهی باکیفیت و تمیز هنوز هم سخت است. تجربه کار با زبان پیتون میخواهد و مهارتهای خوب در پردازش و حتی کیفیت باز هم از ایدهآل فاصله دارد. علاوه بر منبع باز، نمونههای پولی آن نیز موجود هستند. برای مثال اوایل 2023 مایکروسافت الگوریتمی را معرفی کرد که میتوانست بر اساس نمونه صوتی که فقط سه ثانیه مدت داشت صدای انسان را بازتولید کند. این مدل با زبانهای مختلفی کار میکد پس میتوانید حتی خد را در حالیکه زبان دیگری را حرف میزنید بشنوید! ایدهی جذابی است اما مانده تا اجرایی شود. با این حال پلتفرم ElevenLabs به کاربران خود اجازه میدهد بدون هیچ زحمتی دیپفیکهای صوتی درست کنند. فقط کافیست رکوردینگ صوتی صدا و حرفهایی که قرار است زده شود آپلود کنید و کار تمام است. البته به محض گفته شدن کلمات، افراد به طرق مختلف این فناوری را به بازی گرفتند.
نبرد هرماینی و بانکی بیش از حد قابل اعتماد
درست بر طبق قانون گادوین[2]، طوری شد که اما واتسون بازیگر نقش هراین در سری مجموعه هریپاتر، کتاب نبرد من[3] را بخواند و کاربر دیگر از فناوری ElevenLabs برای هک کردن حساب بانکی خود استفاده کرد. عجیب نیست؟ این کاری است که دیپفیکها با ما میکنند خصوصاً وقتی داستانهای ترسناک محبوب هم چاشنی اسکمها میشوند. برخی از این صداها آنقدر محکم، رعبانگیز و جدی هستند که میشود آن را جای صدای پلیس گذاشت یا کارمند آژانس دولتی گذاشت و بدینترتیب دست به سرقت پول زد. اما در واقعیت ماجرا انقدرها هم بد نیست. اول اینکه برای ایجاد صدای مصنوعی در ElevenLabs حدود پنج دقیقه ضبط صدا طول میکشد، بنابراین یک «بله» ساده کافی نیست. ثانیاً، بانکها نیز در مورد این کلاهبرداریها میدانند، بنابراین از صدا فقط میتوان برای شروع عملیات خاصی استفاده کرد که به انتقال وجه مربوط نمیشود (مثلاً برای بررسی موجودی حساب شما). بنابراین پول را نمی توان از این طریق دزدید. به اعتبار خود، ElevenLabs با بازنویسی قوانین سرویس، ممنوع کردن کاربران رایگان (به عنوان مثال، ناشناس) از ایجاد دیپفیک بر اساس صداهای آپلود شده خود و مسدود کردن حسابهای دارای شکایت درباره «محتوای توهینآمیز» به این مشکل واکنش نشان داد. اگرچه این اقدامات ممکن است مفید باشند، اما هنوز مشکل استفاده از دیپفیکهای صوتی برای اهداف مشکوک را حل نمیکنند.
دیپفیکها به چه روشهای دیگری میتوانند در اسکمها استفاده شوند؟
فناوری دیپفیک به خودی خود بی ضرر است، اما اگر به دست کلاهبرداران بیافتد به ابزار خطرناکی با فرصتهای زیادی برای فریب، افترا یا اطلاعات نادرست تبدیل شود. خوشبختانه، هیچ مورد انبوهی از کلاهبرداری شامل تغییر صدا وجود نداشته اما چندین مورد با مشخصات بالا مربوط به دیپفیک صدا وجود مشاهده شده است. در سال 2019، کلاهبرداران از این فناوری برای از بین بردن شرکت انرژی مستقر در بریتانیا استفاده کردند. در یک مکالمه تلفنی، کلاهبردار وانمود کرد که مدیر اجرایی شرکت مادر آلمانی شرکت است و درخواست واریز فوری 220000 یورو (243000 دلار) به حساب یک شرکت تامین کننده خاص کرد. پس از پرداخت، کلاهبردار دو بار دیگر تماس گرفت - بار اول برای اینکه خیال کارکنان دفتر بریتانیا را راحت کند و گزارش دهد که شرکت مادر قبلاً مبلغی را بازپرداخت کرده است و بار دوم برای درخواست انتقال دیگر. هر سه بار، مدیرعامل بریتانیا کاملاً مثبت بود که با رئیس خود صحبت می کرد زیرا هم لهجه آلمانی و هم لحن و نحوه گفتار او را تشخیص میداد. انتقال دوم فقط به این دلیل ارسال نشد که کلاهبردار گاف داد و به جای شماره آلمانی از یک شماره اتریشی تماس گرفت و این امر سئوی بریتانیا را مشکوک کرد.
آینده دیپفیک
نظرات در مورد آینده دیپ فیک متفاوت است. در حال حاضر بیشتر این فناوری در دست شرکتهای بزرگ است و دسترسی به آن برای عموم محدود. اما همانطور که تاریخچه مدلهای تولیدی بسیار محبوبتری مانند DALL-E، Midjourney و Stable Diffusion نشان میدهد، و حتی بیشتر از آن در مورد مدلهای زبان بزرگ (ChatGPT که معرف حضور همه است)، فناوریهای مشابه ممکن است در آینده قابل پیشبینی در حوزه عمومی ظاهر شوند. این موضوع با افشای مکاتبات داخلی گوگل تأیید میشود که در آن نمایندگان این غول اینترنتی میترسند رقابت هوش مصنوعی برای راهکارهای باز را از دست بدهند. این بدیهی است که مهاجمین بیشتری از دیپفیکهای صوتی در حملات خود استفاده کنند. امیدوارکننده ترین مرحله در توسعه دیپ فیک، تولید بلادرنگ یا درلحظه است که رشد انفجاری دیپ فیکها (و تقلب بر اساس آنها) را تضمین میکند. آیا می توانید یک تماس تصویری با فردی که صورت و صدایش کاملا جعلی است تصور کنید؟ با این حال، این سطح از پردازش دادهها به منابع عظیمی نیاز دارد که فقط در اختیار شرکتهای بزرگ است، بنابراین بهترین فناوریها خصوصی باقی میمانند و کلاهبرداران نمیتوانند با حرفهایها همگام شوند. با توجه به این قوانین سرسختانه و محدودیتها هنوز کاربران فرصت دارند یاد بگیرند چطور سریع دیپفیکها را تشخیص دهند.
راهکارهای امنیتی
حالا برگردیم به اولین سوالمان: آیا میشود به صداهای که میشنویم (یعنی آن صداهایی که در سرمان نیستند و در دنیای واقعی آنها را میشنویم) اعتماد کنیم؟ بسیارخوب شاید اگر خیلی به این ماجرا مشکوک شویم وسواس پیدا خواهیم کرد و این یعنی زیادهروی؛ اما شاید در برخی مواقع همین شک کردنها مناسب باشد! اگر هر چیزی بر پایه دید منفیگرایانه پیش رود، میشود گفت دیپفیک در دستان اسکمرها در آینده به سلاح تبدیل خواهد شد اما میشود از الان به فکر یافتن راهحل و مبارزه با این اتفاق بود. در مورد دیپفیک تحقیقات زیادی شده و شرکتها بزرگ در حال ساخت راهکارهای امنیتی هستند. اما اجالتاً برای مبارزه با جعل هوش مصنوعی باید با موارد پیشگیرانه ساده شروع کرد. مهم است در نظر داشته باشید دیپفیکها تنها نوعی از مهندسی اجتماعی پیشرفته هستند. ریسک برخورد با چنین اسکمی کم است اما هنوز باید جدیاش گرفت: اگر تماس عجیبی دریافت کردید به کیفیت صدا توجه کنید. آیا لحن یکنواختی دارد؟ آیا سخنان، نامفهوم است؟ آیا نویزهای عجیبی در صدا میشنوید؟ همیشه از طریق کانالهای دیگر اطلاعات را بررسی کنید و یادتان باشد اسکمرها همیشه از حس ترس و غافلگیری قربانیان تغذیه میشوند.
[1] generative adversarial networks
[2]یا قاعده قیاسهای نازی گادوین، یک کلام قصار آمیخته به طنز در حوزه اینترنت است که در مورد بحثهای آنلاین بکار میرود. بنا بر این قانون، در هر بحث آنلاین فارغ از موضوع و وسعت آن، هرچه بحث طولانیتر شود، احتمال اینکه یکی از طرفین مقایسهای با آدولف هیتلر یا نازیسم انجام دهد، بیشتر میشود.
[3]کتابی به نوشته آدولف هیتلر
منبع: کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.