وبلاگ کسپرسکی آنلاین | به گوش‌هایتان اعتماد نکنید: دیپ‌فیک‌های صوتی

روابط عمومی شرکت ایدکو (توزیع‌کننده‌ی محصولات کسپرسکی در ایران)؛ دیپ‌فیک‌های صوتی که می‌توانند هر صدایی را تقلید کنند تا همین الان نیز در اسکم‌های چند میلیون دلاری استفاده شده‌اند. در ادامه توضیح خواهیم داد دیپ‌فیک‌ها چطور ساخته می‌شوند و چطور می‌شود از خود در برابر آن‌ها محافظت کنید. با ما همراه باشید.

آیا تا به حال شده به این فکر کنید چطور کسی را که آن سوی خط با ما حرف می‌زند می‌شناسیم؟ آن فرد پشت خط صرفاً نامی است که روی نمایشگر نمایش داده می‌شود. اگر از شماره‌ای که ذخیره کرده‌ایم صدای ناآشنا بشنویم آیا به چیزی مشکوک خواهیم شد یا نه؟ برای تشخیص اینکه واقعاً داریم با چه کسی حرف می‌زنیم ناخودآگاه آهنگ، لحن و طرز حرف زدن فرد را مد نظر قرار می‌دهیم. اما آیا این مؤلفه‌ها در عصر هوش مصنوعی می‌توانند کافی و قابل اعتماد باشند؟ اخبار اخیر نشان داده است که آنچه می‌شنویم همیشه هم مورد اطمینان نیست زیرا صداها می‌توانند با استفاده از فناوری دیپ‌فیک تقلید شوند.

کمک کنید، به دردسر افتاده‌ام

بهار 2023 اسکمرها در آریزونا تلاش داشتند از راه تلفن زنی را تلکه کنند. او صدای دختری 15 ساله را آنسوی خط می‌شنود که درخواست کمک می‌کند. گویا حین کمک، کسی را گوشی را آن دختر می‌زند و باج می‌خواهد و از پشت خط صدای جیغ دختر شنیده می‌شود. زن که مطمئن است صدا، صدای دخترش است تازه بعد از اینکه خیالش بابت جان دختر راحت می‌شود می‌فهمد قربانی این اسکم شده. نمی‌شود 100% ثابت کرد مهاجمین در این اسکم برای تقلید صدای دختر نوجوان از دیپ‌فیک استفاده کردند. شاید اسکم قدیمی‌تری به کار رفته باشد. مثلا کیفیت تماس، استرسی که به زن وارد شده و بازی‌ روانی که مهاجمین با او راه انداخته‌اند دست به دست هم داد تا زن باور کند دخترش گروگان گرفته شده. اما حتی اگر فناوری‌های عصبی شبکه هم در این مورد استفاده نشده بود، باز هم دیپ‌فیک‌ها با توجه به اینکه هر روز بیشتر متقاعدکننده و خطرناک‌ می‌شوند می‌توانند رخ دهند. برای مبارزه با اکسپلویت از فناوری دیپ‌فیک توسط اسکمرها باید ابتدا با ساز و کار اسکم دیپ‌فیک آشنا شویم.

دیپ‌فیک‌ها چه هستند؟

هوش مصنوعی دیپ‌فیک (فناوری یادگیری عمیق+ جعل) در طول چند سال گذشته به شدت رشد کرده است. فناوری یادگیری ماشین را می‌شود برای ایجاد تصاویر، ویدیو یا محتوای صوتی جعلی استفاده کرد. برای مثال شبکه‌های عصبی را می‌توان در عکس ها و ویدیوها برای جایگزین کردن صورت فرد با کسی دیگر در عین حال که حالات چهره و نور تصویر باقی می‌ماند استفاده کرد. گرچه اوایل این فیک‌ها کیفیت بدی داشتند و خیلی راحت می‌شد تشخیص‌شان داد اما با پیشرفت الگوریتم‌ها نتایج اکنون متقاعدکننده‌تر شدند و سخت می‌شود اصل را از جعل تمیز داد. در سال 2022 اولین نمایش تلویزیونی دیپ‌فیک در روسیه منتشر شد که در آن دیپ‌فیک‌های جیسون استاتهام، مارگو رابی، کیانو ریوز و رابت پتینگسون شخصیت‌های اصلی بودند.

مکالمه صوتی

اما امروزه تمرکز ما بر روی فناوری بکاررفته در ایجاد دیپ فیک صوتی است. این همچنین به عنوان تبدیل صدا (یا "شبیه‌سازی صدا" در صورتی که یک کپی دیجیتال کامل از آن ایجاد می‌کنید) شناخته می‌شود. تبدیل صدا بر اساس رمزگذارهای خودکار است - نوعی شبکه عصبی که ابتدا داده‌های ورودی (بخشی از رمزگذار) را به یک نمایش داخلی فشرده فشرده می‌کند و سپس یاد می‌گیرد که آن را از این نمایش (بخشی از رمزگشا) برای بازیابی داده‌های اصلی فشرده کند. . به این ترتیب مدل یاد می‌گیرد که داده ها را در قالب فشرده ارائه و در عین حال مهم‌ترین اطلاعات را هایلایت کند.

برای ساخت دیپ‌فیک‌های صوتی دو ضبط صوتی به مدل تزریق می‌شود؛ یعنی ضبط دوم به ضبط اولی تبدیل خواهد شد. رمزگذار محتوا برای تعیین آنچه در ضبط اول گفته شد استفاده می‌شود و رمزگذار سخنگو نیز برای استخراج مشخصه‌های اصلی صدا از ضبط دوم (یعنی اینکه فرد دوم چطور صحبت می‌کند) مورد استفاده قرار می‌گیرد. بازنمایی‌های فشرده آنچه باید گفته شود و اینکه چطور باید گفته شود با هم ترکیب شده و نتیجه با استفاده از کدگشا تولید می‌گردد. از این رو آنچه در ضبط اول گفته شد اکنون توسط فرد داخل ضبط دوم گفته می‌شود.

رویکردهای دیگری هم هستند که از کدگذارهای خودکار استفاده می‌کنند؛ برای مثال آن‌هایی که از شبکه‌های مولد رقابتی[1] (GAN) یا مدل‌های انتشار استفاده می‌کنند. تحقیق در مورد نحوه ساخت چنین دیپ‌فیک‌هایی مشخصاً توسط صنعت فیلم‌سازی پشتیبانی می‌شود. کمی تأمل کنید: با دیپ فیک‌های صوتی و تصویری این امکان وجود دارد که بشود چهره بازیگران فیلم و نمایش‌های تلویزیونی را تقلید کرد و با حالات صورت سینک‌شده به هر زبانی فیلم‌ها را دوبله کرد.

ساز و کار

تیم کسپرسکی وقتی داشت روی فناوری‌های دیپ‌فیک تحقیق می‌کرد با خودش پرسید دیپ‌فیک کردن صدای خود فرد چقدر می‌تواند سخت باشد. کاشف بعمل آمد که کلی ابزار رایگان و منبع باز برای کار با مکالمات صوتی وجود دارد اما پیدا کردن نتیجه‌ی باکیفیت و تمیز هنوز هم سخت است. تجربه کار با زبان پیتون می‌خواهد و مهارت‌های خوب در پردازش و حتی کیفیت باز هم از ایده‌آل فاصله دارد. علاوه بر منبع باز، نمونه‌های پولی آن نیز موجود هستند. برای مثال اوایل 2023 مایکروسافت الگوریتمی را معرفی کرد که می‌توانست بر اساس نمونه صوتی که فقط سه ثانیه مدت داشت صدای انسان را بازتولید کند. این مدل با زبان‌های مختلفی کار می‌کد پس می‌توانید حتی خد را در حالیکه زبان دیگری را حرف می‌زنید بشنوید! ایده‌ی جذابی است اما مانده تا اجرایی شود. با این حال پلت‌فرم ElevenLabs به کاربران خود اجازه می‌دهد بدون هیچ زحمتی دیپ‌فیک‌های صوتی درست کنند. فقط کافیست رکوردینگ صوتی صدا و حرف‌هایی که قرار است زده شود آپلود کنید و کار تمام است. البته به محض گفته شدن کلمات، افراد به طرق مختلف این فناوری را به بازی گرفتند.

نبرد هرماینی و بانکی بیش از حد قابل اعتماد

درست بر طبق قانون گادوین[2]، طوری شد که اما واتسون بازیگر نقش هراین در سری مجموعه هریپاتر، کتاب نبرد من[3] را بخواند و کاربر دیگر از فناوری ElevenLabs برای هک کردن حساب بانکی خود استفاده کرد. عجیب نیست؟ این کاری است که دیپ‌فیک‌ها با ما می‌کنند خصوصاً وقتی داستان‌های ترسناک محبوب هم چاشنی اسکم‌ها می‌شوند. برخی از این صداها آنقدر محکم، رعب‌انگیز و جدی هستند که می‌شود آن را جای صدای پلیس گذاشت یا کارمند آژانس دولتی گذاشت و بدین‌ترتیب دست به سرقت پول زد. اما در واقعیت ماجرا انقدرها هم بد نیست. اول اینکه برای ایجاد صدای مصنوعی در ElevenLabs حدود پنج دقیقه ضبط صدا طول می‌کشد، بنابراین یک «بله» ساده کافی نیست. ثانیاً، بانک‌ها نیز در مورد این کلاهبرداری‌ها می‌دانند، بنابراین از صدا فقط می‌توان برای شروع عملیات خاصی استفاده کرد که به انتقال وجه مربوط نمی‌شود (مثلاً برای بررسی موجودی حساب شما). بنابراین پول را نمی توان از این طریق دزدید. به اعتبار خود، ElevenLabs با بازنویسی قوانین سرویس، ممنوع کردن کاربران رایگان (به عنوان مثال، ناشناس) از ایجاد دیپ‌فیک بر اساس صداهای آپلود شده خود و مسدود کردن حساب‌های دارای شکایت درباره «محتوای توهین‌آمیز» به این مشکل واکنش نشان داد. اگرچه این اقدامات ممکن است مفید باشند، اما هنوز مشکل استفاده از دیپ‌فیک‌های صوتی برای اهداف مشکوک را حل نمی‌کنند.

دیپ‌فیک‌ها به چه روش‌های دیگری می‌توانند در اسکم‌ها استفاده شوند؟

فناوری دیپ‌فیک به خودی خود بی ضرر است، اما اگر به دست کلاهبرداران بیافتد به ابزار خطرناکی با فرصت‌های زیادی برای فریب، افترا یا اطلاعات نادرست تبدیل شود. خوشبختانه، هیچ مورد انبوهی از کلاهبرداری شامل تغییر صدا وجود نداشته اما چندین مورد با مشخصات بالا مربوط به دیپ‌فیک صدا وجود مشاهده شده است. در سال 2019، کلاهبرداران از این فناوری برای از بین بردن شرکت انرژی مستقر در بریتانیا استفاده کردند. در یک مکالمه تلفنی، کلاهبردار وانمود کرد که مدیر اجرایی شرکت مادر آلمانی شرکت است و درخواست واریز فوری 220000 یورو (243000 دلار) به حساب یک شرکت تامین کننده خاص کرد. پس از پرداخت، کلاهبردار دو بار دیگر تماس گرفت - بار اول برای اینکه خیال کارکنان دفتر بریتانیا را راحت کند و گزارش دهد که شرکت مادر قبلاً مبلغی را بازپرداخت کرده است و بار دوم برای درخواست انتقال دیگر. هر سه بار، مدیرعامل بریتانیا کاملاً مثبت بود که با رئیس خود صحبت می کرد زیرا هم لهجه آلمانی و هم لحن و نحوه گفتار او را تشخیص می‌داد. انتقال دوم فقط به این دلیل ارسال نشد که کلاهبردار گاف داد و به جای شماره آلمانی از یک شماره اتریشی تماس گرفت و این امر سئوی بریتانیا را مشکوک کرد.

آینده دیپ‌فیک

نظرات در مورد آینده دیپ فیک متفاوت است. در حال حاضر بیشتر این فناوری در دست شرکت‌های بزرگ است و دسترسی به آن برای عموم محدود. اما همانطور که تاریخچه مدل‌های تولیدی بسیار محبوب‌تری مانند DALL-E، Midjourney و Stable Diffusion نشان می‌دهد، و حتی بیشتر از آن در مورد مدل‌های زبان بزرگ (ChatGPT که معرف حضور همه است)، فناوری‌های مشابه ممکن است در آینده قابل پیش‌بینی در حوزه عمومی ظاهر شوند. این موضوع با افشای مکاتبات داخلی گوگل تأیید می‌شود که در آن نمایندگان این غول اینترنتی می‌ترسند رقابت هوش مصنوعی برای راهکارهای باز را از دست بدهند. این بدیهی است که مهاجمین بیشتری از دیپ‌فیک‌های صوتی در حملات خود استفاده کنند. امیدوارکننده ترین مرحله در توسعه دیپ فیک، تولید بلادرنگ یا درلحظه است که رشد انفجاری دیپ فیک‌ها (و تقلب بر اساس آنها) را تضمین می‌کند. آیا می توانید یک تماس تصویری با فردی که صورت و صدایش کاملا جعلی است تصور کنید؟ با این حال، این سطح از پردازش داده‌ها به منابع عظیمی نیاز دارد که فقط در اختیار شرکت‌های بزرگ است، بنابراین بهترین فناوری‌ها خصوصی باقی می‌مانند و کلاهبرداران نمی‌توانند با حرفه‌ای‌ها همگام شوند. با توجه به این قوانین سرسختانه و محدودیت‌ها هنوز کاربران فرصت دارند یاد بگیرند چطور سریع دیپ‌فیک‌ها را تشخیص دهند.

راهکارهای امنیتی

حالا برگردیم به اولین سوال‌مان: آیا می‌شود به صداهای که می‌شنویم (یعنی آن صداهایی که در سرمان نیستند و در دنیای واقعی آن‌ها را می‌شنویم) اعتماد کنیم؟ بسیارخوب شاید اگر خیلی به این ماجرا مشکوک شویم وسواس پیدا خواهیم کرد و این یعنی زیاده‌روی؛ اما شاید در برخی مواقع همین شک کردن‌ها مناسب باشد! اگر هر چیزی بر پایه دید منفی‌گرایانه پیش رود، می‌شود گفت دیپ‌فیک‌ در دستان اسکمرها در آینده به سلاح تبدیل خواهد شد اما می‌شود از الان به فکر یافتن راه‌حل و مبارزه با این اتفاق بود. در مورد دیپ‌فیک تحقیقات زیادی شده و شرکت‌ها بزرگ در حال ساخت راهکارهای امنیتی هستند. اما اجالتاً برای مبارزه با جعل هوش مصنوعی باید با موارد پیشگیرانه ساده شروع کرد. مهم است در نظر داشته باشید دیپ‌فیک‌ها تنها نوعی از مهندسی اجتماعی پیشرفته هستند. ریسک برخورد با چنین اسکمی کم است اما هنوز باید جدی‌اش گرفت: اگر تماس عجیبی دریافت کردید به کیفیت صدا توجه کنید. آیا لحن یکنواختی دارد؟ آیا سخنان، نامفهوم است؟ آیا نویزهای عجیبی در صدا می‌شنوید؟ همیشه از طریق کانال‌های دیگر اطلاعات را بررسی کنید و یادتان باشد اسکمرها همیشه از حس ترس و غافلگیری قربانیان تغذیه می‌شوند.

[1] generative adversarial networks

[2]یا قاعده قیاس‌های نازی گادوین، یک کلام قصار آمیخته به طنز در حوزه اینترنت است که در مورد بحث‌های آنلاین بکار می‌رود. بنا بر این قانون، در هر بحث آنلاین فارغ از موضوع و وسعت آن، هرچه بحث طولانی‌تر شود، احتمال اینکه یکی از طرفین مقایسه‌ای با آدولف هیتلر یا نازیسم انجام دهد، بیشتر می‌شود.

[3]کتابی به نوشته آدولف هیتلر

منبع: کسپرسکی آنلاین (ایدکو)

کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز می‌شناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.