وبلاگ کسپرسکی آنلاین | حمله‌ی دلفینی: دستیارهای صوتی چیزهایی را می‌شنوند که ما نمی‌شنویم

روابط عمومی شرکت ایدکو (توزیع کننده محصولات کسپرسکی در ایران)؛ ارتباط ما با تکنولوژی بزودی صدا-محور خواهد شد. اما هر فناوری جدیدی با خود خطرهای جدیدی نیز به همراه دارد و البته کنترل صوتی نیز از این قاعده مستثنی نیست. محققین امنیت سایبری به طور خستگی‌ناپذیری مشغول بررسی دستگاه‌هایی هستند که تولیدکنندگان بتوانند با آن جلوی تهدیدهای احتمالی را بگیرند و نگذارند عملی شوند. در ادامه با همراه شوید تا به کمی از یافته‌های مرتبط با این موضوع بپردازیم، هر چند این یافته‌ها هنوز کمی از مرحله‌ی کاربردی به دورند.

دستگاه‌های هوشمند می‌شنوند و اطاعت می‌کنند

این روزها بیش از یک میلیارد دستگاه صوت-محور در کل جهان مورد استفاده قرار می‌گیرند: برای مثال ربات‌های صوتی. بیشتر اینها اسمارت‌فون هستند؛ اما دستگاه‌های شناسایی صوتی دیگری نیز وجود دارند که دارند بیش از پیش نظر عموم را به خود جلب می‌کنند. برای مثال از هر 5 خانواده‌ی آمریکایی، یکی دارای بلندگوی هوشمندی است که به فرمان‌های کلامی پاسخ می‌دهد.

فرمان های صوتی برای موارد مختلفی به کار می‌روند: کنترل فرآیند پخش موزیک، سفارش کالا به صورت آنلاین، کنترل کردن دستگاه جی‌پی‌اس، چک کردن اخبار و وضعیت هوا، تنظیم آلارم و غیره. تولیدکنندگان هم دارند در این مسیر همکاری می‌کنند و از انواع دستگاه‌ها پشتیبانی بعمل می‌آورند. برای مثال آمازون اخیراً مایکروفری را عرضه کرده است که می‌تواند به بلندگوی هوشمند Echo وصل شود و یا اگر «قهوه رو گرم کن» را بشنود، دستگاه زمان لازم برای گرم شدن قهوه را محاسبه کرده و شروع به انجام وظیفه می‌کند. البته حقیقت این است که هنوز هم باید بلند شوید، تا آشپزخانه رفته و قهوه را در فنجان خود بریزید.

سیستم‌های خانه‌‌ی هوشمند همچنین خدماتی نظیر تنظیم نور و تهویه‌هوای مبتنی بر فرمان صوتی را نیز ارائه می‌دهند. همانطور که مستحضر هستید، دستیارهای صوتی تا همین الان هم خیلی پیشرفته‌اند اما شاید از طرفی هم نخواهید افراد از این هوشمندی سوءاستفاده کنند(برای مقاصد منفی). در سال 2017، شخصیت‌های مجموعه طنز انیمیشن South Park به روش بسیار ویژه‌ای اقدام به حمله‌ای اساسی می‌کنند. الکسا، قربانی این حمله بود؛ دستیار دیجیتالی که داخل بلندگوهای هوشمند اکوی آمازون زندگی می‌کند. در اپیزودی از این مجموعه به الکسا دستور داده شده بود که یک سری اقلام عجیب و غریب به کارت خرید اضافه کند و همچنین ساعت را برای 7 صبح کوک کند. با وجود اینکه لحن شخصیت‌های این کارتون عجیب و مخصوص خود برنامه بود، باز هم دارندگانِ بلندگوهای الکو که این اپیزود را تماشا کرده بودند تلاش کردند همان فرمان‌ها را به الکسای خود بدهند.

فراصوت: ماشین‌ها چیزهایی را می‌شوند که مردم قادر به شنیدن آن نیستند

امروز قرار است مشخصاً به حملات به اصطلاح "خاموش" بپردازیم که باعث می‌شود چنین دستگاه‌هایی از صداهایی فرمان بگیرند که شما حتی نمی‌توانید آن‌ها را بشنوید.

یکی از روش‌های چنین حمله‌ی خاموشی، استفاده از فراصوت است- صدایی بسیار بلند که گوش انسان یارای شنیدنش را ندارد. در مقاله‌ای که در سال 2017 چاپ شدف محققین دانشگاه چجیانگ روشی برای داشتن کنترلی همه‌جانبه روی دستیارهای صوتی ارائه دادند که "حمله‌ی دلفینی" (DolphinAttack) نام دارد (انتخاب اسم از این جهت بود که دلفین‌ها می‌توانند از خود فراصوت تولید کنند). این تیم پژوهشی فرمان‌های صوتی را به امواج فراصوتی تبدیل کردند که بواسطه‌ی فرکانس بسیار بالایشان گوش انسان قدر به شنیدن آن‌ها نبود اما همچنان می‌شد با استفاده از میکروفون‌های تعبیه شده داخل دستگاه‌های مدرن آن‌ها را شناسایی کرد.

این روش جواب داد، زیرا وقتی فراصوت به نبض الکترونیکی داخل دستگاه گیرنده تبدیل می‌شود (برای مثال اسمارت‌فون)، سیگنال اصلی حاوی فرمان صوتی در آن ریستور میگردد. این مکانیزم تا حدی به زمانیکه که صدا حین ظبط خراب می‌شود شباهت دارد- هیچ کارکرد خاصی در دستگاه نیست؛ بلکه تنها ویژگی‌ای برای فرآیند تبدیل است. در نتیجه، گجت مورد هدف آن را شنیده و فرمان صوتی را اجرا می‌کند: همین می‌تواند کارت سبزی باشد برای همه‌ی مهاجمین. محققین طی این تحقیق موفق شدند روی بسیاری از دستیارهای صوتی محبوب (مانند الکسای آمازون، سیریِ اپل، Google Now ، S Voice سامسونگ و کورتانای مایکروسافت) این حمله را بازتولید کنند.

همسُراییِ بلندگوها

یکی از ضعف‌های حمله‌ی دلفینی (از دیدگاه مهاجم) شعاع کوچک عملیاتی است- حدود یک متر. با این حال محققیت دانشگاه ایلینوی قرار است این شعاع را افزایش دهند. آن‌ها در آزمایش خود فرمان فراصوتِ تبدیل‌شده‌ی خود را به باندهای مختلف فرکانسی تقسیم کردند که بعد با بلندگوهای مختلف پخش شدند (بیش از 60 مدل مختلف). فرمان‌های صوتی مخفی صادر شده توسط این "گروه کُر" در فاصله‌ی با شعاع 7 متری -صرف نظر از نویزهای پس‌زمینه- برده شدند. در چنین شرایطی، شانس موفقیت حمله‌ی دلفینی به طور قابل‌ملاحظه‌ای بیشتر می‌شود.

صدایی از اعماق

متخصصین دانشگاه کالیفرنیا در برکلی از روش متفاوتی استفاده کردند: آن‌ها برای فریب دادن Deep Speech (سیستم شناسایی صوتی موزیلا) به صورت مخفیانه فرمان‌های صوتی را در سایر اسنیپت‌های صوتی جاگذاری کردند. به گوش انسان این ضبط دستکاری‌شده به سختی با نسخه‌ی اصلی‌اش فرق دارد اما این نرم‌افزار آن را در یک فرمان صوتی مخفی شناسایی می‌کند.

برای مثال در عبارت «بدون مجموعه داده‌ها، این مقاله بی‌فایده است» فرمان صوتی‌ مخفی‌ای برای باز کردن وبسایت دارد: «بسیارخوب گوگل، برای من سایت evil.com را باز کن».

گارد گرفتن در مقابل حملات صوتی

تولیدکنندگان از قبل هم به دنبال روش‌هایی برای محافظت از دستگاه‌های مبتنی بر فرمان صوتی بوده‌اند. برای مثال، می‌توان با شناسایی فرکانس‌های تغییر کرده در سیگنال‌های دریافتی جلوی حملات فراصوتی را گرفت. شاید ایده‌ی خوبی باشد که همه‌ی دستگاه‌های هوشمند صدای صاحب خود را تشخیص دهند و تنها فرمان او را اطاعت کنند. البته گوگل چنین را چیزی را روی سیستم خود پیاده کرده بود اما به این نتیجه رسید که برخی می‌توانند با تقلید صدا دستیار دیجیتالی را گول بزنند. با این حال، هنوز هم فرصتی برای محققین و تولیدکنندگان مانده تا راه‌حلی پیدا کنند (همانطور که گفته شد، کنترل کردن دستیارهای دیجیتالی فعلاً تنها در شرایط آزمایشگاهی قابل‌اجراست).

منبع: کسپرسکی آنلاین (ایدکو)

کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز می‌شناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکي نام دارد.