روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ خبر اخیر که از سوی پژوهشگرانی در دانشگاه کالیفرنیا، ارواین، واقعیت جالب را نشان میدهد: حسگرهای نوری در موسهای کامپیوتر آنقدر حساس شدهاند که علاوه بر دنبالکردن حرکت سطح، میتوانند حتی لرزشهای بسیار جزئی را هم دریافت کنند — برای مثال لرزشهایی که گفتوگوی نزدیک ایجاد میکند. حملهٔ نظریای که «Mic-E-Mouse» نامیده شده، از این قابلیت استفاده میکند و میتواند احتمالاً به مهاجمان اجازه دهد به گفتگوهای درون اتاقهای «امن» گوش دهند، به شرط آنکه مهاجم بتواند به نحوی دادههایی را که موس ارسال میکند، بهدست بیاورد. همانطور که اغلب در مقالات دانشگاهی از این دست دیده میشود، روش پیشنهادی محدودیتهای زیادی هم دارد. بیایید کمی بیشترساز و کار این جمله را بررسی کنیم.
جزئیات حملهی Mic-E-Mouse
بگذارید یک چیز را از همان اول روشن کنیم: هر موسی برای این حمله مناسب نیست. این حمله بهصورت مشخص نیازمند مدلهایی است که دارای حساسترین حسگرهای نوری باشند. چنین حسگری اساساً یک دوربین ویدیویی بسیار سادهشده است که سطح میز را با رزولوشنی مانند 16×16 یا 32×32 پیکسل فیلمبرداری میکند. مدار داخلی موس فریمهای پشتسرهم را مقایسه میکند تا تعیین کند موس چقدر و در چه جهتی حرکت کرده است. اینکه این عکسهای سریع (فریمها) هر چند وقت یکبار گرفته شوند، تعیینکننده «دقت نهایی» موس است که معمولاً با واحد نقاط در اینچ یا DPI بیان میشود. هرچه DPI بالاتر باشد، کاربر برای جابهجایی نشانگر روی صفحه نیاز به حرکت کمتر موس دارد. یک معیار دوم هم هست: نرخ ارسال یا نرخ پاسخدهی[1]که نشان میدهد دادههای موس با چه فرکانسی به کامپیوتر منتقل میشوند. یک حسگر حساس در موسی که دادهها را به ندرت ارسال میکند، بیفایده است. برای آنکه حملهٔ Mic-E-Mouse حتی قابل بررسی باشد، موس باید هم رزولوشن بالایی داشته باشد.
اما چرا این مشخصات خاص اهمیت دارند؟ گفتار انسان که پژوهشگران قصد شنود آن را داشتند، در بازه فرکانسی تقریباً ۱۰۰ تا ۶۰۰۰ هرتز قابل شنیدن است. گفتار موجب ایجاد موجهای صوتی میشود که روی سطوح اطراف لرزش ایجاد میکنند. ثبت این لرزشها نیاز به حسگری بسیار دقیق دارد و دادههای حاصل از آن باید تا جای ممکن باکامل به رایانه منتقل شوند — که مهمترین پارامتر در اینجا فرکانس بهروزرسانی دادههاست. بر اساس قضیه نمونهبرداری نیکوئیست-شنون[2]، یک سیگنال آنالوگ که محدود به یک بازهٔ فرکانسی مشخص است را میتوان دیجیتال کرد اگر نرخ نمونهبرداری حداقل دو برابر بالاترین فرکانس سیگنال باشد. بنابراین، یک موس که دادهها را با نرخ ۴۰۰۰ هرتز ارسال میکند از نظر نظری میتواند بازه فرکانسی صوتی تا ۲۰۰۰ هرتز را ثبت کند. اما بههرحال چه نوع رکوردی را یک موس میتواند ضبط کند؟ بیایید بررسی کنیم.
دو روش فیلترگذاری متفاوت روی این داده بسیار پرنویز اعمال شد. اول، روش شناختهشده فیلتراسیون وینر[3]و دوم، فیلتراسیون با استفاده از یک سامانه یادگیری ماشین که روی دادههای صدای پاک آموزش دیده بود. نتیجه چنین شد: آنالیز طیفی سیگنال صوتی در مراحل مختلف فیلترگذاری.
پس چه نوع حملهای میتوان بر اساس چنین رکوردی ساخت؟ پژوهشگران سناریوی زیر را پیشنهاد میکنند: دو نفر در اتاقی امن در حال گفتگو هستند و در آن اتاق یک رایانه وجود دارد. صدای گفتوگوی آنها موجب ارتعاش هوا میشود که به میز منتقل میشود و از میز به موسی که به رایانه وصل است. بدافزاری که روی رایانه نصب شده، دادههای موس را رهگیری میکند و آنها را به سرور مهاجمان میفرستد. در آنجا سیگنال پردازش و فیلتر میشود تا گفتار بهطور کامل بازسازی شود. ترسناک بهنظر میرسد، مگر نه؟ خوشبختانه، این سناریو مشکلات زیادی دارد.
محدودیتهای شدید
مزیت کلیدی این روش، ناهمانند بودن بردار حمله است. بهدستآوردن دادهها از موس نیاز به امتیازهای خاصی ندارد، یعنی راهحلهای امنیتی ممکن است حتی این شنود را تشخیص ندهند. با این حال، برنامههای چندانی وجود ندارند که از دادههای دقیق موس استفاده کنند، که این یعنی حمله یا نیازمند نوشتن نرمافزار سفارشی است یا خرابکاری/دستکاری در نرمافزارهای ویژهای که توان استفاده از چنین دادههایی را دارند.
علاوه بر این، در حال حاضر تعداد کمی از مدلهای موس مشخصات مورد نیاز (رزولوشن ۱۰٬۰۰۰ DPI یا بالاتر و نرخ ارسال ۴۰۰۰ هرتز یا بیشتر) را دارند. پژوهشگران حدود یک دوجین نامزد بالقوه پیدا کردند و حمله را روی دو مدل آزمایش کردند. اینها گرانترین دستگاهها نبودند — برای مثال Razer Viper 8KHz قیمتی حدود ۵۰ دلار دارد — اما اینها موسهای گیمینگ هستند که بهاحتمال زیاد به یک ایستگاه کاری معمولی وصل نیستند. بنابراین، حمله Mic-E-Mouse بیشتر «برای آینده» هشدار میدهد تا «برای اکنون»: پژوهشگران فرض میکنند که با گذشت زمان، حسگرهای با رزولوشن بالا حتی در مدلهای معمول اداری هم بهصورت استاندارد درخواهند آمد.
دقت روش نیز پایین است. در بهترین حالت، پژوهشگران توانستند تنها بین ۵۰ تا ۶۰ درصد از محتوای منبع را تشخیص دهند. در نهایت باید در نظر گرفت که برای سهولت آزمایش، پژوهشگران سعی کرده بودند کار را تا حد امکان ساده کنند. بهجای ضبط یک مکالمه واقعی، آنها صدای گفتار انسان را از طریق بلندگوهای کامپیوتر پخش میکردند. یک جعبه مقوایی با یک سوراخ روی بلندگو قرار گرفت و روی آن سوراخ غشایی گذاشته شد و موس بالای آن قرار گرفت. این یعنی منبع صدا نه تنها مصنوعی بود، بلکه تنها چند اینچ از حسگر نوری فاصله داشت! نویسندگان مقاله تلاش کردند آن سوراخ را با یک ورقه نازک کاغذ یا مقوا بپوشانند و در آن حالت دقت تشخیص فوراً به سطوح غیرقابل قبول ۱۰–۳۰ درصد افت کرد. انتقال قابلاطمینان ارتعاشات از طریق یک میز ضخیم حتی در حد بررسی هم قرار نداشت.
خوشبینی محتاطانه و مدل امنیتی
باید حق را به آنها داد: پژوهشگران یک بردار حمله جدید پیدا کردهاند که از ویژگیهای غیرمنتظره سختافزار سوءاستفاده میکند؛ چیزی که قبلاً به آن فکر نشده بود. برای یک تلاش نخستین، نتیجه قابلتوجه است و پتانسیل پژوهشهای بیشتر بیتردید وجود دارد. بالاخره پژوهشگران آمریکایی در این کار تنها از یادگیری ماشین برای فیلترگذاری سیگنال استفاده کردند و داده صوتی بازسازیشده سپس توسط شنوندگان انسانی بررسی شد. چه میشود اگر شبکههای عصبی نیز برای تشخیص گفتار بهکار روند؟
البته کاربرد عملی چنین مطالعاتی بسیار محدود است. برای سازمانهایی که مدل امنیتیشان باید حتی چنین سناریوهای پارانوئیدی را هم درنظر بگیرد، نویسندگان مقاله مجموعهای از اقدامات حفاظتی را پیشنهاد میکنند. برای یکی، میتوان اتصال موسهای دارای حسگر با رزولوشن بالا را بهسادگی ممنوع کرد — هم از طریق سیاستهای سازمانی و هم از نظر فنی با قرار دادن فهرست سیاه برای مدلهای مشخص. همچنین میتوان به کارکنان موسپدهایی داد که ارتعاشات را میگیرند و کاهش میدهند. نتیجهگیری مرتبطتر اما مربوط به حفاظت در برابر بدافزار است: مهاجمان گاهی میتوانند از قابلیتهای نرمافزاری کاملاً نامتعارف برای آسیبرساندن استفاده کنند (در این مورد برای جاسوسی). بنابراین شناسایی و تحلیل حتی چنین موارد پیچیدهای ارزش دارد؛ در غیر این صورت ممکن است بعداً حتی نتوان تشخیص داد که چگونه یک نشت داده رخ داده است.
جمعبندی
این پژوهش نشان میدهد حسگرهای نوری موسهای بسیار حساس میتوانند در شرایط خاص ارتعاشات ناشی از صدا را ثبت کنند، اما اجرای عملی چنین حملهای فعلاً ممکن نیست. محدودیتهایی مانند نیاز به موسهای خاص، شرایط آزمایشگاهی دقیق، دقت پایین بازسازی صدا و الزام به دسترسی نرمافزاری، مانع استفاده واقعی از آن میشوند. بااینحال، این تحقیق اهمیت بررسی مسیرهای غیرمنتظره نشت داده از سختافزارهای ساده را یادآور میشود و بر ضرورت تقویت سیاستهای امنیتی و کنترل تجهیزات جانبی تأکید دارد.
[1] Polling rate
[2]یکی از بنیادیترین اصول در پردازش سیگنالها و نظریه اطلاعات است. این قضیه مشخص میکند که چگونه میتوان یک سیگنال پیوسته را بهصورت نمونهبرداریشده (گسسته) نمایش داد بدون اینکه اطلاعات آن از بین برود.
[3]یکی از فیلترهای بسیار مهم در پردازش سیگنال و تصویر است که با هدف کاهش نویز و تخمین بهینهی سیگنال اصلی طراحی شده است.
کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.