روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ در سپتامبر 2024، تیمی از محققین دو دانشگاه فلوریدا و تگزاس تک مقالهای ارائه دادند که در آن جزئیات متودی نسبتاً پیچیده برای رهگیری متن واردشده توسط کاربران اپل ویژن پرو (هدست واقعیت ترکیبی یا MR[1]) شرح داده شده بود. محققین نام این متود را GAZEploit گذاشتند. در این مقاله ساز و کار این حمله و میزان تهدید این حمله برای صاحبان دستگاههای VR/AR اپل را بررسی نموده و نحوه محافظت از پسوردها و سایر اطلاعات حساس را توضیح دادهایم.
چطور ورودی متن در سیستمعامل Apple visionOS کار میکند؟
ابتدا کمی در مورد ویژن اواس، سیستم عاملی که به اپل ویژن پرو نیرو میدهد بگوییم. یکی از چشمگیرترین نوآوریهای هدست امآر اپل، کارکرد به شدت مؤثر ردیابی چشمش است. مسیر نگاه، متود اصلی تعامل کاربر با رابط ویژن اواس است. این ردیابی آنقدر دقیق است که حتی برای کوچکترین المانهای رابط (شامل کیبورد مجازی) هم کار میکند. گرچه ویژن او اس کنترل صدا را ارائه میدهد اما کیبورد مجازی همچنان متود الی ورودی متن است. برای اطلاعات حساس مانند پسوردها، visionOS محافظت در برابر چشمان شرور را ارائه میدهد: در حالت شیر اسکرین، هم کیبورد و هم پسورد واردشده هر دو خودکار پنهان میشوند.
قابلیت دیگر هدست واقعیت ترکیبی اپل در رویکرد ویدیوکالش است. از آنجایی که این دستگاه مستقیم در صورت کاربر نشسته است، گزینه استاندارد دوربین جلو برای فرستادن تصویر ویدیویی کاربر مناسب نیست. از طرفی دیگر، استفاده از دوربین خارجی جداگانه برای ویدیو کالها میتواند بر خلاف خطمشیهای اپل باشد و علاوه بر این شرکتکنندگان در کنفرانس ویدیویی که هدست دارند شکلی عجیب به خود میگیرند. پس اپل به فناوری به شدت اورجینال که چیزی به نام دوربین مجازی داشت روی آورد. Vision Pro بر اساس اسکن صورت سه بعدی، آواتاری دیجیتالی از کاربر (اپل آن را پرسونا مینامد) درست میکند که در واقع آن است که در ویدیوکال حضور دارد. شما میتوانید از پرسونای خود در فیس تایم و سایر اپهای کنفرانس ویدیویی استفاده کنید. حسگرهای هدست، صورت کاربر را به طور در لحظه ردیابی کرده و به آواتار اجازه میدهند حرکات سر، لب، حالت چهره و غیره را تقلید کند.
GAZEploit: چطور ورودی کاربر در اپل ویژن پرو دید زده میشود؟
برای محققین GAZEploit، ویژگی اصلی آواتار دیجیتالی پرسونا، استفاده از دادههایی است که از حسگرهای بسیار دقیق ویژن پرو برای شبیهسازی حرکات چشم با دقت تمام تغذیه میشود. و اینجا بود که تیم، آسیبپذیریای را کشف کردد که رهگیری متن ورودی را میسر میساخت. مفهوم هستهای حمله ساده است: گرچه سیستم به دقت پسوردهای واردشده در طول ویدیوکالها را پنهان میکند اما مهاجم با ردیابی حرکات چشم کاربر و انعکاسش در آواتار دیجیتالی میتواند کاراکترهای واردشده روی کیبورد مجازی و یا به عبارتی خود کیبوردها را بازسازی کند چون visionOS سه کیبورد دارد: صفحهکلید رمز عبور PIN))، صفحهکلید QWERTY پیشفرض و صفحهکلید شماره و کاراکتر خاص. این فرآیند تشخیص را پیچیده میکند، زیرا ناظر خارجی نمیداند از کدام صفحه کلید استفاده میشود.
با این حال شبکههای عصبی به طور مؤثری حمله GAZEploit را خودکار میکنند. مرحله اول حمله از شبکه عصبی برای شناسایی سشنهای ورودی متن استفاده میکند. الگوهای حرکت چشم به طور قابلملاحظهای با الگوهای نرمال فرق دارد: نرخ پلک کاهش مییابد و مسیر نگاه ساختارمندتر میشود. در مرحله دوم، شبکه عصبی تغییرات در پایداری نگاه را برای شناسایی انتخاب مبتنی بر چشم کاراکترها تحلیل کرده و از الگوهای شخصیتی برای تعیین فشارهای کلید استفاده میکند. سپس بر اساس مسیر نگاه، سیستم محاسبه میکند کاربر داشته کدام کلید را نگاه میکرده.
GAZEploit چقدر دقیق دادههای ورودی را میشناسد؟
در حقیقت، محاسبات مبتنی بر موقعیت چشم آواتار نقشه حرارتی از نقاط احتمالی روی کیبورد مجازی تولید میکند؛ جایی که نگاه کاربر ممکن است در طول ورود متن فرود آمده باشد. سپس، مدل محقق اطلاعات جمعآوریشده را در لیستی از کلیدهای مجازی K که کاربر احتمالاً فشارش داده تبدیل میکند. این مدل همچنین کلی سناریوهای مختلف ورود داده (پسورد، آدرس ایمیل، لینک، پین، پیام دلخواه) را ارائه داده و برا هر یک جزئیاتی میدهد. افزون بر این، شبکه عصبی از تکنیکهای فرهنگ لغت و تکنیکهای دیگر برای ارتقای رهگیری استفاده میکند. به عنوان مثال، به دلیل اندازه آن، نوار فاصله اغلب یکی از پنج کاندید برتر است – که بسیاری از موارد مثبت کاذب را که نیاز به فیلتر دارند تولید میکند. کلید Backspace به توجه ویژه نیاز دارد: اگر حدس زدن کلید درست باشد، به این معنی است که کاراکتر قبلی حذف شده، اما اگر اشتباه باشد، ممکن است دو کاراکتر به اشتباه نادیده گرفته شوند.
تجزیه و تحلیل دقیق خطای محققین نشان میدهد که GAZEploit اغلب کلیدهای مجاور را اشتباه میگیرد. با حداکثر دقت K=1))، تقریباً یک سوم نویسههای وارد شده به درستی شناسایی میشوند. با این حال، برای گروه های پنج کاراکتر محتمل K=5))، بسته به سناریوی خاص، دقت در حال حاضر 73-92٪ است.
حمله GAZEploit در عمل چقدر میتواند خطرناک باشد؟
در عمل، چنین دقتی یعنی مهاجمین بالقوه نمیتوانند براحتی به طور حاضر و آماده به پسورد تارگت برسند اما میتوانند به طور چشمگیری تعداد حملات لازم برای جستجوی فراگیر آن را کاهش دهند. محققین ادعا دارند برای یک پین 6 رقمی تنها 32 تلاش برای پوشش یک چهارم همه ترکیبهای احتمالی لازم است. برای پسورد رندوم هشت کاراکتری متشکل از حرف و عدد، تعداد تلاشها صدها تریلیون به صدها هزار کاهش یافته که این کرک کردن پسورد را حتی با Pentium CPU ماقبل تاریخ هم ممکن میکند. در پرتوی این مطلب، GAZEploit میتواند به اندازه کافی یک تهدید جدی باشد و کاربرد عملی در حملات هدفمند با مشخصات بالا پیدا کند. خوشبختانه، این آسیبپذیری قبلاً اصلاح شده است: در آخرین نسخههای visionOS، Persona هنگامی که از صفحهکلید مجازی استفاده میشود، به حالت تعلیق در میآید. اپل بهطور قابلتوجهی میتواند از کاربران در برابر چنین حملاتی به روشی ظریفتر محافظت کند - با پاشیدن برخی اعوجاجهای تصادفی در دادههای بیومتریک دقیق که حرکات چشم آواتار دیجیتال را هدایت میکند. صرف نظر از این، دارندگان Apple Vision Pro باید دستگاههای خود را به آخرین نسخه visionOS به روز کنند. مورد آخر اینکه ما به آنها - و همه افراد دیگر - توصیه میکنیم هنگام وارد کردن گذرواژهها در طول تماس های ویدیویی احتیاط کنند: در صورت امکان از آن اجتناب کنید، همیشه از قویترین ترکیب نویسهها (طولانی و تصادفی) ممکن و از یک مدیر رمز عبور برای ایجاد و ذخیره آنها استفاده کنید.
[1] Mixed Reality
کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.