روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ محققین دو دانشگاه در آمریکا اخیراً مقالهای را منتشر کردند که در آن حملهای به نام «ساید آی[1]» -روشی برای استخراج دادههای صوتی از ویدیویی که با گوشی گرفته شده- بررسی میشود. ما در این مطلب ساز و کار این حمله و نتایج و ارزش مقالهی انجامشده را مورد بررسی قرار دادهایم. با ما همراه باشید.
اما ابتدا بگذارید یک شفافسازی انجام دهیم: وقتی روی گوشی خود ویدیو میگیرید -طبیعتاً- هم تصویر و هم صدای همراه آن گرفته میشوند. نویسندگاه این مقاله سعی داشتند پی ببرند آیا صدا حتی اگر به دلیلی ترک صوتی واقعی را هم نداشت میتواند از تصویر استخراج شود یا نه. تصویر کنید رکوردینگ ویدیویی یک مکالمه بین دو تاجر در فضای آنلاین پست شده و صدا هم از قبل برای حفظ حریم خصوصی مکالمه این دو قطع شده. به نظر میرسد که میشود با کمی دستکاری گپ و گفتهای این دو را از چنین رکوردی بازسازی کرد. دلیل هم قابلیتی است به نام «سیستم تثبیتکننده اپتیکال تصویر» که در جدیدترین نسل اسمارتفونها ادغام شده.
تثبیتسازی اپتیکال و حمله کانال جانبی
تثبیتکنندههای نوری یا اپتیکال تصاویر با کیفیت بالاتری را هنگام فیلمبرداری و عکسبرداری ارائه میدهند. آنها لرزش دست، لرزش دوربین در حین حرکت و ارتعاشات نامطلوب مشابه را صاف و روان میکنند. برای اینکه این تثبیت کننده کار کند، سازندگان اطمینان حاصل میکنند که حسگر دوربین نسبت به لنز متحرک است. گاهی اوقات لنزهای درون خود دوربین نیز متحرک هستند. ایده کلی تثبیت کننده نوری در تصویر زیر نشان داده شده است: زمانی که حسگرهای حرکتی در گوشی هوشمند یا دوربین حرکت را تشخیص میدهند، ماتریس یا لنز دوربین به گونهای حرکت میکند که تصویر حاصل ثابت بماند. به این ترتیب، بیشتر ارتعاشات کوچک بر ضبط ویدیوی نهایی تأثیر نمیگذارد.
درک دقیق نحوه عملکرد چنین تثبیتسازی ضروری نیست. نکته مهم این است که عناصر دوربین نسبت به یکدیگر متحرک باشند. آنها میتوانند به کمک اجزای مینیاتوری معروف به محرکدر صورت لزوم جابجا شوند . با این حال، آنها همچنین می توانند توسط ارتعاشات خارجی - مانند ارتعاشات ناشی از صداهای بلند - حرکت کنند.تصور کنید تلفن هوشمندتان روی یک میز نزدیک بلندگو به صورت خوابیده گذاشته شده و فیلمی را ضبط میکند (بدون صدا!). اگر بلندگو به اندازه کافی بلند باشد، میز می لرزد و همراه با آن، تلفن و همین اجزای تثبیت کننده نوری میلرزد. در ویدئوی ضبط شده، چنین ارتعاشاتی به لرزش میکروسکوپی اجسام گرفته شده تبدیل میشود. اگر سرسری به آن نگاه کنیم این لرزش کاملاً جزئی، اما با تجزیه و تحلیل دقیق دادههای ویدیویی قابل تشخیص است. مشکل دیگری در اینجا پیش میآید: تلفن هوشمند معمولی ویدیو را با نرخ 30، 60 یا در بهترین حالت 120 فریم در ثانیه ضبط میکند. ما فقط آنقدر فرصت داریم که جابهجاییهای جزئی اشیاء را در ویدیو ثبت کنیم - و این بسیار کم است. با توجه به قضیه نمونهبرداری نایکویست-شانون، یک سیگنال آنالوگ (مانند صدا) فرکانس معین را میتوان از اندازهگیریهایی که در دو برابر آن فرکانس انجام میشود، بازسازی کرد. با اندازهگیری لرزش یک تصویر در فرکانس 60 هرتز، میتوانیم در بهترین حالت ارتعاشات صوتی را با فرکانس 30 هرتز بازسازی کنیم. با این حال، گفتار انسان در محدوده صوتی 300 تا 3400 هرتز قرار دارد. این ماموریتی است غیر ممکن!
اما ویژگی دیگری از دوربین دیجیتال (از هر نوعی که باشد) به کمک میآید: به اصطلاح رولینگ شاتر یا شاتر چرخشی. هر فریم از ویدئو نه به یکباره، بلکه خط به خط - از بالا به پایین گرفته می شود. در نتیجه، هنگامی که آخرین خط تصویر "دیجیتالیزه" میشود، ممکن است اشیاء سریع در کادر از قبل جابجا شده باشند. این ویژگی هنگام فیلمبرداری از پنجره قطار یا ماشینی که به سرعت حرکت میکند بیشتر به چشم می خورد. ستونها و تیرهای کنار جاده در چنین ویدیویی کج به نظر می رسند، در حالیکه در واقعیت عمود بر زمین هستند. نمونه کلاسیک دیگر، گرفتن عکس یا فیلم از پروانه هواپیما یا هلیکوپتر است که به سرعت در حال چرخش است.
اما چگونه این شاتر میتواند به ما در تجزیه و تحلیل ارتعاشات میکرو در یک ویدیو کمک کند؟ تعداد «نمونهها» یعنی فرکانسهایی که میتوانیم تصویر را تجزیه و تحلیل کنیم، به طور قابل توجهی افزایش مییابد. اگر ویدیو با وضوح عمودی 1080 پیکسل ضبط شود، این عدد باید در تعداد فریم در ثانیه (30، 60 یا 120) ضرب گردد. بنابراین در نهایت میتوانیم لرزشهای دوربین گوشیهای هوشمند را با دقت بسیار بیشتری اندازهگیری کنیم - دهها هزار بار در ثانیه، که به طور کلی برای بازسازی صدا از ویدیو کافی است. این مثال دیگری از حمله کانال جانبی است: زمانی که اکسپلویت ویژگیهای فیزیکی غیر آشکار یک شی منجر به نشت دادههای محرمانه میشود. در این مورد، نشت صدایی است که سازندگان ویدیو سعی در پنهان کردن آن داشتند.
سختیهای اجرایی کردن
پیادهسازی اجرایی انقدرها هم نمیتواند سریع رخ دهد. بیایید اینطور فرض نگیریم که با این پردازش سیگنال ویدیویی پیچیده، نویسندگان این مطالعه توانستند گفتار واضح و قابل فهم انسان را بازیابی کنند. نمودار سمت چپ طیفنگار اصلی ضبط صدا را نشان میدهد که در آن شخص بهطور متوالی «صفر»، «هفت» و «نه» میگوید. در سمت راست طیفنگاری صدای بازیابی شده از ضبط ویدیو است. حتی در اینجا، واضح است که ضرر قابل توجهی در بازیابی دادهها وجود داشته است. در وبسایت پروژه، نویسندگان ضبطهای واقعی از سخنرانی اصلی و بازسازیشده ارائه کردهاند. نتایج را بررسی کنید تا ایده روشنی از کاستی های این روش پیچیده شنود به دست آورید. بله، برخی از صداها را میتوان از ویدیو بازسازی کرد - اما بیشتر یک نوع تلق عجیب و غریب است تا گفتار انسان. حدس زدن اینکه شخص کدام عدد را بیان میکند بسیار دشوار است. اما حتی چنین دادههایی که به شدت آسیب دیدهاند را میتوان با موفقیت با استفاده از سیستمهای یادگیری ماشین پردازش کرد: اگر جفتهای شناختهشده صداهای ضبطشده اصلی و بازیابی شده را برای تجزیه و تحلیل به الگوریتم بدهید، سپس میتواند دادههای ناشناخته را استنتاج و بازسازی کند.
موفقیت الگوریتم بر روی کارهای نسبتاً ساده آزمایش میشود - نه در گفتار واقعی انسان. نتایج به شرح زیر است: تقریباً در 100٪ موارد، تعیین جنسیت یک فرد به درستی امکانپذیر بود. در 86 درصد موارد، تشخیص یک گوینده از دیگری امکانپذیر بود. در 67٪ موارد، تشخیص صحیح رقمی که شخص نام میبرد، ممکن بود. و این در ایده آلترین شرایط زمانی است که تلفن ضبطکننده فیلم در فاصله 10 سانتی متری از بلندگو روی میز شیشهای قرار گرفته باشد. میز به جنس چوبی تغییر کند میزان دقت پایین میاید. تلفن دورتر برده شود - حتی بدتر میشود. صدا را به سطح عادی یک مکالمه معمولی کاهش دهید و ببینید چطور دقت به شدت کاهش مییابد.
حال، بیایید از ملاحظات نظری عبور کرده و سعی کنیم کاربردهای واقعی و اجراییِ سناریوی پیشنهادی را تصور کنیم. ما باید فوراً تمام سناریوهای "شنود" را کنار بگذاریم. اگر یک جاسوس فرضی با تلفن بتواند به اندازه کافی به افرادی که مکالمه مخفیانه دارند نزدیک شود، جاسوس میتواند به راحتی صدا را با میکروفون ضبط کند. در مورد سناریویی که در آن صحبت کردن افراد را با دوربین مداربسته از راه دور ضبط میکنیم و میکروفون نمیتواند سخنرانی را ضبط کند، چطور؟ در این مورد، ما نیز نمیتوانیم چیزی را از ویدیو بازسازی کنیم: حتی زمانی که محققین دوربین را سه متر از بلندگو دور کردند، سیستم اساساً کار نمیکرد (اعداد در حدود 30 درصد موارد بدرستی تشخیص داده شدند).
بنابراین، زیبایی این مطالعه صرفاً در یافتن «کانال جانبی» جدید از نشت اطلاعات نهفته است. شاید بتوان در آینده به نحوی طرح پیشنهادی را بهبود بخشید. کشف اصلی نویسندگان این است که سیستم تثبیتکننده تصویر در گوشیهای هوشمند، که قرار است لرزشهای ویدیویی را از بین ببرد، گاهی اوقات آنها را با دقت در ویدیوی نهایی ضبط میکند. علاوه بر این، این ترفند در بسیاری از اسمارتفونهای مدرن کار میکند. کافی است الگوریتم را روی یکی آموزش دهید، و در بیشتر موارد، می تواند گفتار را از ویدیوی ضبط شده در دستگاه دیگری تشخیص دهد. به هر حال، اگر به نحوی این "حمله" به طور چشمگیری بهبود یابد، این واقعیت که فیلم ضبط شده را تجزیه و تحلیل میکند بسیار مهم می شود. ما میتوانیم در مورد موقعیتی در آینده خیال پردازی کنیم که در آن میتوانیم ویدیوهای مختلف را از اینترنت بدون صدا دانلود کنیم و بفهمیم افرادی که نزدیک دوربین هستند در مورد چه چیزی صحبت میکنند. اما در اینجا با دو مشکل دیگر روبرو هستیم. بیهوده نبود که نویسندگان سخنرانی را از بلندگوی قرار داده شده روی همان میز تلفن تهیه کردند. تجزیه و تحلیل گفتار واقعی انسان با استفاده از این روش "شنود ویدئویی" بسیار پیچیده تر از این حرفها است. همچنین، فیلمهای گوشی معمولاً به صورت دستی گرفته میشوند که باعث ایجاد ارتعاشات اضافی میشود. اما گمان میرود همه هم عقیده باشیم که این، یک حمله دقیق و ظریف است. این یک بار دیگر نشان میدهد که دستگاههای مدرن چقدر پیچیده هستند و اینکه در مورد حفظ حریم خصوصی باید از فرضیات خودداری کنیم. اگر از شما به صورت ویدیویی فیلمبرداری میشود، به این اطمینان اعتماد نکنید که «آنها بعداً آهنگ صوتی را تغییر خواهند داد». از این گذشته، علاوه بر الگوریتمهای یادگیری ماشین، هنر باستانی لب خوانی نیز وجود دارد!
[1] Side Eye attack
منبع: کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.