روابط عمومی شرکت ایدکو (توزیعکنندهی محصولات کسپرسکی در ایران)؛ سادهترین روش برای پیدا کردن تهدید (یا فیشینگ یا اسپم) در ایمیل چیست؟ شاید خیلیها فکر کنند ایراد کار از هِدِر یا چیزهایی شبیه به این معلوم میشود؛ اما نباید واضحترین نکته را فراموش کنیم: متن پیام. متن در حقیقت آن چیزی است که مجرمان سایبری یا تبلیغکنندگان بیوجدان از آن برای فریب دریافتکنندگان ایمیل استفاده میکنند. البته نقشه آنقدرها هم ساده پیش نمیرود. شاید در گذشته تحلیل امضا میتوانست این شرایط را مدیریت کند اما اکنون باید با استفاده از الگوریتمهای فناوری یادگیری ماشین[1] این تحلیل صورت گیرد. و اگر مدل یادگیری ماشین طوری آموزش داده شود که به طور صحیحی پیامها را دستهبندی کند پس باید پیامهایی با مقادیر قابلملاحظه بدان داده شود (چنین کاری شاید به دلایل حریم خصوصی همیشه هم اجرایی نباشد). در ادامه با ما همراه شوید تا ضمن معرفی یکی از روشهای یادگیری ماشین به نام یادگیری فدرال[2] توضیح دهیم چطور این تکنیک با تهدیدهای ایمیل مبارزه میکند.
چرا تحلیل امضا دیگر کارامد نیست؟
ده سال پیش، دریافت حجم بالایی از ایمیلهای ناخواسته تماماً بر اساس متن پیام کار نسبتاً آسانی بود زیرا مجرمان سایبری از همان قالبهای سابق استفاده میکردند (متن پیامهای اسپم و فیشینگ به ندرت تغییر میکرد). امروز، مجرمان سایبری همواره در حال بالا بردن سطح کارایی میلینگهای خود هستند و از میلیونها روش فریب استفاده میکنند: گیمهای جدید ویدیویی، سریهای تلویزیون یا مدلها اسمارتفون، اخبارهای سیاسی، حتی موارد اضطراری (برای مثال حجم فیشینگ و اسپم مربوط به کووید 19 را در نظر بگیرید). تنوع گسترده موضوعات، پروسه شناسایی را پیچیده میکند. افزون بر این، مهاجمین حتی میتوانند متن داخل یک موج میلینگ را برای جلوگیری از فیلترهای ایمیل تغییر دهند. البته، رویکردهای مبتنی بر امضا هنوز هم کاربرد دارند؛ هرچند موفقیتشان اساساً متکی است به مواجهه با متنی که فردی از پیش آن را «ناخواسته» یا «آسیبرسان» طبقهبندی کرده است. آنها در واقع نمیتوانند پیشگیرانه عمل کنند زیرا اسپمرها قادرند با ایجاد تغییراتی در متن میلینگ از آنها عبور کنند.
مشکل این یادگیری در کجاست؟
در سالهای اخیر، متودهای یادگیری ماشین ثابت کردند میتوانند بسیاری از مشکلات را حل کنند. مدلها با آنالیز حجم وسیعی از دادهها نحوه تصمیمگیری را یاد گرفته و ویژگیهای مشترک غیرمعمول را در یک جریان اطلاعاتی پیدا میکنند. ما برای شناسایی تهدیدهای میل از شبکههای خنثیای استفاده میکنیم که روی هدرهای فنیِ میل و DMARC آموزش دیدهاند. پس چرا همین کار را روی متن پیام پیاده نکنیم؟ همانطور در فوق اشاره کردیم، مدلها به حجم وسیعی از داده نیاز دارند. در چنین پروندهای، دادهها شامل ایمیلها میشوند؛ نه فقط ایمیلهای مخرب (به پیامهای قانونی هم نیاز است)؛ بدون آنها آموزش تشخیص حمله از ایمیلی قانونی محال خواهد بود. تلههای ایمیلی بیشماری داریم که هر نوع ایمیل ناخواسته را میگیرند (ما از آنها برای درست کردن امضاها استفاده میکنیم) اما بدست آوردن نامههای قانونی برای یادگیری کاری بس پیچیدهتر است. به طور معمول، داده برای یادگیری متمرکز روی سرورها جمعآوری می شود. اما وقتی از متن حرف میزنیم، سختیهای بیشتری جلوی راه قرار میگیرد: ایمیلها میتوانند حاوی دادههای خصوصی باشند بنابراین ذخیره و پردازش آنها در قالب اولیهشان پذیرفتنی نخواهد بود. پس چطور میشود حجم بالایی از مجموعه ایمیلهای قانونی را بدست آورد؟
یادگیری فدرال
ما این کار مشکل را با استفاده از متود یادگیری فدرال حل کردیم. با این متود دیگر نیاز نیست ایمیلهای قانونی جمعآوری شوند؛ در عوض مدلها به طور غیرمتمرکز آموزش میبینند. آموزش مدل مستقیماً روی میل سرورهای کلاینت رخ میدهد و سرور مرکزی تنها مدلهای آموزشدیده از طریق یادگیری ماشین را دریافت میکنند نه پیام متنی. الگوریتمها در سرور مرکزی داده را با نسخهی حاصل از مدل ترکیب میکنند و بعد ما آن را به راهحلهای کلاینت بازمیگردانیم، جایی که مدل باری دیگر میرود که جریان ایمیلها را تحلیل کند. یکی این تصویر ساده است: پیش از آنکه مدل تازه آموزشدیده روی نامههای واقعی تنظیم شود تحت چندین تکرارِ آموزشی قرار میگیرد. به بیانی دیگر، دو مدل به طور همزمان روی سرور ایمیل کار میکنند: یکی در حالت آموزش و دیگری در حالت اجرا. بعد از چندین بازدید از سرور مرکزی، مدل از نو آموزش دادهشده جایگزین مدل فعال میشود. محال است بتوان متن ایمیل خاصی را از وزنهای مدل بازیابی کرد؛ بنابراین حریم خصوصیاش در طول فرآیند پردازش تضمین میشود. با این وجود، آموزش روی ایمیلهای واقعی به طور قابلملاحظهای کیفیت شناسایی مدل را ارتقا میبخشد. در حال حاضر، ما از این رویکرد برای دستهبندی اسپم استفاده میکنیم (در حالت تست). این رویکرد در Kaspersky Security for Microsoft Office 365 اتخاذ شده و نتایج خوبی هم تا به حال از خود نشان داده است. بزودی به طور گستردهتری به کار رفته و از آن برای شناسایی سایر تهدیدها چون فیشینگ، دستکاری ایمیل سازمانی[3] و غیره استفاده خواهد شد.
[1]یادگیری ماشین، مطالعهی علمی الگوریتمها و مدلهای آماری مورد استفادهی سیستمهای کامپیوتری است که بهجای استفاده از دستورالعملهای واضح از الگوها و استنباط برای انجام وظایف سود میبرند.
[2] Federated learning، (همچنین به عنوان یادگیری مشارکتی نیز شناخته میشود) یک روش یادگیری ماشین است که یک الگوریتم را در چندین دستگاه لبه غیرمتمرکز یا سرورهای نگهدارنده نمونه دادههای محلی، بدون مبادله آنها آموزش میدهد. این روش برخلاف تکنیکهای سنتی یادگیری ماشین، متمرکز است که همه مجموعه دادههای محلی در یک سرور بارگذاری میشوند، و همچنین رویکردهای غیرمتمرکز کلاسیک تر که اغلب فرض میکنند نمونههای داده محلی بهطور یکسان توزیع میشوند.
[3] BEC
منبع: کسپرسکی آنلاین (ایدکو)
کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.