امروزه پست الکترونیکی یا ایمیل یکی از سریعترین و اقتصادیترین راهها برای ارتباط میباشد. با اینحال، افزایش کاربران پست الکترونیکی باعث افزایش بیسابقهای در ت
... تعداد هرزنامهها در چندین سال اخیر شده است. در چند سالهی اخیر تلاشهای زیادی برای فیلترکردن هرزنامه صورت گرفته است که اغلب آنهااز روشهای آماری و یادگیری ماشینی استفاده کردهاند که اغلب نیازمند انبوه داده برای عملیات یادگیری میباشند. همچنین در این روشها برای فیلترکردن هرزنامه، از معنای محتوای ایمیل و نیز نحوهی تعاملات بین فرستندگان هرزنامه و فرستندگان معتبر، استفاده نشده است.در این پایاننامه دو روش برای فیلترکردن هرزنامه ارائه شده است. در روش اول یک آنتولوژی از مفاهیم متداول هرزنامه ساخته میشود. مشابهت معنایی گراف موضوعی متن و نیز سرآیند ایمیل با این آنتولوژی به همراه مشابهت معنایی بین سرآیند و بدنهی ایمیل، سه مولفه برای فیلترکردن معنایی ایمیل میباشند. محاسبهی مشابهت معنایی با استفاده از آنتولوژی زمینهی WordNet صورت میگیرد. در روش دوم از گزارشات تراکنش ایمیل بین فرستندگان ایمیل به منظور ساخت یک شبکهی اجتماعی ایمیل استفاده میشود. سپس یکسری از ویژگیهای متمایزکنندهی فرستندگان هرزنامه و فرستندگان معتبر ارائه میشود. سرانجام از این ویژگیها به منظور دستهبندی ایمیلهای هرزنامه و ایمیلهای معتبر استفاده میشود. از آنجائی که هر یک از این دو فیلتر بر روی ویژگیهای متمایزی تمرکز دارند، ترکیب این دو فیلتر بهصورت سری منجر به نتایج کاملتری میشود.فیلتر مبتنی بر شبکهی اجتماعی در فیلترکردن هرزنامه دقت بیش از 93 درصد از خود نشان داده است. این نتیجه قابل مقایسه با فیلترهای مبتنی بر یادگیری میباشد. همین طور فیلتر مبتنی بر مشابهت معنایی به صورت مکملی برای فیلتر مبتنی بر شبکهی اجتماعی میباشد، بهطوریکه دقت بالای 96 درصد نتیجهی ترکیب این دو فیلتراست.
بیشتر