امروزه استفاده از اطلاعات ژنتیکی افراد در تشخیص و ردهبندی انواع بیماریها از جمله سرطانها، مورد توجه قرار گرفته است. یکی از بهترین و دقیقترین روشها در این
... زمینه، بررسی مقادیر بیان ژنی در افراد مختلف توسط فناوری ریزآرایه میباشد. یکی از مشکلات دادههای ریزآرایه کم بودن تعداد نمونهها در مقایسه با تعداد ژنها است. این مسیله سبب کاهش دقت ردهبندی و افزایش هزینههای محاسباتی و آزمایشگاهی میشود، در عین حال بسیاری از این ژنها در ایجاد بیماری مورد بررسی نقشی ندارند، در نتیجه تشخیص و انتخاب ژنهای موثر در بروز بیماری علاوه بر آنکه سبب افزایش دقت ردهبندی وکاهش هزینهها میشود، از نظر زیستی نیز از اهمیت ویژهای برخوردار است و میتواند اطلاعات مفیدی درباره علل و نحوه درمان بیماریها در اختیار محققین قرار دهد. تشخیص و انتخاب ژنهای موثر در بروز بیماری، از میان هزاران ژن مورد بررسی در آزمایش ریزآرایه، انتخاب ژن نام دارد.در این پایاننامه با بررسی روشهای مختلف انتخاب ژن، تلاش شده است با بهرهگیری از مزایای روشهای موجود، چارچوب جدیدی برای انتخاب ژنهای موثر در بروز بیماری ارایه شود، بهنحوی که نقاط ضعف روشهای متداول پوشش داده شوند. در روش پیشنهادی، علاوه بر دادههای بیان ژنی از یکی دیگر از منابع معتبر موجود درباره ژنها یعنی آنتولوژی ژن نیز کمک گرفته شده است. استفاده از آنتولوژی ژن در کنار مجموعه دادههای بیان ژنی تا حدی میتواند محدودیتهای ریزآرایه یعنی کم بودن تعداد نمونهها و خطای احتمالی در مقادیر اندازهگیری شده را جبران نماید. در چارچوب ارایه شده ابتدا بخش عمدهای از ژنهای غیرمرتبط با کمک روش فیلتری (فیشر) حذف میشوند، اما روشهای فیلتری همبستگی موجود بین ژنها را مدنظر قرار نمیدهند در نتیجه ژنهای باقیمانده دارای حجم بالایی از افزونگی میباشند. بهمنظور کاهش افزونگی در ژنهای باقیمانده، یک رویکرد حریصانه برای حذف ژنهای مشابه پیشنهاد شده است. در این رویکرد میزان مشابهت ژنها با در نظر گرفتن اطلاعات آنتولوژی ژن و دادههای بیان ژنی و بر اساس یک معیار تلفیقی محاسبه میشود و سپس بر اساس این معیار، ژنهای افزونه از مجموعه ژنها حذف میشوند. در نهایت ژنهای باقیمانده از این مرحله، بهعنوان ژنهای کاندید بهطور دقیقتر توسط روش SVMRFE مورد بررسی قرار میگیرند تا مجموعه ژنهای نشانگر بیماری بدست آید. روش پیشنهادی بر روی دو مجموعه داده سرطان DLBCL و سرطان کلون اعمال شده است. نتایج بدست آمده نمایانگر تاثیر مثبت روش پیشنهادی بر کارایی ردهبندی است، بهعلاوه مقایسه این روش با روشهای انتخاب ژن متداول، نشان میدهد که روش ارایه شده به ازای تعداد ژنهای مساوی، از کارایی بهتری برخوردار است.همچنین از آنجایی که بسیاری از مجموعه دادههای ریزآرایه به دلایل مختلف از جمله وجود خراش یا گرد و غبار بر روی اسلاید، بروز خطا در حین آزمایش، اختلال در تصویر ریزآرایه و پایین بودن قدرت تفکیکی تصاویر، شامل مقادیر گمشده میباشند در این پایاننامه با استفاده از تلفیق روش خوشهبندی CST و آنتولوژی ژن روش نوینی برای تخمین مقادیر گمشده در مرحله پیشپردازش ارایه گردیده است. عملکرد روش پیشنهادی بر روی مجموعه داده سرطان DLBCL و به ازای درصدهای مختلفی از مقادیر گمشده مورد بررسی قرار گرفته است. مقایسه نتایج حاصل از روش پیشنهادی با نتایج سایر روشهای تخمین مقادیر گمشده، نشان میدهد که روش پیشنهادی میتواند مقادیر گمشده را با دقت بالاتری تخمین بزند.
بیشتر