جستجوي پيشرفته | کتابخانه مجازی الفبا

جستجوي پيشرفته | کتابخانه مجازی الفبا

کتابخانه مجازی الفبا،تولید و بازنشر کتب، مقالات، پایان نامه ها و نشریات علمی و تخصصی با موضوع کلام و عقاید اسلامی کتابخانه مجازی الفبا،تولید و بازنشر کتب، مقالات، پایان نامه ها و نشریات علمی و تخصصی با موضوع کلام و عقاید اسلامی

فارسی  |   العربیه  |   English  
telegram

در تلگرام به ما بپیوندید

public

کتابخانه مجازی الفبا
کتابخانه مجازی الفبا
header
headers
پایگاه جامع و تخصصی کلام و عقاید و اندیشه دینی
جستجو بر اساس ... همه موارد عنوان موضوع پدید آور جستجو در متن
: جستجو در الفبا در گوگل
مرتب سازی بر اساس و به صورت وتعداد نمایش فرارداده در صفحه باشد جستجو
  • تعداد رکورد ها : 22
استخراج حقایق از متون فارسی در قالب RDF
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
با توجه به حجم عظیم دانش و اطلاعات بشر و رشد روزافزون مستندات در زمینه‌های مختلف، پردازش زبان‌های طبیعی و تبدیل متون به دانش قابل فهم برای ماشین، مورد توجه قرار گرفته است. با استفاده از سیستم‌های استخراج اطلاعات می‌توان بطور خودکار پایگاه دانشی ساخت‌یافته از متون ایجاد کرد. در واقع هدف یک سیستم استخراج اطلاعات، استخراج حقایق از متون غیرساخت‌یافته و نمایش آن‌ها در قالب‌های ساخت‌یافته مانند سه‌گانه‌های RDF می‌باشد. اگر حقایق در قالب معنایی RDF نگاشت شوند، می‌توان اطلاعات مورد نیاز را با ساخت و ارسال پرس‌وجوهای SPARQL روی پایگاه دانش بدست آورد. در این پایان‌نامه، روشی برای استخراج آزاد حقایق از متون زبان فارسی پیشنهاد شده است که در آن استخراج حقایق در سطح جمله و بر اساس تشخیص افعال و روابط وابستگی‌ بین اجزای جمله انجام می‌شود. راه‌کار پیشنهادی، حقایق اصلی را بر اساس فعل و حقایق فرعی را بر اساس روابط بین گروه‌های اسمی جمله استخراج و برای تبدیل به قالب RDF آماده‌سازی می‌کند. برای نگاشت حقایق در قالب معنایی RDF، URI قسمت‌های نهاد، مسند و گزاره یک حقیقت با استفاده از شبکه واژگان و ویکی‌پدیا شناسایی می‌شود. در نتیجه در راه‌کار پیشنهادی شبکه واژگان فردوس‌نت بصورت خودکار بر اساس شبکه واژگان انگلیسی ایجاد می‌شود. نتایج حاصل از ارزیابی نشان می‌دهد که روش پیشنهادی در استخراج حقایق موفق بوده و باعث بهبود دقت و فراخوانی نسبت به سیستم‌های موجود می‌شود. علاوه بر‌این سیستم پیشنهادی حقایق را در قالب معنایی RDF استخراج می‌کند.
خلاصه‌سازی خودکار متون فارسی مبتنی بر هستی‌شناسی
نویسنده:
مجید رمضانی
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
با توجه به گسترش روزافزون اطلاعات در دسترس از طریق اینترنت، لزوم استفاده از روش های خلاصه سازی خودکار متن، بیش از پیش احساس می شود. روش هایی که با استخراج مهمترین مطالب موجود در اسناد مانع از مطالعه کامل حجم انبوه از آنها شوند. خلاصه سازی عبارت است از فشرده سازی متن (متون) منبع و تولید یک نسخه کوتاه تر از آن به نحوی که محتوای اطلاعاتی آن حفظ شود. اغلب سیستم های خلاصه ساز با استفاده از روش های سطحی و معیارهای آماری به استخراج مهمترین بخش های متن منبع پرداخته و خلاصه نهایی را شکل می دهند. هدف این پژوهش استفاده از یک روش مبتنی بر پایگاه دانش در فرآیند خلاصه سازی است. در این راستا از پایگاه دانش هستی شناسی فارس نت به منظور دستیابی به مفاهیم موجود در متون و تولید خلاصه آنها استفاده خواهد شد. هستی شناسی یکی از مباحث مربوط به علم فلسفه است که یک ساختار سلسله مراتبی از همه موجودیت های عالم هستی به همراه روابط حاکم بر آنها فراهم می کند. در این پژوهش ابتدا با نگاشت متن مورد خلاصه سازی با پایگاه دانش هستی شناسی، گرافی تحت عنوان گراف موضوعی شکل می گیرد که حامل شمای مفهومی متن منبع است. سپس با استفاده از معیارهای مختلف تعیین اهمیت گرافی، اهمیت نسبی هر یک از گره های گراف ارزیابی می شود. سرانجام از این مقادیر به منظور تعیین اهمیت جملات مختلف موجود در متن منبع و ساخت خلاصه نهایی استفاده خواهد شد. نتایج حاصل از ارزیابی خلاصه های تولید شده، حاکی از برتری روش پیشنهاد شده در این پژوهش نسبت به سیستم های خلاصه ساز موجود است.
غنی‌سازی محتوای آموزش الکترونیکی  مبتنی بر وب معنایی
نویسنده:
علی شالفروش
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
در دنیای امروز به منظور کاهش هزینه یادگیری از طرفی و هزینه وقت از طرف دیگر که نمی توان از آن چشم پوشی کرد، بهره گیری از سیستمهای جدید یادگیری همچون یادگیری الکترونیکی جایگاه خود را نمایان ساخته است. محققان تلاش می کنند برای پایین آوردن هزینه آموزش مستقل از زمان با تکیه بر فناوری های جدید بتواند علاوه بر آموزش موثر هزینه تولید را با بهره گیری از دانش اشتراکی در محیط وب کاهش داده و با تنوع بخشی محتوای آموزش الکترونیکی به کمک سیستم های انطباقی مبتنی بر شبکه وب معنایی به اطلاعات و داده های مرتبط برای یادگیرنده دست یابند.در این تحقیق آنچه مورد نظر ماست شامل، بهره گیری از وب معنایی به منظور غنی سازی محتوای آموزش الکترونیکی برای افزایش اثر بخشی و ارتقاء کیفیت آموزش در سیستم های آموزش الکترونیکی و ارائه بهترین شیوه بکارگیری فناوری های وب معنایی در تنوع بخشی و غنی سازی محتوای آموزش الکترونیکی با تکیه بر آمار و کاربردها است. بدین منظور در این تحقیق تلاش شده با ارائه و طراحی یک معماری توزیع شده در حوزه های مختلف وب معنایی مانند مدل سازی محتوایی مبتنی بر کلید واژه با بهره گیری از داده کاوی،تولید محتوابه روش های مشارکتی و اجتماعی، تولید محتوا به روش تفسیر متن بر اساس هستان شناسی و ارائه محتوای آموزش الکترونیکی مبتنی بر هستان شناسی به تقویت و تنوع بخشی محتوای آموزشی اثر بخش دست یافت.ارزیابی عملکرد سیستم آموزش الکترونیکی با محتوای غنی شده مبتنی بر وب معنایی حاکی از افزایش اثر بخشی آموزش بر روی یادگیرندگان داشته است، که این مهم با محتوای معمول در سیستم های مدیریت یادگیری بر روی تعدادی از یادگیرندگان نمونه امتحان، و نتیجه میزان یادگیری بررسی شده است، به طوری که با بهره گیری از این سیستم می توان حداقل به افزایش توانمندی یادگیرندگان به میزان 20% و علاقه مندی استفاده از سیستم به میزان 40% برای آنان دست یافت.
ارائه یک مدل داده‌آمیزی معنایی مبتنی بر JDL
نویسنده:
حوا علیزاده نوقابی
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
به دلیل افزایش جریان‌های داده‏ای و اطلاعاتی، بحث داده‏آمیزی به عنوان یکی از مهم‏ترین زمینه‌های تحقیقاتی و عملیاتی محسوب می‌شود. در حوزه‏هايي که اطلاعات زيادي وجود دارد و تصميم‏گيري‏هاي ضعيف باعث پيامدهاي جدي مي‏شود، مسئله داده‏آميزي بسيار حياتي است. داده‏آميزي اطلاعات چندين منبع را يکپارچه مي‏کند و اين عمل به منظور فراهم آوردن داده‏هاي مشخص و قابل درک درباره موجوديت‏ها و روابط بين آن‏ها صورت مي‏گيرد و نهايتا منجر به استخراج دانش جديد نيز خواهد شد. با ظهور وب معنایی و همه‌گیر شدن آن، ضرورت درک اطلاعات توسط ماشین بر هیچ کس پوشیده نیست، اين تحقيق برآن است تا تکنولوژی‏های وب معنایی را وارد حوزه داده‏آمیزی نماید. با توجه به اینکه یکی از رايج‏ترين مدل‏هاي داده‏آمیزی، مدل چندسطحی JDL می‏باشد، با افزودن معنا و گنجاندن آنتولوژی و سایر تکنولوژي‏هاي وب معنايي به این مدل، يک ساختار داده‏آمیزی معنايي ارائه می‏شود. ساختار ارائه‏شده، گام مهمی در رفع چالش معنایی، که يکي از چالش‏هاي اصلي موجود در سيستم‏هاي داده‏آمیزی است به حساب می‏آید و نیز ناهمگونی‏های نحوی، ساختاری و معنایی را برطرف خواهد نمود.مدل ارائه‌شده با مباحث مختلف از جمله طراحی آنتولوژی‌ها، داده‏های سنسوری، وارد نمودن زمان در سه-تایی‌های RDF، استخراج قوانین و نمایش آن‌ها به صورت معنایی، انجام استنتاج معنایی، بازیابی داده‌های ذخیره شده در RDFStore روبه رو می‌باشد که در پیاده‌سازی در نظر گرفته می‌شوند.ساختار پیشنهادی از نظر کمی و کیفی مورد بررسی قرار گرفته شده است و ویژگی‌های اصلی آن در مقایسه با سایر سیستم‌های داده‏آمیزی برشمرده می‌شود و همچنین با پیاده‌سازی مدل، نشان داده می‏شود که این مدل قابلیت عملیاتی شدن را دارد و کارایی آن توسط فرد خبره موردتأیید قرار می‏گیرد.
طراحی یک سیستم پرسش و پاسخ و خوشه بندی جدید، به کمک الگوریتم فاخته
نویسنده:
جابر علوی رشکلایی
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
امروزه بیش از ?? درصد از دانش ما به صورت متن، مستندات و دیگر صورت‌های رسانه ای نظیر ویدیو و صدا نگهداری می‌شود. اگر از دید علوم کامپیوتری به این مستندات نگـاه کنیم هـمه آن‌ها به طبیعتی غیر ساخت یافته وابسته‌اند. یک فرد برای دریافت دانش از اطلاعات یک متن، باید ابتدا آن‌را درک کند و سپس آن‌را پردازش کند تا بفهمد چه معانی و مفاهیمی در آن موجود است، چه ارتباطی میان مفاهیم وجود دارد و از میان این مفاهیم کدامیک جدید و کدامیک قدیمی است. حال اگر فردی سوالی هرچند ساده داشته باشد بار دیگر باید همان روند طولانی قبلی را طی کند. سیستم‌های پرسش و پاسخ (QAS) به کمک یک مجموعه داده که در اختیار آن است (اینترنت یا داده های متنی و یا هر داده مورد نیاز) پرسش را تحلیل می‌کند و برای آن سوال مناسب‌ترین جواب را پیدا می‌کند. از اولیه‌ترین کارها پردازش سوال برای پیدا کردن پاسخ و پیدا کردن بهترین پاسخ در بین مجموعه ای پاسخ‌ها مورد نظر می‌باشد که مقالات بسیاری با الگوریتم‌های اکتشافی متفاوتی ازجمله ژنتیک و ماشین بردار پشتیبان و یا حتی روش آماری (پیشنهاد داده شده است) در این زمینه کار کرده‌اند که همه با درصد های خوبی به نتیجه مطلوب رسیده‌اند. ما سعی بر آن داریم در صورت امکان برای بهبود بیشتر پاسخ درست از الگوریتم فاخته (COA) برای دسته بندی‌های موجود در سیستم پرسش و پاسخ استفاده کنیم. الگوریتم فاخته برای دسته بندی پاسخ ها و برای استخراج بهترین پاسخ و در آنتولوژی یک کلمه که دارای چندین معنای مختلف می‌باشد، معناهای مختلف را از WordNet استخراج و انتخاب معنای درست در حوزه خاص از الگوریتم‌های بهینه سازی فاخته بهره ببریم.
ارائه روش و پیاده‏سازی الگوریتم مناسب برای مسئله پیدا کردن افراد متخصص در شبکه اجتماعی براساس پروفایل کاربران و گراف شبکه اتصالات بین افراد
نویسنده:
شریفه خرم شکوه
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
همراه با پیشرفت تکنولوژی، سرمایه‌گذاری بر روی دانش در دسترس سازمان‌ها اهمیت بیشتری یافته است. سازمان‌ها با استفاده از تکنیک‌های گوناگون حجم انبوه دانش در دسترس خود را مورد پردازش قرار می‌دهند. اگر تکنولوژی می‌خواهد بهره‌گیری موثر از دانش را در سازمان تسریع کند، باید بتواند علاوه بر دسترسی به دانش مستندسازی شده دسترسی به دانش افراد را نیز پشتیبانی کند. مسئله یافتن متخصص با هدف استخراج این دانش و تعیین میزان تخصص افراد بر اساس ویژگی‌های مختلف تعریف شده‌است. تکنیک‌های مختلفی برای استخراج و کاوش اطلاعات افراد وجود دارند. در این پایان‌نامه روشی برای یافتن افراد متخصص در یک شبکه اجتماعی ارائه شده است به‌گونه‌ای که در زمانی کوتاه علاوه بر محتویات متنی اسناد مرتبط با کاربران(پروفایل، مقالات منتشره،صفحات وب) گراف اتصالات بین آنان را نیز مورد استفاده قرار دهد. پیدا کردن افراد متخصص موضوعی است که امروزه توجه بسیاری از صاحبان مشاغل را به خود جلب کرده است چون تعریف معیارهایی برای تعیین یک تخصص خاص و انتخاب افراد متخصص بر اساس آن معیارها کاری دشوار می‌باشد. اغلب پژوهش‌هایی که در این زمینه انجام شده تنها اطلاعات ارائه شده توسط خود افراد را برای ارزیابی تخصص آن ها مورد استفاده قرار می‌دهد، اما در این پایان‌نامه هدف این است که با ارائ? راه حلی برای مسئل?یافتن متخصص علاوه بر اطلاعات ارائه شده توسط خود فرد روابط وی با دیگر افراد متخصص نیز مدنظر قرار داده شود. به علاوه، در این پایان نامه روشی جدید برای محاسبه شباهت معنایی بین کلمات ارائه شده‌ و از این روش برای رتبه‌بندی متخصصان بر اساس میزان تناسب با پرس‌وجوی وارد شده استفاده شده‌است.
طراحی سیستم یادگیری مبتنی بر زمینه به کمک عامل‌ها
نویسنده:
مهکامه یغمایی
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
امروزه یادگیری و آموزش در دنیای مجازی از اهمیت بالایی برخوردار است. بهمین دلیل نیاز به سیستم‌های یادگیری الکترونیک که یادگیری را در هر مکان و زمانی ممکن می‌سازند بیش از پیش احساس می‌شود. از سوی دیگر با توسعه وب، حجم اطلاعات موجود در آن بصورت چشمگیری رو به افزایش است. این امر سبب می‌شود تا سیستم‌های یادگیری الکترونیک با حجم وسیعی از اطلاعات برای آموزش مواجه شوند. اما اصول مشتری مداری این اجازه را به این سیستم‌ها نمی‌دهند تا فراگیران را با حجم زیادی از اطلاعات درگیر کنند. چراکه اولا این امر موجب سردرگمی فراگیران در انتخاب موضوع برای مطالعه می‌شود، ثانیا بسیاری از این اطلاعات با توجه به مواردی نظیر خصوصیات فراگیر، علایق، اهداف و توانمندی‌های وی قابل استفاده توسط او نیستند.در پاسخ به این مسئله سیستم‌های تطبیق پذیر آموزشی ظهور کردند که هدف کلی آنها ایجاد یک تجربه منحصر به فرد آموزشی برای هر فراگیر است. این سیستم‌ها با مدل کردن خصیصه‌های مختلف فراگیر و دراختیار داشتن فرادانشی نسبت به محتوای آموزشی به شخصی سازی مطالب آموزشی برای تک تک فراگیران می‌پردازند. این مطالعه ابتدا به مرور کارهای انجام شده در زمینه سیستم‌های تطبیق پذیر آموزشی می‌پردازد. ماحصل مرور منابع موجود در این حوزه، شکاف‌های تحقیقاتی فعلی است که به تفصیل بررسی می‌شوند. بر این اساس این تحقیق به ارائه مدلی جهت شخصی سازی محتوای آموزشی می‌پردازد. معماری این مدل مبتنی بر ایده سیستم‌های چند عامله است و برای نگهداری محتویات آموزشی از هستی شناسی و استاندارد محتوایی SCORM در سطوح انتزاعی جداگانه بهره می‌گیرد. به منظور اعتبار سنجی این مدل از رویکرد پیاده سازی و شبیه سازی یک سناریوی ساده استفاده شده است. این سیستم بر روی سیستم مدیریت یادگیری Sakai نصب و راه اندازی شده است و به منظور اثبات کارآمدی آن از یک سناریوی ساده برای تطبیق پذیری استفاده شده است. نتایج این شبیه سازی نشان می‌دهند که این مدل بخوبی می‌تواند محتویات آموزشی را به فراگیران مختلف ارائه دهد.
یافتن انطباق‌های پیچیده میان دو انتولوژی با سطوح تجرید متفاوت
نویسنده:
احمد زائری
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
یکی از اهداف وب معنایی آن است که داده و دانش به صورت قابل فهم‌تر در اختیار ماشین قرار بگیرد تا موجب تسهیل در به اشتراک گذاری اطلاعات و مجتمع سازی داده‌هاشود. قدم آغازین در رسیدن به این نگاه، نمایش مفاهیم و اصطلاحات دامنه‌های مختلف در قالب انتولوژی‌ها می‌باشد با این وجود، حتی در یک دامنه وجود انتولوژی‌های متفاوت قابل اجتناب نبوده و در نتیجه هم‌تراز سازی انتولوژی‌ها یعنی یافتن انطباق‌ها میان دو انتولوژی ضروری می‌باشد. در سال‌های اخیر سیستم‌های هم‌تراز سازی زیادی ارائه شده‌اند. اغلب روش‌های هم‌تراز سازی موجود تنها قادر به یافتن انطباق‌های یک به یک می‌باشند. حال اگر برای یک مفهوم در انتولوژی اول نظیر مستقیمی در انتولوژی دوم یافت نشود، این روش‌ها قادر به یافتن انطباق پیچیده نخواهند بود. در حالت خاص این مسئله، اگر برای بیان یک مفهوم در یک طرف از الگوی لغوی-املایی و در انتولوژی دوم برای مدل کردن همان مفهوم از الگوی منطقی استفاده شده باشد، برای هم‌تراز سازی نیاز به یافتن نوع خاصی از انطباق‌های پیچیده می‌باشد.در این پژوهش یک روش برای یافتن انطباق‌های پیچیده ارائه شده است. این انطباق‌هادر یک طرف شامل یک نام به صورت مضاف-مضاف‌الیه بوده و در طرف دیگر شامل توصیفی پیچیده و مرکب برای بیان مفهوم معادل می‌باشد. دلیل توجه به عبارات مضاف-مضاف‌الیه کاربرد بالای آن‌ها در نام‌گذاری مفاهیم انتولوژی می‌باشد. در روش پیشنهادی ، ابتدا رابطه معنایی میان مضاف-مضاف‌الیه استخراج شده و با استفاده از آن یک سری انطباق‌های اولیه به عنوان فرضیه تولید می‌گردد. هسته اساسی در تولید این فرضیه‌ها کتابخانه‌ای از الگوها و یک روش جستجوی لغوی می‌باشد. با اعمال یک روش استدلالی خاص تمامی فرضیه‌های تولیدی برای افزایش کیفیت پالایش می‌شوند. از یک هیورستیک و نتایج به دست آمده از استدلال، برای تصحیح الگوریتم جستجوی لغوی و کلاسه‌بندی روابط معنایی استفاده شده است. در پایان، روش پیشنهادی در قالب نرم افزار هم‌تراز سازی OCEANING پیاده سازی شده و کارایی روش پیشنهادی در هم‌تراز سازی دو انتولوژی مطرح، بزرگ و سطح بالای سومو و اومبلنشان داده شده است.
بهره‌گیری از معیارهای شباهت چندگانه در کشف سرویس‌های وب
نویسنده:
الیاد علائی
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
با افزایش استفاده از سرویس‌های وب در بسترهای توزیع شده نظیر اینترنت، بر اهمیت بهبود فرآیند کشف آن‌ها افزوده شده است و سرویس‌های وب معنایی و روش‌های همتایابی هیبریدی، سعی در بهبود هرچه بیشتر آن دارند. استفاده از تکنیک‌های حوزه‌هایی نظیر بازیابی اطلاعات، جزو روش‌های معمول مورد استفاده در همتایاب‌های هیبریدی محسوب می‌گردد که محاسبه شباهت میان توصیف سرویس‌های وب، مهم‌ترین بخش این روش‌ها است. کارایی همتایاب‌هایی که از معیارهای شباهت متنی برای این منظوراستفاده کرده‌اند، تا حدود زیادی بر انتخاب این معیارها بستگی دارد زیرا که هر معیار شباهت، در دسته‌ای از پرس‌وجوها، عملکرد بهتری از خود نشان می‌دهد. با توجه به اهمیت این موضوع، ایده اصلی ما، استفاده همزمان از چندین معیار شباهت در فرآیند کشف سرویس‌های وب می‌باشد که برای این منظور به ارائه روشی برای استفاده از معیارهای شباهت چندگانه جهت محاسبه میزان شباهت بین پارامترهای ورودی/خروجی سرویس‌های وب، پرداختیم. بدین ترتیب می‌توان بهبودهای حاصل از عملکرد هر یک از معیارهای شباهت مختلف را تجمیع نمود و به نتایج کلی بهتری به ازای تمام مجموعه پرس‌وجوها رسید. در این روش از میانگین‌گیری مرتب شده وزن‌دار یاگر برای تجمیع مقادیر شباهت حاصل از به‌کارگیری معیارهای شباهت مختلف، استفاده کرده‌ایم. همچنین با توجه به برخی از ویژگی-های سرویس‌های وب، به معرفی دو معیار شباهت نامتقارن پرداخته‌ایم که موجب حصول نتایج متفاوتی نسبت به معیارهای متقارن مشابه خود شده‌اند. همچنین روشی جدید برای تجمیع نهایی شباهت حاصل از پارامترهای ورودی و خروجی سرویس‌های وب ارائه نموده‌ایم. نتایج حاصل ازبه‌کارگیری روش پیشنهادی نشان دهنده عملکرد مطلوب آن در حالت کلی، در مقایسه با نتایج حاصل از به‌کارگیری مجزای معیارهای شباهت می‌باشد. همچنین این روش در مقایسه با دو همتایاب مطرح در این زمینه، عملکرد بهتری از خود نشان داده است.
خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی
نویسنده:
مریم امیری
نوع منبع :
رساله تحصیلی , کتابخانه عمومی
وضعیت نشر :
ایرانداک,
چکیده :
داده‌کاوی که به عنوان استخراج دانش از پایگاه داده‌ها نیز شناخته می‌شود، روالی برای استخراج دانش ناشناخته از مقدار زیادی داده است. کاوش اسناد بر اساس روش‌های داده کاوی به استخراج اطلاعات و دانش از اسناد می‌پردازد. خوشه‌بندی اسناد یکی از مهمترین روش‌های کاوش اسناد است که دسته‌بندی بدون سرپرست اسناد به گروه‌های مختلف می‌باشد.سیستم‌های رایج بازیابی اطلاعات و خوشه‌بندی اسناد بر کلمات کلیدی استوار می‌باشند. با توجه به اینکه کلمات کلیدی مختلف می‌توانند برای توصیف یک مفهوم استفاده شوند، این سیستم‌ها می‌توانند نتایج نادرست و ناقصی راایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام‌ها در خوشه‌بندی اسناد نحوه‌ی نمایش اسناد و معیار اندازه‌گیری شباهت بین آنها است.این تحقیق بر بهبود کارایی خوشه‌بندی اسناد تمرکز دارد. الگوریتم خوشه‌بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه‌گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه‌گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه‌بندی پایین به بالا خوشه‌بندی اسناد صورت می‌پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می‌شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می‌باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می‌دهد. مفاهیم استخراج شده گره‌های گراف را تشکیل می‌دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می‌گردد. روابط موجودبین مفاهیم سند، یال‌های گراف و میزان این ارتباط اوزان یال‌ها را مشخص می‌نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله‌ی اول، مفاهیم کلی و جزئی و یال‌های اصلی مشخص می‌گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می‌شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی‌ها مفاهیم کلی، مفاهیم جزئی و یال‌های اصلی می‌باشند و خروجی میزان شباهت بین دو سند است. مجموعه‌ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می‌زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه‌بندی سلسله مراتبی پایین به بالا به منظور خوشه‌بندی اسناد اعمال می‌گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش‌های naïve Bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می‌دهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود می‌دهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش می‌یابد.
  • تعداد رکورد ها : 22