گروه انفورماتیک پزشکی

لوگو گروه

چکیده پایان نامه - دکتر گلاب پور

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 
 

عنوان:

طراحی و ارزیابی یک مدل دسته ­بندی با مدیریت داده­ های گم‏شده پزشکی


             

چكيده 

مقدمه: گم‏شدگی ‌داده ‌در اکثر ‌پژوهش‌ها، بخصوص در ‌پزشـکی ‌وجود ‌دارد. ‌در ‌آمار، گم‌شدن ‌داده ‌به ‌وضعیتی ‌گفته ‌می‌شود ‌که ‌بخشی ‌از ‌مجموعه ‌داده‌ها ‌گزارش ‌نشده ‌باشد. ‌گم‏شدگی ‌داده ‌باعث ‌کاهش ‌تطـابق ‌جامعه ‌نمونه ‌با ‌جامعه ‌کل ‌شده ‌و ‌می‌تواند ‌منجر ‌به ‌نتیجه گیری ‌اشـتباه ‌در ‌مورد ‌جمعیت ‌اصلی ‌شود. ‌گم‏شدگی ‌داده ‌یک ‌اتفاق ‌معمول ‌بوده ‌و ‌بسته ‌به ‌میزان ‌آن، ‌می­تواند ‌اثر ‌قابل‌ توجهی ‌در ‌نتیجه­ گیری ‌به ‌دست ‌آمده ‌از ‌داده­ ها ‌داشـته ‌باشد. ‌تمامی ‌روش‌های ‌برآورد ‌پارامترها ‌بر ‌پایه ‌فرض ‌کامل ‌بودن ‌مجموعـه ‌داده ها ‌استوار ‌است ‌و ‌تحت ‌برقراری ‌ایـن ‌شرایط ‌منجر ‌به ‌برآوردهایی اشتباه ‌می­ شوند؛ ‌و ‌البته ‌با ‌افزایش ‌نسـبت ‌گم‏شدگی، ‌مقدار ‌اریبی ‌نیـز ‌افزایش ‌خواهد ‌یافت.

روش كار: در این پژوهش ابتدا در یک مطالعه مروری روش­های برخورد با داده­ های گم‏شده در علوم پزشکی استخراج گردید. سپس این روش­ ها از نظر معیارهایی نظیر نوع گم‏شدگی، درصد گم‏شدگی، ضریب همبستگی و غیره مورد بررسی قرار گرفتند و روش MICE به عنوان بهترین روش انتخاب گردید. در مرحله بعد، یک مدل برای بهینه­ سازی الگوریتم MICE ارائه گردید که این مدل از ترکیب الگوریتم ژنتیک و روش­های داده ­کاوی تشکیل شده است. سپس این مدل توسط داده ­های واقعی مورد بررسی و ارزیابی قرار گرفت.

نتايج: در اين پژوهش مدل پیشنهادی با داده ­های واقعی چهار بیماری سرطان معده، کبد چرب، بیماری ATLL و تالاسمی مورد ارزيابي قرار گرفت. برای داده واقعی، دقت مدل پیشگویی با جانهی مدل پیشنهادی نسبت به دقت مدل پیشگویی با روش­های دیگر جانهی مقادیر گم‏شده ببین 0.5 تا 16.5 درصد بهبود داده است.

نتيجه‌گيري: مشخص شد استفاده از مدل گم‏شدگی پیشنهادی دقت بالاتری نسبت به الگوریتم­های مشابه EM و MICE دارد بنابراین این مدل برای جانهی داده­های گم‏شده که قرار است بر روی آن­ها دسته­ بندی اعمال گردد، پیشنهادی می شود.

كلمات كليدي: گم‏شدگی – داده‌کاوی – الگوریتم ژنتیک – جانهی داده­ های گم‏شده – مطالعات پزشکی