عنوان: طراحی و ارزیابی یک مدل دسته بندی با مدیریت داده های گمشده پزشکی |
|
چكيده مقدمه: گمشدگی داده در اکثر پژوهشها، بخصوص در پزشـکی وجود دارد. در آمار، گمشدن داده به وضعیتی گفته میشود که بخشی از مجموعه دادهها گزارش نشده باشد. گمشدگی داده باعث کاهش تطـابق جامعه نمونه با جامعه کل شده و میتواند منجر به نتیجه گیری اشـتباه در مورد جمعیت اصلی شود. گمشدگی داده یک اتفاق معمول بوده و بسته به میزان آن، میتواند اثر قابل توجهی در نتیجه گیری به دست آمده از داده ها داشـته باشد. تمامی روشهای برآورد پارامترها بر پایه فرض کامل بودن مجموعـه داده ها استوار است و تحت برقراری ایـن شرایط منجر به برآوردهایی اشتباه می شوند؛ و البته با افزایش نسـبت گمشدگی، مقدار اریبی نیـز افزایش خواهد یافت. روش كار: در این پژوهش ابتدا در یک مطالعه مروری روشهای برخورد با داده های گمشده در علوم پزشکی استخراج گردید. سپس این روش ها از نظر معیارهایی نظیر نوع گمشدگی، درصد گمشدگی، ضریب همبستگی و غیره مورد بررسی قرار گرفتند و روش MICE به عنوان بهترین روش انتخاب گردید. در مرحله بعد، یک مدل برای بهینه سازی الگوریتم MICE ارائه گردید که این مدل از ترکیب الگوریتم ژنتیک و روشهای داده کاوی تشکیل شده است. سپس این مدل توسط داده های واقعی مورد بررسی و ارزیابی قرار گرفت. نتايج: در اين پژوهش مدل پیشنهادی با داده های واقعی چهار بیماری سرطان معده، کبد چرب، بیماری ATLL و تالاسمی مورد ارزيابي قرار گرفت. برای داده واقعی، دقت مدل پیشگویی با جانهی مدل پیشنهادی نسبت به دقت مدل پیشگویی با روشهای دیگر جانهی مقادیر گمشده ببین 0.5 تا 16.5 درصد بهبود داده است. نتيجهگيري: مشخص شد استفاده از مدل گمشدگی پیشنهادی دقت بالاتری نسبت به الگوریتمهای مشابه EM و MICE دارد بنابراین این مدل برای جانهی دادههای گمشده که قرار است بر روی آنها دسته بندی اعمال گردد، پیشنهادی می شود. كلمات كليدي: گمشدگی – دادهکاوی – الگوریتم ژنتیک – جانهی داده های گمشده – مطالعات پزشکی
|
- بازدید: 323