گروه انفورماتیک پزشکی

لوگو گروه

چکیده پایان نامه - خانم مرضیه افکن پور

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

 

 

عنوان:

ایجاد یک مدل پیش بینی مبتنی بر روش های یادگیری ماشین  روی نشانگر­های اختصاصی کروموزوم Y جهت کمک به تشخیص هویت ژنتیکی

 

             

چكيده

اهمیت موضوع: نشانگر­­های اختصاصی کروموزوم Y، حالت خاصی از توالی­ های کوتاه تکراری (STRs) هستند که در آزمایش تشخیص هویت ژنتیکی و حل پرونده ­های جنایی بکار می­روند. در حال حاضر Y-STR ها به طور خاص در ژنتیک پزشکی قانونی استفاده می­شوند. در دنیا نرم افزار­هایی تطبیق داده ­ها را به صورت مداوم انجام می­دهند به طوری که با ورود یک نمونه جدید Y-STR ، این نمونه با همه داده ­های موجود در پایگاه داده (YHRD) مقایسه می­شود و در نهایت کد تطبیقی در صورت وجود جهت تشخیص هویت ژنتیکی گزارش می­شود. در حال حاضر در کشور روشی خودکار برای تشخیص هویت ژنتیکی افراد وجود ندارد و روش تشخیصی هویت مردان بر مبنای کروموزوم Y ، به صورت مقایسه هاپلوتایپ فرد با هاپلوتایپ یک نمونه پدری وی توسط یک متخصص در حوزه ژنتیک انجام می­شود. به عبارت دیگر، در صورت عدم وجود یا عدم دسترسی به هاپلوتایپ نمونه پدری امکان شناسایی فرد و یا حتی محدوده زندگی وی امکان پذیر نخواهد بود. از طرفی یکی از چالش­های متخصصین ژنتیک در کشور زمان و هزینه بالایی است که برای تطبیق نمونه­های Y-STR صرف می­شود. بنابراین ایجاد یک مدل پیش­بینی مبتنی بر روش­های بانظارت یادگیری ماشین می­تواند به عنوان فرآیندی active جهت کمک به تشخیص هویت ژنتیکی افراد بکار گرفته شود و امری ضروری به نظر می­رسد.  

روش پژوهش: برای ایجاد این مدل پیش­بینی از مجموعه داده 17-لکوسی Y-STR جمع­آوری شده از نواحی مختلف ایران شامل استان­های شمالی، شرقی، غرب و شمال غرب، تهران، اصفهان و فارس استفاده شد. با توجه به ماهیت نمونه داده­های Y-STR و هدف مطالعه، جهت پیاده­سازی مدل پیش­بینی مورد نظر الگوریتم­های طبقه­بندی چند کلاسی بکار گرفته شد. در طراحی این مدل پیش­بینی متغیر­های 17 لکوسی Y-STR به عنوان متغیر­های پیش­بینی کننده و نزدیک­ترین استان محل سکونت فرد به عنوان پیامد مورد پیش­بینی در نظر گرفته شد. هم­چنین جهت دستیابی به بهترین وضعیت مطلوب پیاده­سازی مدل پیش­بینی در چهار رویکرد متفاوت مورد بررسی قرار گرفت.

یافته­ها: در نهایت با توجه به صحت هر یک از مدل­های به دست آمده (صحت 68 درصد در رویکرد دوم و صحت 58 درصد در رویکرد چهارم) بهترین و مناسب­ترین مدل پیش­بینی با توجه به میزان عملکرد مدل به ازای هر نمونه هاپلوتایپ­ جدید در شناسایی نزدیک­ترین استان یا محل جغرافیایی سکونت فرد، جهت کمک به تشخیص هویت ژنتیکی معرفی شد.  هم­چنین تحلیل بر روی مجموعه داده هاپلوتایپ جهت ایجاد مدل پیش­بینی در رویکرد های دوم و چهارم منجر به ایجاد یک پروتکل گردید که در صورت دسترسی به نمونه­های هاپلوتاپی بیشتر می­توان از آن به صورت کاربردی در فرآیند طراحی و ایجاد مدل پیش­بینی مبتنی بر داده ­های Y-STR  استفاده نمود.

نتيجه‌گيري: تا کنون در ایران مدل پیش­بینی جهت کمک به تشخیص هویت ژنتیکی افراد طراحی نشده است. لذا با توجه به این­ که مدل پیش­بینی ایجاد شده بر اساس نمونه هاپلوتایپ­های جمع­ آوری شده از نواحی مختلف ایران می­باشد در نتیجه این مدل بومی ایران و منحصر بفرد است به طوری که این مدل را می­توان برای شناسایی نزدیک­ترین محل جغرافیایی سکونت فرد بکار گرفت. مدل پیش­بینی ایجاد شده می­تواند به صورت یک مولفه اصلی در یک نرم ­افزار مورد استفاده قرار گیرد یا به طور یک پکیج مستقل در محیط R فراخوانی شود و یا به صورت یک رابط کاربری در آزمایشگاه پزشکی قانونی جهت تسریع شناسایی هویت ژنتیکی افراد بکار گرفته شود. بنابراین پیاده ­سازی روش­های یادگیری ماشین در طراحی این مدل پیش­بینی علاوه بر خودکار­سازی فرآیند تشخیص هویت ژنتیکی در کشور، منجر به محدود کردن دایره جستجو شده و شناسایی هویت ژنتیکی افراد در یک بازه زمانی کوتاه­تر و با دقت بالاتری انجام می­شود.

        كلمات كليدي: مجموعه داده Y-STR ، هاپلوگروه، تشخیص هویت ژنتیکی، مدل پیش­بینی، یادگیری ماشین


.