عنوان: ایجاد یک مدل پیش بینی مبتنی بر روش های یادگیری ماشین روی نشانگرهای اختصاصی کروموزوم Y جهت کمک به تشخیص هویت ژنتیکی
|
|
چكيده اهمیت موضوع: نشانگرهای اختصاصی کروموزوم Y، حالت خاصی از توالی های کوتاه تکراری (STRs) هستند که در آزمایش تشخیص هویت ژنتیکی و حل پرونده های جنایی بکار میروند. در حال حاضر Y-STR ها به طور خاص در ژنتیک پزشکی قانونی استفاده میشوند. در دنیا نرم افزارهایی تطبیق داده ها را به صورت مداوم انجام میدهند به طوری که با ورود یک نمونه جدید Y-STR ، این نمونه با همه داده های موجود در پایگاه داده (YHRD) مقایسه میشود و در نهایت کد تطبیقی در صورت وجود جهت تشخیص هویت ژنتیکی گزارش میشود. در حال حاضر در کشور روشی خودکار برای تشخیص هویت ژنتیکی افراد وجود ندارد و روش تشخیصی هویت مردان بر مبنای کروموزوم Y ، به صورت مقایسه هاپلوتایپ فرد با هاپلوتایپ یک نمونه پدری وی توسط یک متخصص در حوزه ژنتیک انجام میشود. به عبارت دیگر، در صورت عدم وجود یا عدم دسترسی به هاپلوتایپ نمونه پدری امکان شناسایی فرد و یا حتی محدوده زندگی وی امکان پذیر نخواهد بود. از طرفی یکی از چالشهای متخصصین ژنتیک در کشور زمان و هزینه بالایی است که برای تطبیق نمونههای Y-STR صرف میشود. بنابراین ایجاد یک مدل پیشبینی مبتنی بر روشهای بانظارت یادگیری ماشین میتواند به عنوان فرآیندی active جهت کمک به تشخیص هویت ژنتیکی افراد بکار گرفته شود و امری ضروری به نظر میرسد. روش پژوهش: برای ایجاد این مدل پیشبینی از مجموعه داده 17-لکوسی Y-STR جمعآوری شده از نواحی مختلف ایران شامل استانهای شمالی، شرقی، غرب و شمال غرب، تهران، اصفهان و فارس استفاده شد. با توجه به ماهیت نمونه دادههای Y-STR و هدف مطالعه، جهت پیادهسازی مدل پیشبینی مورد نظر الگوریتمهای طبقهبندی چند کلاسی بکار گرفته شد. در طراحی این مدل پیشبینی متغیرهای 17 لکوسی Y-STR به عنوان متغیرهای پیشبینی کننده و نزدیکترین استان محل سکونت فرد به عنوان پیامد مورد پیشبینی در نظر گرفته شد. همچنین جهت دستیابی به بهترین وضعیت مطلوب پیادهسازی مدل پیشبینی در چهار رویکرد متفاوت مورد بررسی قرار گرفت. یافتهها: در نهایت با توجه به صحت هر یک از مدلهای به دست آمده (صحت 68 درصد در رویکرد دوم و صحت 58 درصد در رویکرد چهارم) بهترین و مناسبترین مدل پیشبینی با توجه به میزان عملکرد مدل به ازای هر نمونه هاپلوتایپ جدید در شناسایی نزدیکترین استان یا محل جغرافیایی سکونت فرد، جهت کمک به تشخیص هویت ژنتیکی معرفی شد. همچنین تحلیل بر روی مجموعه داده هاپلوتایپ جهت ایجاد مدل پیشبینی در رویکرد های دوم و چهارم منجر به ایجاد یک پروتکل گردید که در صورت دسترسی به نمونههای هاپلوتاپی بیشتر میتوان از آن به صورت کاربردی در فرآیند طراحی و ایجاد مدل پیشبینی مبتنی بر داده های Y-STR استفاده نمود. نتيجهگيري: تا کنون در ایران مدل پیشبینی جهت کمک به تشخیص هویت ژنتیکی افراد طراحی نشده است. لذا با توجه به این که مدل پیشبینی ایجاد شده بر اساس نمونه هاپلوتایپهای جمع آوری شده از نواحی مختلف ایران میباشد در نتیجه این مدل بومی ایران و منحصر بفرد است به طوری که این مدل را میتوان برای شناسایی نزدیکترین محل جغرافیایی سکونت فرد بکار گرفت. مدل پیشبینی ایجاد شده میتواند به صورت یک مولفه اصلی در یک نرم افزار مورد استفاده قرار گیرد یا به طور یک پکیج مستقل در محیط R فراخوانی شود و یا به صورت یک رابط کاربری در آزمایشگاه پزشکی قانونی جهت تسریع شناسایی هویت ژنتیکی افراد بکار گرفته شود. بنابراین پیاده سازی روشهای یادگیری ماشین در طراحی این مدل پیشبینی علاوه بر خودکارسازی فرآیند تشخیص هویت ژنتیکی در کشور، منجر به محدود کردن دایره جستجو شده و شناسایی هویت ژنتیکی افراد در یک بازه زمانی کوتاهتر و با دقت بالاتری انجام میشود. كلمات كليدي: مجموعه داده Y-STR ، هاپلوگروه، تشخیص هویت ژنتیکی، مدل پیشبینی، یادگیری ماشین .
|