پروژه های پژوهشی و تحقیقاتی دانشگاه ها با موضوع مقایسه صحت برخی ...

رگرسیون ریج بیزی: رگرسیون ریج مشابه حداقل مربعات معمولی بوده با این تفاوت، درصورتی‌که تعداد اثرات از تعداد مشاهدات بیشتر باشد محدودیتی نداشته و همچنین زمانی که بین نشانگرها همبستگی باشد نیز دارای پایداری عددی (numerical stability) است. مدل رگرسیون ریج به این صورت است: . برآورد اثرات نشانگرها ( ) را می‌توان با بهره گرفتن از معادله روبه‌رو تخمین زد . که در اینجا یک ناظم برای پارامتر کنترل کننده به‌منظور توازن بین نکویی برازش (اندازه گیری شده به‌وسیله مجموع مربعات خطا) و پیچیدگی مدل (که به‌وسیله مجموع مربعات اثرات نشانگرها ( ) قابل اندازه‌گیری است) میباشد. لامبدا به قطر ماتریس ضرایب اضافه می شود. درصورتی‌که لامبدا به سمت بی‌نهایت میل کند، برابر صفر خواهد شد. از طرف دیگر، اگر لامبدا برابر صفر باشد برآوردهای این روش مشابه OLS خواهد بود. این مدل در فرم ماتریسی: خواهد بود که در اینجا D برابر ماتریس قطری بوده که برای برابر یک و برای بقیه عناصر صفر خواهد بود. وقتی کل عناصر این ماتریس صفر باشد مدل مشابه OLS خواهد بود. اضافه کردن ضرایب به قطر ماتریس، ضرایب برآوردها را به سمت صفر سوق میدهد. این کار هرچند که اریبی را تحریک کرده ولی واریانس برآوردها را کاهش میدهد. برآوردهای بیزی رگرسیون ریج مساوی است با توزیع پسین شرطی ضرایب رگرسیونی مدل بیزی که باشد. و به‌ترتیب واریانس باقیمانده و اثرات نشانگری میباشند. اختصاص دادن پیش فرضها (Prior) به هرکدام از این پارامترهای واریانس، منجر به استنباط و استنتاج پارامترهای نامعلوم از داده های آموزشی می شود که به‌منظور برآورد کردن اثرات نشانگرها مورد استفاده قرار میگیرد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

بیز LASSO: یکی دیگر از توزیعهای آماری برای اثرات SNP ها که به‌عنوان توزیع پیشین روش‌های بیزی به‌کار میرود توزیع دونمایی میباشد. این توزیع مانند توزیع t دارای دم درازی است اما دارای تعداد بیشتری اثرات کوچک غیرصفر است. روش عامل انتخاب و افت حداقل مطلق (LASSO) از توزیع دونمایی برای توزیع اثرات QTL (مشروط به پارامتر تنظیم کننده لامبدا) استفاده می کند. برآوردهای LASSO میتوانند از مدل توزیع پسین بیزی تحت توزیع پیشین دونمایی مستقل برای اثرات QTL ها استنتاج و استنباط شوند. توزیع دونمایی همچنین می تواند به‌عنوان توزیع مختلطی از توزیع نرمال با واریانس نمونه گیری شده از یک توزیع نمایی بیان شود.

بیز لاسو، شکل خاصی از حداقل مربعات جریمه شده است که مجموع مربعات باقیمانده را حداقل می کند. برآورد اثرات SNP در بیز LASSO تراکم پیشین توزیع دونمایی به این صورت بیان می شود.
که بوده و میزان افت را تعیین می‌کند. مقادیر بالای لامبدا تعداد بیشتری از ضرایب را صفر در نظر میگیرد و مقادیر پایینتر لامبدا منجر به نزدیکی برآوردها به OLS خواهد شد. در استنباط بیزی ضرایب رگرسیون: خواهند بود.
بردار ضرایب رگرسیون در بیز LASSO: مطابق پارک و کاسِلا (۲۰۰۸) توزیع پیشین شرطی اثرات نشانگرها ( ) با واریانس پیشین اختصاصی مارکر به این صورت تعریف می شود: این توزیع پیشین، افت برآورد اختصاصی اثرات نشانگرها را تحریک می‌کند که مقدار بسط آن به بستگی دارد. پارامتر واریانس ( برابر واریانس نشانگرها است: رِسِنده و همکاران، ۲۰۱۲) به‌عنوان توزیعهای پیشین مستقل و یگانه نمایی و به‌صورت: . در نظر گرفته می شود (پارک و کاسِلا، ۲۰۰۸). که با این فرضیات توزیع پیشین حاشیهای ضرایب رگرسیون به این صورت خواهد بود. که توزیع دونمایی است. این توزیع دارای تراکم بیشتری در صفر بوده که نشان‌دهنده اینست که دارای افت شدیدی برای مارکرهای با اثر نسبتاً کوچک و افت پایینتر برای مارکرهای با اثر قابل ملاحظه میباشد.
در بیز LASSO توزیع پیشین واریانس اثرات نشانگرها به این صورت است:

بنابراین، و می‌باشد.
بیز A: در این روش توزیع اثرات SNP ها به‌صورت توزیع t فرض می شود. به این مفهوم که در این توزیع مفروض است همانند BLUP تمام SNP ها دارای اثرات اندکی باشند هرچند که شکل دنبهای توزیع فرض شده اجازه میدهد که برخی از SNP ها در حالت عدم لینکاژی با QTL های متوسط تا بزرگ اثر باشند. در این حالت اثرات SNP از توزیع نرمال نمونه گیری شده ولی واریانس این اثرات از توزیع کای اسکوار مقیاسبندی شده معکوس (مشابه معکوس گاما میباشد) نمونه‌گیری خواهد شد:

که در اینجا r برابر درجه آزادی و s مساوی پارامتر مقیاس است. این فرمول نشان میدهد که اثرات SNP ها از توزیع t نمونه‌گیری شده اند. مقادیر پارامترهای توزیع کای اسکوار معکوس مقیاس‌بندی شده (r و s) میتوانند برای متغیر تصادفی X به این صورت تعریف شوند.

از ترکیب دو معادله بالا حاصل می شود: .
بنابراین با بهره گرفتن از میانگین و واریانس مورد انتظار میتوان دو هایپر پارامتر r و s را برای توزیع کای اسکوار معکوس مقیاس‌بندی شده تعریف کرد.
درصورتی‌که درجه آزادی افزایش یابد توزیع t به توزیع نرمال نزدیک می شود. ولی در حالت پایین بودن درجه آزادی، بیشتر SNP ها با اثر اندک و تعداد کمی از آن‌ها با اثر عمده در نظر گرفته می شود. این حالت برای بیشتر صفات تقریب واقعیتری از اثرات SNP نسبت به (نمونه‌گیری اثرات QTL از) توزیع نرمال می‌باشد.
در بیز A توزیع پیشین واریانس به‌صورت توزیع کای اسکوار معکوس مقیاس‌بندی شده در نظر گرفته شده که در اینجا s پارامتر مقیاس و v درجه آزادی میباشد. در این حالت وقتی اطلاعات توزیع پیشین و اطلاعات داده ها با هم ترکیب می شود توزیع پسین نیز به‌صورت توزیع کای اسکوار معکوس شده مقیاس‌بندی شده خواهد بود

که در اینجا n برابر تعداد اثرات نشانگرها میباشد. همچنین واریانس خطای توزیع پیشین به‌صورت است که توزیع شرطی آن به این صورت خواهد بود:
بیز B: در این مدل فرض بر این است که فقط قسمتی (بخشی) از جایگاه‌های ژنی، کل واریانس ژنتیکی را تشریح می کنند و بسیاری از جایگاه‌های ژنی نقشی در واریانس ژنتیکی ندارند. مدل آماری بیز B را میتوان به‌صورت زیر نوشت:

که y فنوتیپ حیوان i بوده، : میانگین، k تعداد جایگاه‌های مارکری، x ژنوتیپ مارکر در جایگاه j (i اُمین آلل) که به‌صورت ۰ و ۱ و ۲ (تعداد کپی‌های آلل SNP که حیوان i حمل می کند) کد گذاری میشوند. نیز اثر جایگزینی آللی در جایگاه j و متغیر موردنظر و اختصاصی این مدل است که یک متغیر ۰ و ۱ بوده و نشان‌دهنده عدم حضور (با احتمالπ) یا حضور (با احتمال۱-π) جایگاه j در مدل میباشد.

فرض اصلی این روش، این است که بسیاری از SNP ها در مناطق ژنومی قرار گرفته‌اند که فاقد QTL بوده و تاثیری بر صفت ندارند. در حالی‌که فقط بخش اندکی از SNP ها در حالت LD با QTL بوده و درنتیجه دارای اثر هستند. به‌طورکلی π نشان‌دهنده نسبت قابل‌انتظاری از SNP هاست که در حالت عدم لینکاژی با QTL ها نسبت به تعداد کل SNP ها است. اثرات SNP از توزیع t نمونه گیری شده ولی واریانس اثرات با احتمال π از توده صفر و با احتمال π ۱- ازتوزیع کای اسکوار معکوس مقیاس‌بندی شده (مِوویسِن و همکاران، ۲۰۰۱) نمونه گیری خواهند شد:

در روش بیز B مشکل مشخص بودن مقدار π وجود دارد. درصورتی‌که مقداری که انتخاب می شود با توزیع حقیقی اثرات SNP ناسازگار و متناقض باشد به‌طور معنیداری بر میزان صحت اثرات برآورد شده تاثیر منفی خواهد داشت. برای حل مشکل از قبل معین بودن π، از روش نمونه گیری ارائه شده توسط فرناندو (۲۰۰۹)، از توزیع پیشین یکنـــواخت (=uniform(0,1)π) استفاده و در کنار تمام پارامترهای دیگر در تکرارهای MCMC نمونه گیری خواهد شد. زمانی که یک همگرایی حاصل شد پارامتر برابر میانگین توزیع پسین خودش در نظر گرفته خواهد شد و الگوریتم‌ها مجدداً برای برآورد اثرات SNP به‌کار گرفته خواهند شد.
بیز C: این روش شکلی از بیز B است. فقط به‌جای اینکه از توزیع پیشین t برای اثرات نشانگرها استفاده کند از توزیع نرمال استفاده می‌شود و ازاین‌رو، توزیع پسین اثرت نشانگری هم نرمال خواهد بود.
۳-۷- برآورد ارزش‌های اصلاحی ژنومی
در هریک از سناریوهای مورد مطالعه، ارزش‌های اصلاحی ژنومی برای هریک از افراد جمعیت کاندیدا، با بهره گرفتن از مجموع اثرات نشانگرها (بر حسب ژنوتیپ فرد در هر جایگاه) برآورد گردید. بنابراین، بردار ارزش‌های اصلاحی ژنومی برآورد شده برابر است با:
GEBV=Xg
که در این رابطه، GEBV بردار ارزش‌های اصلاحی ژنومی (با ابعاد n*1) می‌باشد. X ماتریس طرح با ابعاد n*m بوده که n تعداد فرد و m تعداد نشانگر میباشد. این ماتریس اثرات نشانگری را به ژنوتیپ نشانگرها مرتبط میسازد همچنین g بردار اثرات برآورد شده برای چند شکلیهای تک نوکلئوتیدی با ابعاد m*1 (m: تعداد نشانگر) میباشد که با بهره گرفتن از روش‌های مختلف برآورد شده است. برای اجرای روشهای بیزی، از بسته نرم افزاری BGLR (دِ لوس کامپوس و پِرِز، ۲۰۱۳) و الگوریتم نمونه‌گیری گیبس برای نمونه‌گیری توزیع پسین شرطی اثرات نشانگری استفاده شد. استنباط اثرات نشانگری با بهره گرفتن از زنجیرههای ۱۲۰۰۰ نمونه ای (۲۰۰۰ نمونه اولیه گرم‌کنندگی و ۱۰۰۰۰ نمونه بعدی برای استنباطهای توزیع پسین) صورت گرفت.
۳-۸- مقایسه صحت روش‌ها
به‌منظور بررسی صحت ارزش‌های اصلاحی ژنومی برآورد شده با بهره گرفتن از روش‌های مورد مطالعه، از همبستگی پیرسون ارزش‌های اصلاحی برآورد شده و ارزش اصلاحی حقیقی استفاده گردید. هر سناریوی شبیه‌سازی شده ۱۰ بار تکرار شد و میانگین ۱۰ ضریب همبستگی به‌دست‌آمده به‌عنوان معیار صحت مدل درنظر گرفته شد.
۳-۹- استنباط ژنوتیپی
در بخش دیگر این پژوهش، تاثیر استنباط SNP ها بر صحت ارزش‌های اصلاحی ژنومی مورد ارزیابی قرار گرفت. به همین منظور، پس از شبیه‌سازی جمعیتهای پایه، تاریخی، مرجع و تایید، ژنوتیپهای جمعیت مرجع به‌عنوان پانل مرجع در نظر گرفته شدند. به‌طوری‌که پس از ذخیره ژنوتیپهای جمعیت تایید و اعمال درصدهای مختلف حذف، برای استنباط ژنوتیپهای ازدست‌رفته از ژنوتیپهای جمعیت مرجع به‌عنوان راهنما استفاده شد. در این مطالعه، در ژنوتیپ حیوانات تایید، اطلاعات ژنوتیپی ۵، ۱۰، ۲۰، ۵۰، ۷۰ و ۹۰ درصد از نشانگرها حذف و با بهره گرفتن از دو روش تخصیص تصادفی و روش جنگل تصادفی استنباط شدند.
۳-۱۰- روش‌های استنباط ژنوتیپی
۳-۱۰-۱-روش تخصیص تصادفی
این روش بر مبنای فرض تعادل هاردی-واینبرگ عمل می کند و ژنوتیپهای ازدست‌رفته را بر اساس فراوانی آللی و ژنوتیپی در پانل راهنما استنباط می کند. با فرض دو آلل و سه ژنوتیپ در هر جایگاه نشانگری، اگر فراوانی آلل ۱ و ۰ به‌ترتیب p و ۱-p باشد درنتیجه ژنوتیپ ازدست‌رفته را بر اساس احتمال ژنوتیپها در هر جایگاه نمونه گیری می کند. نمونه گیری از فضای نمونه توزیع فراوانی ژنوتیپها به این صورت میباشد:

استنباط ژنوتیپها به روش تخصیص تصادفی با بهره گرفتن از بسته synbreed Version 0.10-4 (ویمر و همکاران، ۲۰۱۴) انجام شد.
۳-۱۰-۲- روش جنگل تصادفی
ماتریس نشانگری X حاوی عناصر X_ij (ژنوتیپ نشانگر j ام برای فرد i ام) را در نظر بگیرید. ۱) ابتدا در ماتریس X نشانگرها بر اساس درصد اطلاعات ژنوتیپی ازدست‌رفته رتبه بندی میشوند و سپس اطلاعات از دست‌رفته به‌وسیله روش MNI (Mean Neighbor Imputation) که روشی حد واسط است استنباط میشوند. MNI یک استنباط اولیه از ژنوتیپ از دست رفته نشانگر j (j امین SNP) را به‌دست میدهد که به‌عنوان یک پیش برآورد برای RF قلمداد می شود. ۲) سپس در هر نشانگر j که حاوی ژنوتیپهای ازدست‌رفته است (X_mis، در این مرحله ژنوتیپ استنباط شده توسط MNI)، اطلاعات معلوم (X_obs) برای ایجاد یک RF با مثلاً ۱۰۰ درخت مورد استفاده قرار میگیرد (_۱۰۰Ψ…._۱Ψ). هر درخت با بهره گرفتن از یک نمونه از X_obs ها شروع به رشد می کند و در هر گره انشعاب صورت میگیرد تا در نهایت به گرههای پایانی میرسیم. ۳) X_misها با میانگین‌گیری از نتیجه ۱۰۰ درخت و به‌صورت زیر استنباط میشوند:

در رابطه فوق X یک بردار ورودی است که حاوی اطلاعات ژنوتیپی برای نشانگر j است. ۴) اطلاعات ژنوتیپی نشانگر j در ماتریس X با بهره گرفتن از مقادیر در اصطلاح update می شود. (۵) مراحل ۲ تا ۴ برای نشانگرهای بعدی تکرار میشوند تا زمانی که همه ژنوتیپهای ازدست‌رفته استنباط شوند. این الگوریتم با بهره گرفتن از تابع missForest بسته نرم افزاری randomForest Version 4.6-10 (لیاو، ۲۰۱۴) به‌کار گرفته شد.
۳-۱۱- صحت استنباط ژنوتیپ
برای سنجش صحت ژنوتیپهای استنباط شده روش‌های متعددی ارائه شده است. برخی از آن‌ها مانند شاخص درصد ژنوتیپهای به‌درستی استنباط شده به‌شدت وابسته به فراوانی آللی است (هیکی و همکاران، ۲۰۱۲). بنابراین، نتایج حاصله ممکن است اریب باشند. در این مطالعه از همبستگی بین ژنوتیپهای استنباط شده با ژنوتیپهای واقعی استفاده شد. این شاخص توسط هیکی و همکاران (۲۰۱۲) که نقاط قوت و ضعف شاخص های مختلف را بررسی کردند، به‌عنوان بهترین شاخص برای ارزیابی عملکرد روش‌های مختلف استنباط ژنوتیپ پیشنهاد شده است.
۳-۱۲- صحت پیش بینی ارزش‌های اصلاحی ژنومی حاصل از ژنوتیپ استنباط شده
جهت بررسی تاثیر استنباط ژنوتیپ بر صحت پیش بینی ارزش‌های اصلاحی ژنومی، ابتدا اثرات نشانگری برای هرکدام از جایگاه‌ها برآورد و سپس ارزش‌های اصلاحی ژنومی در جمعیت تایید برای هرکدام از افراد برآورد شد (GEBV). در مرحله بعد، پس از استنباط ژنوتیپهای ازدست‌رفته مجدداً ارزش‌های اصلاحی برای حیوانات کاندیدا برآورد شد (GEBV_GI). به‌منظور بررسی کارایی استنباط ژنوتیپی در برنامه های اصلاح نژادی و تاثیر استنباط ژنوتیپی بر صحت ارزش‌های اصلاحی ژنومی برآورد شده از همبستگی بین GEBV و GEBV_GI استفاده شد. دو روش فوق‌الذکر، در درصدهای مختلف حذف (۵، ۱۰، ۲۰، ۵۰، ۷۰ و ۹۰ درصد) و نیز در سطوح مختلف عدم تعادل لینکاژی (۱/۰، ۲/۰ و ۳/۰) مقایسه شدند.
فصل چهارم

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب