معادله ۳-۱: محتوای اطلاعات چندشکلی نشانگر
فراوانی الگوی jth از باند ith
میزان چندشکلی نشانگر(معادله۳-۲) هر آغازگر از فرمول زیر محاسبه شد:
معادله ۳-۲: میزان چندشکلی نشانگر
BI[68] (معادله ۳-۳) از فرمول زیر محاسبه شد:
معادله ۳-۳: ارزشمندی باندها
که در آن p نسبتی از ژنوتیپهای دارای باند میباشد.
قدرت حل[۶۹] هر آغازگر (معادله ۳-۴) از فرمول زیر محاسبه شد:
معادله ۳-۴: قدرت حل هر آغازگر
میانگین قدرت حل هر آغازگر (معادله ۳-۵) از فرمول زیر محاسبه شد:
معادله ۳-۵: میانگین قدرت حل هر آغازگر
نسبت چندگانه موثر[۷۰] (معادله ۳-۶) که بیانگر تعداد جایگاههای ژنی چندشکل موجود در یک ژرم پلاسم میباشد از طریق فرمول زیر محاسبه میشود (Powel et al, 1996).
EMR=np×B
B=np/(np+nnp)
معادله ۳-۶: نسبت چندگانه موثر
در این فرمول np تعداد کل باندهای چندشکل و B نسبت تعداد باند چندشکل به تعداد کل باند می باشد (Powel et al, 1996).
شاخص نشانگری[۷۱] (معادله ۳-۷) که بیانگر میزان چندشکلی است و میتواند به عنوان شاخصی جهت برآورد کارایی یک نشانگر در یک ژرم پلاسم ناشناخته استفاده گردد با بهره گرفتن از رابطه زیر محاسبه شد .(Milbourne et al., 1997; Powel et al, 1996)
MI=PIC×EMR
معادله ۳-۷: شاخص نشانگری
۳-۸- اندازه گیری فواصل و تشابههای ژنتیکی
هر تفاوت ژنتیکی قابل اندازه گیری در سطح توالی ژنها یا فراوانیهای آللی که بین افراد، جمعیتها یا گونهها قابل ثبت باشد تفاوت ژنتیکی بوده که تعیین آن و روابط ژنتیکی بین افراد یکی از اهداف ارزشمند اصلاح گونه های گیاهی و جانوری است. فواصل یا تشابههای ژنتیکی بین دو ژنوتیپ، جمعیت یا فرد را میتوان بسته به نوع دادهها از روشهای آماری گوناگونی محاسبه کرد. روش خط راست اقلیدوس متداولترین روش برای تخمین فاصله ژنتیکی بر اساس دادههای مورفولوژیکی میباشد. به منظور اندازه گیری فاصله ژنتیکی بر مبنای داده های نشانگرهای ملکولی چندین روش مختلف معرفی گردیده است. معمولترین روشهای اندازهگیری فاصله ژنتیکی یا تشابه ژنتیکی که برای داده های نشانگرهای ملکولی به کار میروند عبارتند از:
۱- ضریب نی و لی (۱۹۷۸)
۲- ضریب جاکارد (۱۹۰۸)
۳- ضریب تطابق ساده (۱۹۵۸)
۴- روش دایس (۱۹۴۵)
در این قسمت ضریب جاکارد مورد بررسی قرار گرفتند.
ضریب تشابه جاکارد (معادله ۳-۸) در اندازه گیری میزان تشابه تنها باندهایی را در نظر میگیرد که در هر فرد وجود داشته باشد (Jaccard, 1908).
معادله ۳-۸: ضریب تشابه جاکارد
a: تعداد باندهایی که در هر دو فرد i وj وجود دارد.
b: تعداد باندهایی که در فرد i وجود دارد ولی در فرد j وجود ندارد.
C: تعداد باندهایی که در فرد i وجود ندارد ولی در فرد j وجود دارد.
۳-۹- روشهای گروهبندی داده ها
با افزایش اندازه نمونه، شباهتها و تفاوتهای ژنتیکی بین افراد مشکلتر می شود. یکی از بهترین راهکارهای طبقه بندی ذخایر توارثی و تجزیه و تحلیل روابط ژنتیکی بین افراد استفاده از الگوریتمهای آماری چند متغیره است. در تکنیکهای تجزیه و تحلیل چند متغییره از تجزیه هم زمان چندین متغیر برای بررسی روابط بین افراد استفاده می شود. این تکنیکها امروزه به طور گستردهای برای تجزیه و تحلیل تنوع ژنتیکی داده های مختلف از قبیل داده های مورفولوژیکی، بیوشیمیایی یا نشانگرهای مولکولی مورد استفاده قرار میگیرند از بین این الگوریتمها، تجزیه خوشهای[۷۲] و تجزیه به مولفههای اصلی[۷۳] بیشتر از بقیه کاربرد دارند (نوری، ۱۳۸۲).
۳-۱۰- تجزیه خوشهای
تجزیه خوشهای به گروهی از تکنیکهای چند متغیره که هدف اولیه آن گروهبندی افراد میباشد اطلاق میشود. در این نوع تجزیه افراد مشابه از نظر صفات مورد بررسی در یک خوشه واحد کنار هم قرار میگیرند. در نتیجه دستهبندی کردن افرادی که در یک خوشه قرار میگیرند دارای شباهتهای زیاد و افرادی که در خوشههای جداگانه قرار میگیرند ناهمگنتر هستند (تفاوتهای زیادی دارند) بنابراین اگر طبقه بندی به طور صحیح انجام گرفته باشد. افرادی که در یک خوشه قرار دارند در نمایش هندسی در کنار هم قرار گرفته و افرادی که در خوشههای جدا قرار دارند از هم دورتر خواهند بود. گروهبندی یا تجزیه خوشهای جدا از روشهای طبقه بندی دیگر از قبیل تجزیه تابع تشخیص میباشد.
در روشهای طبقه بندی جهت گروهبندی، چند گروه از قبل تعیین شده، توسط داده های مورد مطالعه، مورد بررسی قرار میگیرند و یک فرد جدید بر اساس داده ها به یکی از گروه ها منتسب میشود. ولی در تجزیه خوشهای هیچ اطلاعی از گروهبندی ژنوتیپها وجود ندارد. در بین روشهای تجزیه خوشهای، بیشتر از الگوریتمهای مبتنی بر فاصله در تجزیه تنوع ژنتیکی استفاده می شود. روشهای مبتنی بر فاصلهها، ماتریس فاصله به عنوان ورودی مورد تجزیه و تحلیل قرار میگیرند و خروجی به صورت گرافیکی مانند یا به صورت درختی قابل ارائه میگردد. روش UPGMA [۷۴]و روش حداقل واریانس[۷۵] بیشترین کاربرد را برای تجزیه خوشهای دارند. سایر روشها نیز مانند نزدیکترین همسایه و دورترین همسایه توسط برخی از محققین برای تجزیه و تحلیل تنوع ژنتیکی به کار برده می شود.
۳-۱۱- نیکویی برازش خوشه بندی یا ضریب کوفنتیک[۷۶]
یکی از روشهای مقایسه کارایی الگوریتمهای مختلف خوشهبندی، تخمین ضریب همبستگی کوفنتیک میباشد که در آن همبستگی بین ماتریس شباهت یا فاصله به عنوان ورودی تجزیه خوشهای با ماتریس کوفنتیک که بر اساس دندروگرام که به عنوان خروجی تجزیه میباشد برآورد میگردد. روشی که دارای بیشترین ضریب همبستگی کوفنتیک باشد می تواند به عنوان مناسبترین روش تجزیه و تحلیل تلقی گردیده و به کار رود. ضریب همبستگی را با r نشان میدهند. درجه برازش میتواند در دامنه ۷/۰ و ۹/۰ متغیر باشد. اگر ۹/۰r≥ باشد برازش خیلی خوب، ۹/۰> ≤ r8/0 برازش خوب، ۸/۰> ≤ r7/0 برازش ضعیف و۷/۰ ≥ r برازش خیلی ضعیف میباشد.
۳-۱۲- تجزیه به مولفههای اصلی
تجزیه به مولفههای اصلی مانند تجزیه خوشهای یکی دیگر از تکنیکهای چند متغیره است که دارای کاربرد زیادی در تجزیه تنوع ژنتیکی دارد. این تکنیک را میتوان برای نمایش دو بعدی پراکنش افراد به کار برد. تجمع افراد در یک ناحیه از پلات نشان دهنده تشابه ژنتیکی آن افراد می باشد. PCA به عنوان روشی برای کاستن حجم داده ها به منظور روشن ساختن روابط بین دو یا چند متغیر و توجیه تغییرات کل داده های اصلی و اولیه به وسیله تعداد محدودی از متغیرهای جدید مستقل به نام مولفههای اصلی میباشد. این نوع دسته بندی اجازه نمایان شدن تفاوتها را در بین افراد داده و مشاهده هم گروه را ممکن میسازد.
کاسته شدن حجم داده ها به وسیله تبدیل خطی داده های اصلی به متغیرهای مستقل جدیدی که به عنوان مولفههای اصلی شناخته میشوند انجام میگیرد. به طوری که اولین مولفه بیشترین مقدار تغییرات داده های اولیه را توجیه می کند و مولفه دوم بیشترین مقدار تغییرات باقیمانده را بعد از مولفه اول توجیه می کند. لازم به ذکر است که هر مولفه تغییراتی را توجیه می کند که توسط مولفههای قبلی بیان نشده است. به علت اینکه مولفهها به صورت متعامد[۷۷] و مستقل از یکدیگر میباشند هر مولفه نشان دهنده خصوصیات متفاوتی از داده های اصلی میباشند و به صورت مستقل از یکدیگر باید تفسیر شوند (نوری، ۱۳۸۲).
هر چه همبستگی میان متغیرها بیشتر باشد، ۲ تا ۳ مولفه نخست تغییرات بیشتری را توجیه می کنند و هر چه همبستگی پایینتر باشد نشان دهنده تصادفی بودن این متغیرها است. نبود همبستگی در میان این متغیرها برای داده های مولکولی ویژگی سودمند است زیرا نشان میدهد این متغیرها جنبه های گوناگونی از داده ها را اندازه گیری می کنند که در این صورت به تعداد بیشتری مولفه اصلی برای توجیه تغییرات داده های اولیه نیاز میباشد. اگر سه مولفه نخست کمتر از ۲۵/۰ تغییرات را توجیه نمایند بهره گیری از نمودارهای ۲ و ۳ بعدی برای گروهبندی داده ها ناکارآمد می شود چرا که همبستگی میان این سه مولفه اندک است و بخش بسیاری از تغییرات را مولفههای دیگر توجیه کرده اند و نمودارهای ۲ و ۳ بعدی دسته بندی مورد پذیرشی را انجام نمیدهند ولی این رویداد نشان دهنده پراکنش خوب آغازگرهای به کار رفته روی ژنوم است (احمدی، ۱۳۸۴).
۳-۱۳- آنالیز دادههای مولکولی
از نرم افزار NTSYS 2.02 ، FAMD 1.25، Popgene 1.31 و MVSP 3.1 به تناسب هر مرحله برای تجزیه به مولفههای اصلی و رسم دندروگرام و مقایسه و تایید نهایی آنها استفاده شد. Bootstrap دندروگرام حاصل از نرم افزار توسط نرم افزار Winboot بدست آمد.
۳-۱۴- بررسیهای مورفولوژیکی
برای انجام بررسیهای مرفولوژیکی از زنبورهای نمونه برداری شده، اندازهگیری صفات بال روی زنبورهای کارگر انجام شد با توجه به این که بالها به صورت قرینه در بدن زنبور عسل وجود دارند همیشه بال سمت راست برای اندازهگیری انتخاب میشد. هفت صفت مهم بال انتخاب و اندازهگیری شد(جدول ۳-۳).
جدول۳-۳: صفات مرفولوژیک اندازهگیری شده