با یک دید کلی، هر دو شی که در یک خوشه باشند دارای شباهت یک خواهند بود و در غیر این صورت مقدار شباهت آن‌ها صفر است. یک ماتریس شباهت  برای هر خوشه‌بندی می‌تواند بر این اساس ایجاد شود. میانگین ورودی-هوشمندانه[۱۰۶] از  ماتریس تصویر بهتری از بازده کلی دسته‌بندی  مجموعه در ماتریس شباهت  را نشان می‌دهد. موجودیت‌های  ، کسری از خوشه‌بندی را نشان می‌دهد که در آن دو شی عضو یک خوشه مشابه هستند. ماتریس  را می‌توان به صورت یک ضرب ماتریس اسپارس  نشان داد. شکل (۲-۲۰) حالت عمومی ماتریس شباهت بر اساس خوشه‌بندی را برای مثال شکل (۲-۱۹) نشان می‌دهد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

شکل ۲-۲۰. ماتریس شباهت بر اساس خوشه برای مثال شکل (۳-۵) [۵۴].
با این روش می‌توان از ماتریس شباهت برای ایجاد مجدد خوشه از اشیای استفاده کرد. در این روش برای تولید گراف (رأس = اشیا، وزن لبه = شباهت) از روش  که در [۳۸] ارائه شده است به خاطر خواص خیلی قوی و مقیاس‌پذیر آن، استفاده شده است. روش  یکی از ساده‌ترین روش‌های مکاشفه‌ای[۱۰۷] جهت ادغام نتایج خوشه‌بندی است ولی پیچیدگی محاسبه و ذخیره‌سازی آن هر دو برابر با درجه دوم است که این امر در سایر روش‌های ابر گراف‌ها نزدیک با مقدار خطی  است.
۲-۳-۲-۲-۲. روش HGPA
در این روش با فرموله کردن افرازبندی ابر گراف توسط قطع حداقل ابر لبه‌ها اقدام به خوشه‌بندی ترکیبی می‌کنیم. این روش الگوریتم افرازبندی ابر گراف (  ) نامیده می‌شود. در این روش تمام ابر لبه‌ها و رئوس دارای وزن یکسان می‌باشد. باید توجه داشته باشید که این راه حل شامل روابط  طرفه خواهد شد در صورتی که روش  تنها شامل روابط دو به دو می‌باشد.
شکل ۲-۲۱. الگوریتم افرازبندی ابر گراف [۵۴].
حال، همانند شکل (۲-۲۱) ما به دنبال جداسازی ابر لبه‌ها برای افرازبندی  تایی ابر گراف به مؤلفه‌های غیر متصل و تقریباً هم سایز هستیم. باید توجه داشت که اخذ اندازه قابل‌مقایسه افرازها در افرازبندی گراف‌هایی که بر اساس خوشه‌بندی به دست آمده‌اند یک رویکرد استاندارد جهت اجتناب از افرازبندی‌های بی‌اهمیت است [۴۱]. از طرف دیگر معنای این تعریف ، این است که اگر خوشه‌های داده طبیعی بسیار نامتعادل باشد، یک رویکرد افرازبندی بر اساس گراف مناسب نخواهد بود. در [۵۴] حداکثر عدم تعادل را با حفظ محدودیت  فرض کرده‌اند. افرازبندی ابر گراف‌ها در سال‌های اخیر یکی از بهترین حوزه‌های تحقیقاتی بوده است که می‌توان جزئیات برخی از این الگوریتم‌ها را در [۳۸, ۶۵] پیدا کرد. در [۵۴] برای افرازبندی روش  را پیشنهاد شده است [۴۱] دلیل این کار کیفیت بالا افرازبندی و مقیاس‌پذیری روش  می‌باشد. با این حال، باید یادآور شد که افرازبندی ابر گراف‌ها به طور کلی دارای هیچ شرایط و قانون خاصی جهت حذف بخشی از ابر لبه‌ها نیست. این بدان معنی است که هیچ حساسیتی جهت وجود تعداد ابر لبه‌ها در یک گروه مشابه بعد از برش وجود ندارد. این برای کاربردهای ما می‌تواند مشکل‌ساز باشد این مسئله را در داده شکل (۲-۱۹) می‌توان شرح داد. برای سادگی کار، اجازه دهید تا فقط سه ابر لبه برای  فرض کنیم. دو افرازبندی  و  هر دو با برش سه ابر لبه ایجاد می‌شود. افرازبندی اول به طور مستقیم بهتر است، به خاطر اینکه  از ابر لبه  باقی خواهند ماند ولی در روش دوم این مقدار به  کاهش پیدا می‌کند. از این روی، در افرازبندی مبتنی بر ابر گراف استاندارد برای تعادل در کیفیت را در حذف هر دو ابر لبه مشابه در نظر می‌گیریم.
۲-۳-۲-۲-۳. روش MCLA
الگوریتم فرا خوشه‌بندی (  ) یکی از بهترین روش‌ها در خوشه ترکیبی مبتنی بر ابر گراف است [۵۴]. ایده اصلی الگوریتم فرا خوشه‌بندی بر اساس گروه‌بندی و جداسازی روابط ابر لبه‌ها و تخصیص هر شی به ابر لبه جدا شده است که در آن این مشارکت قویاً دیده می‌شود. ابر لبه‌های مرتبط در نظر گرفته‌شده برای جداسازی توسط خوشه‌بندی مبتنی بر گراف از ابر لبه‌ها معین می‌شوند. هر خوشه از ابر لبه‌ها به یک ابر خوشه  اشاره می‌کند. جداسازی تعداد ابر لبه‌ها را از  به  کاهش می‌دهد. مراحل اجرای الگوریتم فرا خوشه‌بندی به شرح زیر است:
ساخت ابر گراف به عنوان یک گراف بدون جهت دیگر تمام  را با  نمایش می‌دهیم (ابر گراف‌های  )، که آن را فرا گراف می‌نامیم. وزن لبه‌ها را متناسب به شباهت بین رئوس در نظر می‌گیریم. در اینجا معیار جاکارت[۱۰۸] یکی از مناسب‌ترین معیارها برای اندازه‌گیری شباهت هست، از آنجا که آن نسبت بین اشتراک و اجتماع مجموعه‌ای از اشیاء مربوط به دو ابر لبه را نشان می‌دهد. به عبارت دیگر، وزن لبه  بین دو رأس  و  با معیار جاکارت دودویی مطابق رابطه (۲-۵۱) تعریف می‌شود.
(۲-۵۱)
تا زمانی که خوشه‌ها هم پوشانی (خیلی زیاد) نداشته باشند، هیچ لبه‌ای میان رئوس خوشه‌بندی مشابه  وجود نخواهد داشت و بنابراین، فرا گراف  بخشی خواهد بود. شکل (۲-۲۲) الگوریتم فرا خوشه‌بندی مثال شکل (۲-۱۹) است.
شکل ۲-۲۲. الگوریتم فرا خوشه‌بندی
خوشه ابر لبه‌ها[۱۰۹] در این مرحله ما به دنبال پیدا کردن برچسب‌های سازگار در افرازبندی فرا گراف به  فرا خوشه متعادل هستیم. برای این کار [۵۴] روش  را پیشنهاد کرده است. این نتایج در یک خوشه‌بندی از برداهای  است. هر فرا خوشه تقریباً  رأس دارد. از آنجایی که هر رأس در فرا خوشه نشان‌دهنده یک برچسب خوشه متمایز است، یک فرا خوشه نشان‌دهنده یک گروه از برچسب‌های متناظر است.
جداسازی فرا خوشه[۱۱۰] برای هر یک از  فرا خوشه‌، ابر لبه‌ها برای تبدیل به یک فرا لبه جداسازی می‌شود. هر فرا لبه دارای یک بردار تجمع است که شامل یک ورودی برای هر شی است که سطح تجمع ارتباط فرا خوشه را شرح می‌دهد. این سطح برابر با میانگین تمام شاخص‌های بردار  از یک فرا خوشه خاص است. هر ورودی صفر و یک به ترتیب نشان‌دهنده قویی‌ترین و ضعیف‌ترین تجمع است.
تخصیص اشیاء[۱۱۱] در این مرحله، هر شی به فرا خوشه‌ای که بیشتر با آن در ارتباط است تخصیص داده می‌شود: به طور خاص، یک شی به فرا خوشه‌ای که بالاترین ورودی را در بردار اجماع دارد تخصیص داده می‌شود. روابط به صورت تصادفی شکسته می‌شوند. اطمینان از یک تخصیص، در سهم برنده اجماع منعکس می‌شود (نسبت سهم برنده اجماع به جمع همه اجماع‌های دیگر). باید توجه داشت که برای هر فرا خوشه نمی‌توان تضمین داد که حداقل برنده یک شی شود. بنابراین، بیشتر از  برچسب در ترکیب نهایی خوشه‌بندی  وجود دارد.
شکل (۲-۲۲) نشان‌دهنده فرا خوشه مثال شکل (۲-۱۹) است که در آن  ،  ،  و  می‌باشد. شکل (۲-۲۲) نشان‌دهنده یک فرا خوشه با چهار قسمت اصلی است. سه فرا خوشه توسط سمبل‌های  ،  و  نشان داده شده است. نشان  را به عنوان فرا خوشه اول  در نظر بگیرید. با جداسازی ابر لبه‌ها، شی وزن‌دار فرا لبه  با بردار اجماع  حاصل می‌شود. متعاقباً، فرا خوشه  در رقابت برای تخصیص رئوس/ اشیای  و  برنده می‌شود و بنابراین خوشه  در نتایج خوشه‌بندی جامع نشان داده می‌شود. الگوریتم فرا خوشه‌بندی برای این مثال روی خروجی‌های  که یکی از شش خوشه‌بندی بهینه می‌باشد و برابر با خوشه‌بندی‌های  و  است استوار است. عدم قطعیت در برخی از اشیاء به ترتیب در اطمینان  ،  ،  ،  ،  ،  و  برای اشیای  تا  منعکس شده است.
۲-۳-۲-۳. روش‌های مبتنی بر ماتریس همبستگی

Input: D – the input data set N points
B – number of partitions to be combined
M – number of clusters in the final partition, σ
k – number of clusters in the components of the combination
Γ – a similarity-based clustering algorithm
for j=1 to B
Draw a random pseudosample Xj
Cluster the sample Xj: π (i)←K-means({Xj})
Update similarity values (co-association matrix) for all patterns in Xj
end
Combine partitions via chosen Γ: σ ←Γ (P)
Validate final partition, σ (optional)
return σ // consensus partition

شکل۲-۲۳. الگوریتم خوشه‌بندی ترکیبی مبتنی بر ماتریس همبستگی و با بهره گرفتن از توابع توافقی مختلف مبتنی بر شباهت
در روش ماتریس همبستگی[۱۱۲] شباهت بین نقاط (مقادیر همبستگی)، می‌تواند با تعداد خوشه‌های به اشتراک گذاشته‌شده بین دو نقطه، در همه افرازهای یک ترکیب، تخمین زده شود . ساختار این نوع از الگوریتم‌های خوشه‌بندی ترکیبی در شکل ۲-۲۳ نشان داده شده است.
۲-۳-۲-۳-۱. الگوریتم‌های سلسله مراتبی تراکمی
فرض کنید مجموعه داده  شامل  نقطه (نمونه) در فضای  بعدی است. داده‌های ورودی را می‌توان به صورت یک ماتریس الگوی  و یا یک ماتریس عدم تشابه  در نظر گرفت. فرض کنید  مجموعه‌ی زیرمجموعه نمونه‌های ماست که از نمونه‌های اولیه استخراج‌شده‌اند. هر یک از الگوریتم‌های انتخابی هنگامی‌که بر روی زیرمجموعه نمونه‌های موجود در X اجرا شوند نتایج  را تولید می‌کنند. هر  مجموعه‌ای از خوشه‌هاست. یا به عبارت دیگر  و به ازای هر  داریم  به ‌طوری که  تعداد خوشه‌ها در i امین خوشه‌بندی است. اولین یک الگوریتم پایه (برای مثال  ) را بر روی  اجرا می‌کنیم تا بتوانیم با بهره گرفتن از  ‌های تولیدشده ماتریس همبستگی را به صورت زیر به دست آوریم:
(۲-۵۲)
(۲-۵۳)
در رابطه ۲-۵۲، تابع  در صورتی که دو عنصر  و  در خوشه‌بندی  در یک خوشه قرارگرفته باشند، مقدار یک و در غیر این صورت مقدار صفر برمی‌گرداند. مقدار پارامتر  نمایانگر تعداد زیرمجموعه‌هاست و یا به بیان دیگر تعداد دفعات تکرار الگوریتم پایه است. معمولاً از الگوریتم‌های سلسله مراتبی پیوندی (منفرد، کامل، میانگین و بخشی) برای ترکیب از روی ماتریس همبستگی استفاده می‌شود [۳۳]. سه اشکال اصلی روش‌های مبتنی بر ماتریس همبستگی عبارت‌اند از:

    1. یک پیچیدگی محاسباتی درجه دوم در تعداد الگوها و ویژگی‌ها  دارند.
    1. هیچ راهنمایی برای اینکه کدام الگوریتم خوشه‌بندی باید به‌کاربرده شود، وجود ندارد. به عنوان مثال پیوندی منفرد یا پیوندی کامل.

یک ترکیب با یک تعداد کوچک از افرازها، ممکن است یک تخمین مطمئن از مقادیر همبستگی را فراهم نکند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...