متداول ترین رابطهی اندازهگیری متریک. حالت خاصی از رابطهی Minkowski با n=2. تولید خوشههایی با شکل کروی.
الگوریتم
K-Means [32].
شباهت کسینوسی[۵۷]
عدم وابستگی به طول بردار.
متداول ترین معیار اندازهگیری در خوشهبندی اسناد[۵۸] [۷۵].
فاصلهی همینگ[۵۹]
if then 1
else 0
تعداد بیت هایی که نیاز به تغییر دارند تا یک بردار بیتی به دیگری تبدیل شود.
الگوریتم خوشهبندی توافقی IVC [57] و برخی از الگوریتمهای خوشهبندی تقریبی [۲۲].
محاسبهی مرکز خوشهها در الگوریتمهای بخشبندی به دو روش انجام میشود. در روش اول هر یک از صفات خاصهی بردار مرکز خوشه، میانگین صفات خاصهی متناظر، در اشیاء دادهی همان خوشه است. یکی از الگوریتمهای مطرح که از این روش استفاده میکند الگوریتم K-Means است که در بخش ۲-۲-۳ به طور دقیقتری مورد بررسی قرار میگیرد. در روش دوم مرکز هر خوشه، یکی از اشیاء دادهی همان خوشه انتخاب میشود به طوری که شئ دادهی انتخاب شده، نزدیکترین بردار به مرکز ثقل خوشه میباشد. به عنوان مثال، الگوریتم K-Mediods با بهره گرفتن از این روش مرکز خوشهها را محاسبه میکند.
روشهای سلسله مراتبی
در خوشهبندی سلسله مراتبی، خوشههای بدست آمده در یک ساختار درختی سازماندهی میشوند. به این صورت که مجموعه داده X به بخشهای H={H1, H2, …, HQ} تقسیم میشود (Q ≤ N). به طوری که [۷۲]:
این گروه از الگوریتمهای خوشهبندی به دو زیر گروه عمده تقسیم میگردد. یک زیر گروه شامل الگوریتمهای تقسیم کننده است، که به صورت بالا به پایین دادهها را به خوشههایی کوچکتر تقسیم میکنند، تا زمانی که هر خوشه تنها شامل یک شئ داده شود. زیر گروه دیگر شامل الگوریتمهای تجمیع کننده است، که به صورت پایین به بالا خوشههایی که در ابتدا تنها شامل یک شئ داده هستند را جهت تشکیل خوشههایی بزرگتر در هم ادغام میکنند، تا زمانی که تمام دادهها در یک خوشه واحد قرار گیرند. نتایج حاصل از الگوریتمهای تقسیم کننده و تجمیع کننده را میتوان با بهره گرفتن از نمودار درختی[۶۰] نشان داد. برخی از مزایای روشهای خوشهبندی سلسله مراتبی عبارتند از: ۱) پایان پذیری سریع، ۲) عدم نیاز به تشخیص تعداد خوشهها قبل از انجام خوشهبندی، ۳) محاسبهی کامل سلسله مراتبی از خوشهها، ۴) دیداری سازی[۶۱] مناسب نتایج و ۵) بدست آوردن یک خوشهبندی مسطح با برش قسمتی از نمودار درختی [۴۵]. الگوریتمهای [۶۲]BIRCH ، CURE[63] و CHAMELEON نمونههایی از الگوریتمهای سلسله مراتبی میباشند.
الگوریتم خوشهبندی K-Means
ساختار الگوریتم پیشنهادی در این پایان نامه بر اساس الگوریتم K-Means میباشد. بنابراین در این بخش به بررسی این الگوریتم میپردازیم تا برخی از مقدمات لازم جهت ارائه الگوریتم پیشنهادی فراهم گردد. الگوریتم K-Means در سال ۱۹۵۶ ارائه شد و یکی از قدیمیترین و پرکاربردترین الگوریتمهای خوشهبندی میباشد. تاکنون توسعههای زیادی از این الگوریتم بوجود آمده است [۵۰،۶۰،۱۱،۶۹،۵]. فهرست کاملی از مقالات مرتبط با الگوریتم خوشهبندی K-Means را میتوانید در [۳۵] مشاهده نمایید. الگوریتم خوشهبندی K-Means و جنبهه ای مختلف آن در [۵۸،۵۶] بطور کامل مورد بررسی قرار گرفته است. الگوریتمی که در این قسمت ارائه میگردد، الگوریتم ابتدایی K-Means میباشد.
در اجرای الگوریتم K-Means ابتدا باید K مرکز اولیه برای K خوشه انتخاب گردد، K (تعداد خوشههای مورد نظر) پارامتری است که به طور معمول توسط کاربر تعیین میشود. هر شئ داده به نزدیکترین مرکز اختصاص مییابد و مجموعه دادههای تخصیص یافته به یک مرکز، یک خوشه را تشکیل میدهند. سپس مرکز هر خوشه بر مبنای اشیاء داده موجود در آن بروز رسانی میشود. این تخصیص و بروز رسانی تا زمانی تکرار میگردد که هیچ دادهای باعث تغییر خوشهها نشود و یا به عبارت دیگر مرکز خوشهها تغییر نکند [۵۲]. شبه کد K-Means در الگوریتم ۲-۱ تشریح شده است.
شکل ۲-۲ نیز مراحل اجرای K-Means را در چهار گام با سه مرکز اولیه نشان میدهد. مرکز خوشهها در شکل با نماد “+” مشخص شدهاند؛ تمام اشیاء دادهی مربوط به یک خوشه، دارای شکل مشابهی هستند.
الگوریتم ۲-۱ الگوریتم K-Means [30]
Input:
K : the number of clusters
X : a data set containing N objects
Output: A set of K clusters.
Method:
(۱) arbitrarily choose k objects from X as the initial cluster centers
(۲) repeat
(۳) (re)assign each object to the cluster to which the object is the most similar,
based on the mean value of the objects in the cluster
(۴) update the cluster means, i.e., calculate the mean value of the objects for each
cluster
(۵) until clusters do not change