همان طور که از رابطه بالا مشخص است، حاصل جمع تعداد مثبت‏های درست و تعداد منفی‏های درست، نشانگر تعداد نمونه‏هایی است که توسط سیستم به درستی تشخیص داده شده‏اند. مشکل استفاده از معیار صحت برای تشخیص مرجع مشترک، این است که این معیار در زمانی که داده‏ها نا‏متوازن هستند، معیار مناسبی نیست. زیرا در این حالت، رده‏ای را که در بین داده‏ها بیشترین آرا را دارد(رده اکثریت) را به تمام داده‏ها نسبت می‏دهد. درنتیجه معیار صحت منجر به مقدار بالایی می‏شود، درحالیکه هیچ یک از زنجیره اشارات هم مرجع یافت نشده است.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

از آنجائیکه هدف این است که موتور یادگیری اشاره‏های هم مرجع را بدرستی تشخیص دهد، نتایج آزمایشات انجام شده در قالب معیارهای دقت، فراخوانی و معیار F1 مربوط به داده‏های مثبت ارزیابی شده‏اند.[۶۳] این معیارها توانایی سیستم را در شناسایی نمونه‏های مثبت ارزیابی می‏کند. معیار فراخوانی[۲۱۹] بالا، به این معناست که سیستم تعداد کمی خطای منفی نادرست داشته است. معیار دقت[۲۲۰] بالا، به این معناست که سیستم تعداد کمی خطای مثبت نادرست تولید کرده است. در حقیقت معیار FMeasure یا FB، یک میانگین هارمونیک[۲۲۱] میان پارامتر‏های فراخوانی و دقت می‏باشد و هدف اصلی یک سیستم تشخیص مرجع مشترک، بیشینه کردن این معیار می‏باشد. FMeasure بر اساس رابطه ۴-۲ محاسبه می‏شود.
رابطه (۴-۲)
در رابطه‏ی فوق با افزایش B، تمرکز بر روی فراخوانی و با کاهش B، تمرکز بر روی دقت خواهد بود. زمانیکه B=1 در نظر گرفته شود، اهمیت دقت و فراخوانی به یک اندازه در نظر گرفته می‏شود. بنابراین F1، برابر خواهد بود با رابطه ۴-۳.
رابطه (۴-۳)
هر کدام از معیارهای فراخوانی و دقت نیز طبق رابطه‏های ۴-۴ و ۴-۵ محاسبه می‏شوند.
رابطه(۴-۴)
رابطه(۴-۵)
۴-۳-۴. نتیجه ارزیابی
دراین بخش، نتایج بدست آمده از اعمال الگوریتم‏های یادگیری مورد آزمایش را بر روی داده‏های پیکره لوتوس ارائه می‏نمائیم. در مورد پارامتر‏های مورد بررسی، از آنجائیکه برخی از مقادیر پارامترهای ورودی، برای الگوریتم‏های پایه‏ی منتخب ما، قابل پذیرش نبودند، با اعمال پیش پردازش‏هایی بر روی داده‏ها، پارامتر‏های پیش فرضی را در نظر گرفتیم. به عنوان نمونه، از جمله‏ی این پارامتر‏ها، فاصله‏ی میان دو اشاره(فاصله جملات و تعداد واژگان میان دو اشاره) می‏باشد.
۴-۳-۴-۱.نتایجِ بدست آمده
همان‏طور که پیش‏تر نیز گفته شد، عملکرد اجرای الگوریتم‏های یادگیری، به گونه‏ای نیست که بتوان به سادگی یکی را بر دیگری ارجح دانست. لذا برای اینکه برای یک مسئله یادگیری زبان پارسی، یادگیر مناسب انتخاب نمائیم؛ باید روش‏های یادگیری متفاوتی را به صورت عملی بر آن آزمایش کنیم. به همین منظور سه الگوریتم یادگیری پایه را در محیط Clementine و MALLETمورد آزمایش قرار داده و آنها را با یکدیگر مقایسه نمودیم. جدول۴-۵ و شکل ۴-۶، بهترین نتایج بدست آمده از هر کدام از الگوریتم‏ها را نمایش داده و مقایسه می‏ نمایند.

جدول۴-۵: نتایج ارزیابی الگوریتم‏های پایه مورد بررسی
  دقت فراخوانی معیار F1
شبکه عصبی ۳۶.۳۹ ۳۴.۶۶ ۳۹.۴۰
SVM ۲۹.۳۸ ۳۱.۴۴ ۳۰.۳۸
درخت تصمیم ۳۹.۵۵ ۲۲.۴۱ ۲۸.۶۰
 
شکل ۴-۶: نمودار مقایسه الگوریتم‏های پایه مورد بررسی

هر کدام از الگوریتم‏های پایه در شرایط متفاوت، سنجیده و مقایسه شده‏اند. همان طور که در جدول ۴-۶، مشاهده می‏نمایید، یادگیر ماشین بردار پشتیبان، با هسته‏های متفاوت(RBF، حلقوی، چندجمله‏ای با درجه‏های ۲ تا ۸) مورد بررسی قرار گرفته است. نتایج حاصل از بررسی این الگوریتم نشان‏گر آن است که در هسته چند جمله‏ای، با افزایش درجه چند جمله‏ای، عموماً هر دو معیار دقت و فراخوانی نیز افزایش پیدا می‏کند و به دنبال آن‏ها، معیار F1 نیز ارتقاء می‏یابد. هرچند این ارتقاء ناچیز است، اما نتایج نشان می‏دهد، یادگیر SVM در بهترین شرایطش دارای هسته‏ی چند جمله‏ای با درجه ۸ می‏باشد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...