تطبیق جنس و تعداد
تطبیق معنایی
مشابهت معنایی
مشابهت نحوی
بارز بودن
مجاورت
در روشهای زبانشناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هممرجع) کاندیدای آن تعیین میگردد. پس از آن با بهره گرفتن از فاکتورهای «حذفکننده»، برخی از کاندیداها حذف میشوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده میپردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هممرجع میباشد، انتخاب خواهد شد.
۲-۱-۲-۱.فاکتورهای «حذف کننده»
۲-۱-۲-۱-۱.تطبیق جنس و عدد
این دو فاکتور بررسی میپردازند که آیا دو عبارت اسمی از نظر جنس و تعداد با یکدیگر مطابق هستند یا خیر.
Alii asked Zahraj and Herj sistersk that leave himi alone مثال۱:
همان طور که مشاهده میشود در مثال بالا “her sisters” نمیتواند با “him” هممرجع باشد چراکه از نظر جنس و تعداد با یکدیگر مطابقت ندارند.
۲-۱-۲-۱-۲ .تطبیق معنایی
این فاکتور از این جهت به کار میرود که اگر یک عبارت اسمی در یک حوزه معنایی صادق بود، عبارت اسمی هممرجع آن نیز باید در آن محدودهی معنایی صادق باشد.
Alii closed the windowj and cleaned itj : مثال ۲
همانطور که مشاهده میشود، ضمیر it"” تنها میتواند با عبارت اسمی “window” که غیرجاندار و قابل تمیز کردن است هممرجع باشد.
۲-۱-۲-۲. فاکتورهای امتیازدهنده
فاکتورهای امتیازدهنده، برخلاف فاکتورهای حذفکننده که الزاماً باید بررسی شوند اجباری نیستند. به این ترتیب لزومی ندارد که تمامی عبارتهای اسمی با مرجع مشترک دارای این فاکتورها باشند. در این بخش سه فاکتور مشابهت نحوی، مشابهت معنایی و بارز بودن را به همراه مثال شرح میدهیم.
۲-۱-۲-۲-۱. مشابهت نحوی
این امتیاز زمانی به یک عبارت اسمی تعلق میگیرد که نقش نحوی آن با عبارت اسمی هممرجع کاندیدا یکسان باشد.
The programmeri finally combined the Prologj with Pascalk, currently heiمثال۳:
had combined itj with Cm
در مثال فوق، از آن جایی که عبارت اسمی “prolog” با “it” نقش نحوی یکسانی دارد، برای هممرجع بودن با آن امتیاز بیشتری به عبارت اسمی “Pascal” دارد.
۲-۱-۲-۲-۲. مشابهت معنایی
مشابهت معنایی، نسبت به فاکتور قبل، تاثیر بیشتری در امتیازدهی دارد. با این تفاوت که تنها سیستمهایی میتوانند از آن بهره ببرند که قادر به تعیین خودکار نقش معنایی هر عبارت باشند. این فاکتور، به عبارت اسمی که نقش معنایی یکسانی با عبارت اسمی مورد نظر داشته باشد، امتیاز بیشتری میدهد.
Alii gave the book to Rezaj; Zahrak also gave himj a notebook مثال۴:
در مثال فوق، احتمال هممرجع بودن ضمیر “him” با ” Reza"بیشتر است به این دلیل که عبارت اسمی “"Reza، نسبت به “"Ali دارای امتیاز بالاتری میباشد و همچنین نقش نحوی “Reza” باHim” ” یکسان است.
۲-۱-۲-۲-۳.بارز بودن
هر چند دو فاکتور قبل در انتخاب یک مقدم برای تالی مورد نظر، بسیار قوی هستند، اما این فاکتورها همیشه برای تفکیک میان مجموعه کاندیدا از عبارات اسمی مقدم کافی نیستند. بعلاوه این عوامل به جای پیشنهاد کاندیدای محتملتر، بیشتر مانند یک فیلتر برای حذف کردن کاندیدای نامناسب به کار میروند.
در این میان، هنگامی که در انتخاب مقدم کاندیدا ابهام وجود داشته باشد، معمولا عبارت اسمی که بارزتر از سایرین است، دارای امتیاز بیشتری برای عبارت اسمی مقدم میباشد. بارزترین عنصر[۷۰] در زبانشناسی محاسباتی[۷۱]، بهعنوان کانون توجه[۷۲] و یا مرکز[۷۳] در نظر گرفته میشود [۱۰،۶۰]
Jennyi put the cupj on the platek and broke it? مثال ۵ :
همان طور که در مثال بالا مشاهده مینمایید نه تنها رایانه، بلکه حتی انسان نیز قادر نیست تا مرجع ضمیر “it” را مشخص نماید. البته در صورتی که این جمله، بخشی از یک متن باشد، میتوان بارزترین عنصر را در متن شناسایی نمود. به این ترتیب با توجه به متن مثال ۶ میتوان مشاهده نمود که “The cup” بارزترین موجودیت در متن بوده و به همین دلیل بهعنوان کانون توجه در کل متن در نظر گرفته میشود.
مثال۶:
Jenny went window shopping yesterday and spotted a nice cup. She wanted to buy it, but she had no money with her, nevertheless, she knew she would be shopping the following day, so she would be able to buy the cup then. The following day, she went to the shop and bought the coveted cup. However, once back home and in her kitchen, she put the cup on a plate and broke it…
به این ترتیب میتوان نتیجه گرفت که هرگاه دو کاندیدا در شرایط یکسانی قرار گرفته باشند، فرایند تعیین عبارت مقدم، به فرایند تعیین بارزترین عنصر جمله تبدیل میشود.
همان طور که گفته شد، روشهای زبانشناسی، برای تشخیص مرجع مشترک از دانشهای نحوی، معنایی، ریخت شناسی[۷۴] و حتی دانش جهان[۷۵] استفاده میپردازند. به این ترتیب کسب این حجم عظیم از اطلاعات فرآیندی پرهزینه، زمانبر و همچنین پرخطا را به دنبال خواهد داشت. به همین دلیل و به علت پدید آمدن پیکرههای بزرگ زبانشناسی، پژوهشگران به سمت استفاده از روشهای آماری ترغیب شدند.
۲-۱-۳. روشهای یادگیری ماشینی
در سیستمهای مبتنی بر یادگیری ماشین، دانش مورد نیاز از طریق استفاده از الگوریتمهای یادگیری و مجموعه دادههای آموزشی کسب میشود. شاید بتوان گفت که استفاده از روشهای یادگیری ماشینی در فرایند تشخیص مرجع مشترک نخستین بار توسط مک کارتی[۷۶] و همکارانش در سال ۱۹۹۵ و با به کارگیری مدلهای درخت تصمیم[۷۷] انجام شد[۵۲]
یکی از رویکردهای ارائه شده در تحلیل مرجع مشترک، تحلیل مرجع مشترک پایان به پایان[۷۸] میباشد؛ این رویکرد میتواند به دو صورت دنبال شود، (۱) دریافت متن خام و انجام تمام پیش پردازشها بر روی متن و در نهایت تحلیل مرجع مشترک، (۲) استفاده از متونی که در آنها عبارتهای اسمیای که به موجودیتها ارجاع دارند، در قالب «اشارهها» نشانهگذاری شده باشند.[۶۳] به طوریکه هر اشاره دارای برچسبهای باشد تا ویژگیهای آن اشاره را نمایان سازد.
با تکیه بر این مسئله نخستین بار سون و همکارانش در ۲۰۰۱، از پیش پردازشهایی مانند برچسبگذاری ادات سخن، شناسایی موجودیتهای نامدار و … استفاده کرده و در نهایت تمام نتایج حاصل از پیش پردازشها را با هم ادغام نمودند. به این ترتیب آنها توانستند به اطلاعات مناسبی برای اشارهها دست پیدا کنند. به دنبال آنها این مسئله به طور گستردهتر مورد توجه پژوهشگران قرار گرفت. به طوریکه در اغلب پژوهشهایی که از انواع روشهای ردهبندی برای تشخیص ارتباط میان اشارهها استفاده شدهاست، مشخص نمودن مجموعهای از ویژگیهای مناسب یک مسئله حیاتی برای شروع کار محسوب میشود. این مجموعه ویژگیها در تعیین اینکه آیا دو عبارت اسمی با هم، هممرجع هستند یا خیر، موثر میباشند. بعلاوه، این ویژگیها باید به اندازه کافی عمومیباشند تا بتوان آنها را برای متن ها در زمینه[۷۹]های متفاوت و انواع گوناگون اسمها و عبارتهای اسمی به کار برد.
۲-۱-۳-۱. ویژگیها:
از لحاظ زبانشناسی ویژگیهای گفته شده به چهار دستهی لغوی، نحوی، معنایی و فاصله (مکانی) تقسیم میشوند.[۱۰۵] البته، در طی سالهای اخیر پژوهشگران برای بهبود نتایج تحلیل مرجع مشترک دامنهی ویژگیها را گسترش داده اند، به طوریکه برخی از پژوهشگران معتقدند اگر یک بازنمائی مناسب از ویژگیهای غنی وجود داشتهباشد، حتی یک مدل ساده نیز میتواند مانند تکنولوژیهای جدید عمل نماید.[۴۵]در جدول۲-۲ یک طبقهبندی از ویژگیهای رایج برای تحلیل مرجع مشترک آورده شده است.
۲-۱-۳-۲. مدلهای جفت اشاره[۸۰]:
یکی از روشهای رایج برای تحلیل مرجع مشترک، استفاده از ردهبندی دودوئی میباشد؛ در روشهای ردهبندی، تصمیم گیری بر اساس یک جفت اشاره صورت میگیرد. عموماً روال کار به این ترتیب است که دو اشاره توسط یک ردهبند دریافت میشود و درنهایت مشخص میشودکه آیا دو عبارت با یکدیگر هممرجع هستند یا خیر. حتی در برخی موارد میزان احتمالِ هممرجع بودن آنها نیز تعیین میگردد. در آخر نیز مجموع این تصمیمات دوبهدو به مسئلهی افراز اشارهها تبدیل میگردد. که میتواند با بهره گرفتن از خوشهبندی و یا هر روش افراز دیگر انجام گیرد. یکی از محاسن این دسته از روشها در سادگی آنها میباشد. علاوه براین، مدلهای بسیاری برای حل مسائل ردهبندی وجود دارند که از کارائی بالایی برخوردار میباشند. از سوی دیگر، مشکل این دسته از روشها در این است که تصمیم گیری در مورد جفت عبارات اسمی، به صورت مستقل انجام میگیرد و روابط متعددی در تصمیم گیری در نظر گرفته نمیشود. به عبارت دیگر مشکلی به نام «ناسازگاریهای سهگانه[۸۱]» بوجود خواهند آمد. بهعنوان مثال، در روشهای ردهبندی، اگر عبارتهای “Mrs. Kazemi” و “Kazemi” هممرجع باشند احتمال اینکه عبارتهای “Kazemi “و “he” نیز با هم، هممرجع باشند وجود دارد [۶]. از آنجائیکه این دو تصمیم به طور جداگانه گرفته میشود؛ امکان بروز این خطا که در جفت اول، جنس از نوع مونث، اما در عبارت دوم، جنس از نوع مذکر است و هر سه نمیتوانند به یک مرجع مشترک اشاره داشته باشند، غیر قابل اجتناب است.[۶۳،۷۶]
برطرف کردن چنین مشکلی به مسئله خوشهبندی برمیگردد. البته شایان ذکر است که بر طرف کردن چنین خطایی در زبان پارسی، حتی با بهره گرفتن از خوشهبندی نیز آسان نخواهد بود، چرا که جنسیت در زبان پارسی مشخص نیست، در هر حال، با توجه به این مسئله، روال کار در مدلهای مبتنی بر جفت اشاره در دو مرحله انجام خواهد شد. اما پیش از آنکه بخواهیم هر کدام از این دو مرحله (رده بندی و افراز) را شرح دهیم، به طور خلاصه به روال تولید نمونههای آموزشی مثبت و منفی از متن ورودی میپردازیم.
جدول۲-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک[۱۲،۴۴،۴۵،۵۰،۶۵،۷۷،۸۲،۱۰۳،۱۰۵]
ویژگی
توضیح