
دانشگاه قم
پاياننامه کارشناسی ارشد
مهندسی فناوریِ اطلاعات،گرايشِ تجارتِ الکترونيک
عنوان
چارچوبی جديد برای تشخيصِ مرجعِمشترک
و
اسمِ اشاره در متون پارسی
استاد راهنما
دکتر بهروز مينائی بيدگلی
نگارش
مريم نظری دوست
اسفند ۱۳۹۱
«صورت جلسه دفاع پايان نامه کارشناسی ارشد»
با تاییدات خداوند متعال و با استعانت از حضرت ولی عصر(عجل الله تعالی فرجه الشریف)
جلسه دفاعیهِ پایانِنامه کارشناسیِ ارشد
خانم: مریم نظریدوست
رشته: مهندسیِ فناوریِ اطلاعات گرایش تجارتِ الکترونیک
تحت عنوان: چارچوبی جديد برای تشخيصِ مرجعمشترک و اسمِ اشاره در متونِ پارسی
با حضور هیات داوران در محل دانشگاه قم در تاریخ:اسفند ۱۳۹۱تشکیل گردید.
در این جلسه، پایاننامه با نمره( به عدد……، به حروف……………………) و
با درجه: عالی ⃝ بسیار خوب ⃝ خوب ⃝ قابل قبول ⃝ مورد دفاع قرار گرفت.
نام و نام خانوادگیسمتمرتبه علمیامضاءدکتربهروز مینائی بیدگلیاستاد راهنمااستادیاردکتر روح اله دیانتاستاد ناظراستادیارمهندس سید حسن هانیاستاد ناظرمربیدکتر مؤیدینماینده کمیته تحصیلات تکمیلیاستادیار
معاون آموزشی و پژوهشی دانشکده
نام و امضاءمدیر آموزش و تحصیلات تکمیلی
نام و امضاء
برای دستان تو مادرم که یک تنه تمام کس و کار من هستی …
و تقدیم به روح پاک پدرم
تشکر و قدردانی
سپاس ایزد منان که به من این فرصت را داد تا به این مرحله از علم رسیده و در تمام مراحل زندگیم مرا یاور و قوت قلب بود. از زحمات استاد گرامیم آقای دکتر بهروز مینائی که راهنماییهای ایشان همواره راهگشا و پشتیبان اینجانب بوده است، قدردانی مینمایم. همچنین از مادرم و آقایان سیاوش نظریدوست و علیرضا محمودی نیز که در مراحل مختلف آمادهسازی پیکره لوتوس یاور من بودهاند سپاسگزارم.
مریم نظری دوست
اسفند ۱۳۹۱
چکيده :
پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصهسازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هممرجع را بررسی نماید، کمک شایانی به انجامِ موفقیتآمیز این وظایف خواهد نمود. روشهای تشخیص مرجعمشترک را میتوان به دو دستهی روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم نمود. روشهای زبانشناسی بیشتر به اطلاعات زبانشناسی نیاز دارند، البته مشکل این روشها این است که پر خطا و طولانی میباشند. از طرف دیگر روشهای یادگیری ماشین کمتر به اطلاعات زبانشناسی نیاز دارند و نتایج حاصل از آنها قابل اعتمادتر است. در این پایاننامه تلاش میکنیم تا فرآیند تشخیص مرجعمشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشارهها، عبارتهای هممرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانهگذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیشبینی عبارتهای اسمی هممرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکرهای با نشانههایی شامل محدودهی اشاره، نوع اشاره، هستهی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه میکنیم، این پیکره میتواند به عنوان اولین پیکره دارای نشانههای اشاره و هممرجعی، مبنای کار بسیاری از پژوهشهای مربوط به شناسایی و کشف اشاره و تحلیل هممرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویتهای میان اشارهها، سیستمی ارائه میکنیم که اشارههای موجود در متن را شناسایی کرده و سپس نمونههای مثبت و منفی را از پیکره لوتوس استخراج میکند. در نهایت نیز با استفاده از الگوریتمهای یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونههای حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان میدهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.
کلمات کليدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی
فهرست مطالبعنوانصفحهفصل ۱: آشنایی با تشخیص مرجع مشترک……………………… ………………………… ………………………… ……………………………………………………..۱
1-۱. مقدمه و بیان مسئله1
1-2. بررسی ارتباطات هممرجعی6
1-2-1. هممرجع در مقابل پیشایند9
1-۲-1-۱. ارتباط هممرجع.۱0
1-۲-1-2. ارتباط پیشایندی11
1-۲-۲. تحلیل پیشایند16
1-۲-۳. تحلیل مرجع مشترک16
1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی۱7
1-3.جمعبندی20
فصل 2 : بخش اول21
2-1-۱. پیشینه تشخیص مرجع مشترک21
2-1-۲. روشهای زبانشناسی22
2-1-۲-1. فاکتورهای حذف کننده23
2-1-۳-۲-۱. تطبیق جنس و عدد23
2-1-۳-۲-۱. تطبیق معنایی24
2-1-۲-۲. فاکتورهای امتیاز دهنده 24
2-1-۳-۲-۱. مشابهت نحوی24
2-1-۳-۲-۱. مشابهت معنایی25
2-1-۳-۲-۱. بارز بودن25
2-1-۳. روشهای یادگیری ماشین27
2-1-۳-۱. ویژگیها28
2-1-۳-۲. مدلهای جفت اشاره28
2-1-۳-۲-۱. رده بندی جفت عبارتهای اسمی32
2-1-۳-۲-۱-1. درخت تصمیم33
2-1-۳-۲-۲.افراز35
2-1-۳-۲-۲-۱.درختِ بل36
2-1-۳-۲-۲-۲. افراز گراف38
2-1-۳-۳. روشهای مبتنی بر پیکره40
2-1-۳-۴. روشهای جایگزین44
2-1-۳-۴-۱. روش همآموزی44
2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول46
2-1-۳-۴-۳. رتبهبندی47
2-1-۳-۴-۴. فیلدهای تصادفی شرطی49
2-1-۳-۴-۵. خوشهبندی51
2-1-۴. جمعبندی56
فصل 2: بخش دوم57
2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هممرجع58
2-2-۲. پیکره بیژنخان59
2-2-۳. پیکره لوتوس60
2-2-۴.شیوههای نشانهگذاری پیکره لوتوس62
2-2-۴-۱. نشانهگذاری انواع موجودیتها62
2-2-۴-۱-۱. موجودیت شخص64
2-2-۴-۱-۲. موجودیت سازمان64
2-2-۴-۱-۳. موجودیت مکان66
2-2-۴-۱-۴. موجودیت سیاسی66
2-2-۴-۲.کلاس هر موجودیت68
2-2-۴-۲-۱.غیر ارجاعی69
2-2-۴-۲-۲.ارجاعی69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی69
2-2-۴-۲-۲-۲.ارجاعی خاص70
2-2-۴-۲-۲-۳.ارجاعی عمومی70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده70
2-2-۴-۳.انواع اشاره/سطوح اشاره71
2-2-۴-۳-۱.اشاره ساده72
2-2-۴-۳-۱-۱.محدوده اشاره72
2-2-۴-۳-۱-۲. هسته اشاره72
2-2-۴-۳-۱-۳.انواع اشاره ساده72
2-2-۴-۳-۲.ساختارهای پیچیده74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل75
2-2-۵.جمعبندی75
فصل 3: الگوریتمهای پیشنهادی76
3-۱. رده بندی دودویی76
3-1-1.جدا کنندههای خطی77
3-1-1-1 پرسپترون78
3-1-1-2 ماشین بردار پشتیبان80
3-1-1-3 درخت تصمیم85
3-۲.خوشهبندی88
3-2-1 .الگوریتمهای افراز بستهای89
3-2-1-1 .خوشهبندی سلسله مراتبی پایین به بالا90
3-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی93
3-3.جمعبندی96
فصل 4: سیستم ارزیابی97
4-۱.مقدمه97
4-۲.سیستم شناسایی اشاره لوتوس98
4-2-1 .بانک اطلاعاتی98
4-2-2.سیستم شناسایی اشاره102
4-3.تشخیص اشارههای هم مرجع103
4-3-1 ویژگیها104
4-3-2.الگوریتم یادگیری105
4-3-3.معیار ارزیابی107
4-3-4.نتیجه ارزیابی110
4-3-4-1.نتایج بدست آمده110
4-3-4-.2چالشها و تحلیل خطا112
4-4.جمعبندی115
فصل 5 :نتیجه گیری و پیشنهادها116
5-۱.نتیجهگیری116
5-2.پیشنهادها118
فصل .6 منابع121
فهرست جدولهاعنوانصفحهجدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع وپیشایند۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک23
جدول 2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک30
جدول 2-۳: معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند55
جدول 2-4: مشخصات مربوط به انواع موجودیتها62
جدول2-5: زیر گروههای موجودیت مشخص64
جدول2-6: زیر گروههای موجودیت سازمان65
جدول 2-7: زیر گروههای موجودیت مکان 66
جدول 2-8: زیر گروههای موجودیت سیاسی67
جدول 2-9: حالتهای خاص موجودیتهای سیاسی68
جدول 2-10: انواع طبقهبندی اشاره71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشارهها101
جدول 4-3: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک106
جدول 4-4: حالتهای ممکن نتایج یک ماشین یادگیر108
جدول 4-5: نتایج ارزیابی الگوریتمهای پایه مورد بررسی110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هستههای متفاوت111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدلهای متفاوت112
فهرست شکلهاعنوانصفحهشکل1-۱. انواع روابط ممکن میان دو عبارت اسمی 12
شکل1-۲. میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی۱6
شکل2-۱. نمونهای از نمونههای مثبت و منفی که توسط ۴.5C تولید شده است31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی 37
شکل2-3. شمایی از نشانهگذاری پیکره بیژنخان60
شکل2-4. شمایی از نشانهگذاری اشارههای هم مرجع در پیکره لوتوس62
شکل3-۱. شمایی از دادههای خطی و غیر خطی جداییپذیر77
شکل3-۲. الگوریتم پرسپترون میانگیندار80
شکل3-3. نمونهای از یک درخت تصمیمگیری86
شکل3-4.الگوریتم C5 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع92
شکل3-6. الگوریتم خوشهبندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشهبندی حریصانه 94
شکل3-8.الگوریتم بروزرسانی 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس99
شکل4-2 :شمای کلی سیستم شناسایی اشاره102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان103
شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی107
شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی111
فهرست علائم و اختصارات
ACEAutomatic Content Extraction ADRAddress Sub Entity AIArtificial IntelligenceANAAnaphorANTAntecedentAPPApposition Construction mention type ARAnaphora Resolution BARBare Sub Entity BNDBoundary Sub Entity CLSCelestial Sub Entity CLUSCluster Sub Entity COMCommercial Sub Entity CONTContinent Sub Entity CRCoreference ResolutionDISDistrict Sub Entity EDUEducational Sub Entity EMExpectation Maximization ENTEntertainment Sub Entity GENGeneral Entity classGOVGovernment Sub Entity GRGroup Sub Entity HLSHeadless nominal mention type IEInformation ExtractionINDIndividual Sub Entity IRInformation RetrievalJPEGeo political Entity LOCLocation Entity MDMention Detection MEDMedia Sub Entity MLMachine Learning MTMachine Translation MUCMessage Understanding NAMName mention NAMMHName which is head of mention NAMPOSPost modifier mention of name head NATNation Sub Entity NEGNegative Quantified Entity classNERNamed Entity RecognitionNGOVNon-government Sub Entity NOMHNominal which is head of mentionNOMHNominal mention NOMPOSPost modifier mention of nominal head NPNoun phraseORGOrganization Entity PERPersons Sub Entity POPPopulation Sub Entity PROPronominal mention PTVPortative Construction mention type RBFNRadial Basis Function NetworkREFRefential Entity classREGRegion Sub Entity RELReligious Sub Entity SPCSpecific Entity class SPESpecial Sub Entity SPOSport Sub Entity STATstate Sub Entity SVMSupport Vector MachineTLTTitle Sub Entity USPUnderspecified referential Entity class WATWater body Sub Entity WHOWH_Question Words and specific mention type
فصل اول
۱-۱.مقدمه و بيان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبيعي1»شاخهاي از علم «هوش مصنوعي2» است كه به ماشيني كردن فرآيند زبان شناسي سنتي میپردازد. به این ترتیب با استفاده از رايانه میتوان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون3، برچسبگذاری ادات سخن4، تعیین و ابهامزدایی از معانی واژگان5 و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامي اين حوزههاي جزئي بايد حل شوند تا در نهايت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و يا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها6 و کلان کاربردها7 افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار8 و … ) و یا در سطح کل متن (تشخیص هرزنامه9، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات10، تشخیص مرجع مشترک11 و ماشین ترجمه12 در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی13 و نحوی14) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن15 به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهاي از تکنیکهای ردهبندي16، خوشهبندی17 و قوانين وابستگي18 است و خروجی استخراج اطلاعات شامل، شناسايي موجوديتها19 ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديتها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، ميباشد.[71[ در نهایت ميتوان گفت كه خلاصه سازي، بازيابي اطلاعات20، دادهكاوي21، پرسش و پاسخ22 و درك زبان23 از جمله كاربردهاي اين سيستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایاننامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره24 به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژولهایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل میشود. روشهای موجود در این حوزه، به دو دسته روشهای زبانشناسی25 و روشهای یادگیری ماشین26 تقسیم میشوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی، مراجع کاندیدا تعیین میشود و سپس با به کارگیری مجموعهای از قواعد زبانشناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی میشوند و درنهایت کاندیدایی به عنوان مرجع برگزیده ميشود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبانشناسی مورد نیاز، فرآیندی زمانبر، پرهزینه و پر خطاست. البته با پیدایش پیکرههای27 زبانشناسی و موفقیت روشهای یادگیری ماشین در سایر حوزهها، روشهای زبانشناسی جای خود را به روشهای یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبانشناسی پیچیده و سطح بالای روشهای زبانشناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبانشناسی نیز میتوان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارتهای اسمی که به موجودیت28 ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشارههایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارتهای اسمی تحت عنوان اشاره29 و در قالب چهار گروه اصلی ضمایر30، اسامی خاص31، اسامی عام32 و غیر اشارهها33 قرار میگیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص میکند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]ميتوان گفت که فرآیند کشف اشاره، توسعه یافتهی فرآیند شناسایی موجودیتهای نامدار میباشد که علاوه بر شناسایی اسامی خاص، به شناسایی اسامی عام و ضمایر نیز میپردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیندهای شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزهی این پایاننامه است، ما عبارتهای اسمی را در قالب انواع اشارههای گفته شده در پیکرهای تحت عنوان لوتوس برچسبگذاری مینمائیم و نتيجهي آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایاننامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط ميان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایاننامه را معرفی می نمائیم. سيستم پیشهنادی براي شناسايي اشارههاي ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهايت در فصل پنجم نیز به نتيجه گيري و پيشنهاد كارهاي آتي در ادامهي اين پژوهش خواهيم پرداخت.
1-2.بررسی ارتباط هممرجعی
یکی از ویژگیهای خاص گفتمان این است که میتوان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارتها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی(بنیانگذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارتها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب میشود که زنجیرههای بالقوهای از تمام عبارتهای اسمیکه به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیانگذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیرهها در متن است که در فرآیند تحلیل مرجعمشترک انجام میپذیرد. برای شروع، مثال ۱ را در نظر بگیرید34:
مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشهی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.
اگر فرض کنیم که پیمانههای نشانهگذاری تا کشف اشاره به عنوان پیش پردازشهایی بر روی متن اجرا شوند، با اجرای این پیمانهها، انواع عبارتهای اسمیموجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانهگذاری میشوند. سپس با اجرای پیمانه تشخیص مرجعمشترک، ارتباطات میان این عبارتها و اطلاعات نهفته در مورد موجودیتهای شرکت کننده در متن آشکار میشود. به عنوان نمونه، میدانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره میکنند.
استفاده از اصطلاح موجودیت در تحلیل مرجعمشترک، این سؤال را مطرح میکند که چه چیزهایی موجودیت محسوب میشوند؟ تاکنون گروهبندیهای متعددی برای انواع موجودیتها ارائه شده است، به عنوان نمونه35ACE، یک تقسيم بندي هفت موجودیتی برای انواع موجودیتها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیتها و یا گاهي اوقات برخی از آنها را مورد مطالعه و بررسی قرار میدهند.
یکی از ویژگیهای تحلیل مرجعمشترک این است که علاوه بر انواع موجودیتهای رایج، ميتوانیم در حوزههای متفاوت از تعاریف پیش فرض خود نیز برای موجودیتها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجعمشترک در متون پزشکی پرداخته و بررسی موجودیتهایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
با توجه به آنچه تاکنون گفته شد، انتظار میرود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجعمشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی میکند در نظر گرفته نمیشود، چون منظور از «یک پژوهشگر» میتواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند ميتواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.
همان طور که مشاهده شد، تحلیل مرجعمشترک و تحلیل پیشایند دو مفهوم نزدیک به هم میباشند به طوری که عموماً به موازات تحلیل مرجعمشترک، با تحلیل پیشایند روبرو میشویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر میپندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمیو ایجاد ابهام در تحلیل متن میگردد.در این بخش، هدف ما بررسی هرکدام از این فرآیندها و مطالعه برخی از شباهتها و تفاوتهای میان این دو فرآیند میباشد.
1-۲-۱.هممرجع در مقابل پيشايند
برای اینکه بخواهیم یک سیستم تحلیل مرجعمشترک و یا یک سیستم تحلیل پیشایند را انتخاب کنیم لازم است ابتدا دو پدیده زبانشناسی پیشایند36 و هممرجع37 را به خوبی بشناسیم. شباهتها و تفاوتهای میان آنها را درک کنیم. همان طور که پیشتر نیز اشاره شد، اغلب دو عبارت پیشایند و هممرجع را به عنوان دو عبارت نزدیک یا گاهاً مترادف میشناسند به طوری که در بسیاری از پژوهشها این دو اصطلاح را به جای هم استفاده میکنند[59،85،90]
نخستین بار ارتباط میان عبارتهای اسمیتوسط کلرک38 در سال ۱۹۷۵ مطرح شد که آنرا تحت عنوان پلزنی پیشایند مطرح میکرد. [43] پس از آن هیرست39 در سال ۱۹۸۱، عبارت پیشایند را بیشتر به منظور تفسیر مخففها در متن به کار برد. هیرست معتقد بود پیشایند یک ابزار ساخت، در گفتمان است که با استفاده از آن یک مخفف به یک یا چند عبارت غیر مخفف که پیش از آن در متن آمدهاند، اشاره میکند تا به این ترتیب با استفاده از عبارتهای پیشین، عبارت مخفف تفسیر شود. مفهوم پیشایند با یک جفت عبارت همراه است که عموماً عبارت ارجاعدهنده را با عنوان «تالی40» و عبارت مفسر را با عنوان «مقدم41» یا «مرجع» میشناسیم. هیرست این دو عبارت ارجاع دهنده و مرجع را با هم «همارجاع42 » و فرآیند شناسایی یک مقدم برای یک تالی، را «تحلیل43» مینامد.[ 34]
در سال 1998 نيز هیرسکمن44 و چینکور45 اصطلاح هممرجع را کنفرانس تشخیص پیام46 یا به اختصار MUC استفاده کردند[24،59] آنها و بسیاری از پژوهشگران دیگر، زمانی دو عبارت را با یکدیگر هممرجع در نظر میگیرند که هر دو عبارت دقیقاً به یک موجودیت در دنیای واقعی اشاره داشته باشند. البته این پژوهشگران تفاوتی میان دو رابطهی هممرجعی و پیشایندی در نظر نگرفته بودند، تا اینکه این مسئله با انتقاد ون47 و کیبل48 مواجه شد به طوری که آنها این دو اصطلاح را از دیدگاهی دیگر مورد بررسی قرار دادند و برخي از نقاط مشترك و تفاوت هاي آنها را مطرح نمودند.[۵۸]
1-۲-۱-۱.ارتباط هممرجع:
ارتباط میان دو عبارت اسمیمانند ۱a و ۲a زمانی به عنوان ارتباط هممرجع در نظر گرفته میشود که هر دو عبارت اسمی به عنوان ارجاعهایی مشخص، یک موجودیت فرا زبانشناسی واحد را تفسیر نمایند. به واسطهی این تعریف نیاز است تا به طور جداگانه مرجع هرکدام از عبارت اسمیReference(ai) شناسایی شود. در نهایت یک ارتباط هممرجعی به صورت ذیل خواهد بود :
(۱) عبارات اسمی۱a و ۲a با یکدیگر هممرجع هستند اگر و تنها اگر Reference(a1)= Reference(a2) باشد.
مثال ۲: (باراک اوباما)۱Ant,، به سوریه سفر کرد. (او) ۱Ana, گفت…
جدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع و پیشایندهممرجعیپیشایندی۱) یک رابطه هممرجعی یک رابطهی هم ارزی است به عنوان نمونه «او» و «باراک اوباما» هر دو به یک موجودیت اشاره دارند.۱)یک رابطهی پیشایندی، متقارن نیست. به این معنا که اگر ۱a به عنوان مقدم برای 2a در نظر گرفته شود عبارت اسمی۲ a نمیتواند متقابلاً نقش مقدم را برای عبارت اسمی۱a ایفا نماید.
۲)رابطه هممرجعی یک رابطهی متقارن است، به این معنا که اگر «او» با «باراک اوباما» هممرجع است «اوباما» نیز با «او» هممرجع میباشد.۳)ارتباط میان عبارتهای اسمیهممرجع، متعدی است به این معنا که اگر «او» با «باراک اوباما» هممرجع است و «او» نیز با «رئیس جمهور آمریکا» هممرجع باشد بنابراین حتماً «باراک اوباما» نیز با «رئیس جمهور آمریکا» هممرجع میباشد.۲)رابطهی پیشایندی یک جفت از عبارتهای اسمیرا در نظر میگیرد به طوری که در این رابطهیک عبارت نقش مفسر و دیگری نقش ارجاع دهنده را دارند. بنابراین به طور ذاتی این رابطه غیرمتعدی میباشد. ۴) یک ارتباط هممرجعی یک ارتباط فرا متنی است به این معنا که تفسیر هیچ کدام از عبارتهای اسمیهممرجع به محتوای متن وابسته نمیباشد. به عبارت دیگر، دو عبارت هممرجع لزوماً برای تفسیر به یکدیگر وابسته نیستند.۳)این رابطه به محتوای متن حساس است به این دلیل که تالی یا عبارت ارجاعدهنده برای اینکه مفهوم باشد نیاز به مفسر یا تفسیر دارد.۵)یک رابطهی هممرجعی خالص میتواند در تحلیل مرجعمشترک در متون متقاطع به کار رود.۴)معمولاً تالی یا عبارت ارجاعدهنده در یک رابطهی پیشایندی، به دیگر اجزای تشکیلدهنده در همان جمله و یا نزدیکترین اظهارات ممکن در گفتمان اشاره دارد.۶) برخی از عبارتهای اسمیذاتاً با یکدیگر هممرجع هستند به عنوان مثال «پرفسور زاده» و «بنیان گذار منطق فازی»، این دو عبارت هر کجا که باشند به یک موجودیت به نام «پرفسور زاده» اشاره خواند داشت. به عبارت دیگر چنین ارتباطی یک ارتباط هممرجعی خالص نامیده میشود۵) یک تالی تنها نیاز به یک مفسر دارد تا آنرا تفسیر نماید بنابراین اگر چندین مفسر برای آن در متن وجود داشته باشد مناسبترین و نزدیکترین آنها انتخاب خواهد شد.۷)بیشتر برای استخراج اطلاعات در خصوص یک یا چند موجودیت در متن به کار میرود.۶) به درک بهتر متن و رفع ابهام برخی از واژگان در متن کمک میکند.1-۲-۱-۲.ارتباط پيشايندی:
یک ارتباط پیشایندی49، از یک جفت عبارت اسمی(۱aو۲a) تشکیل میشود به طوری که عبارت اول نقش مفسر را برای عبارت دوم ایفا نماید. بنابراین یک ارتباط پیشایندی به صورت ذیل تعریف میشود:
(2)عبارت اسمیاول(۱a) به عنوان مقدم برای عبارت اسمیدوم (۲a) در نظر گرفته میشود اگر و تنها اگر ۲a برای تفسیرش به ۱a وابسته باشد
مثال ۳: هنگامیکه پسر وارد (اتاق)Ant شد، (درب)Ana به طور خودکار بسته شد.
همانطور که در مثال۳ مشاهده میشود، دو عبارت اسمیفوق با یکدیگر هممرجع نمیباشند اما دارای یک مرجع گفتاری مشابه هستند یا به تعبیر [۶2] با یکدیگر همواژگان50 هستند. در این مثال، عبارت اسمی«درب» به عبارت اسمی«اتاق» وابستگی دارد (به عبارت بهتر، منظور از «درب»، دربِ اتاق ذکر شده است نه دربِ ساختمان یا دربِ خودرو یا هر دربِ دیگری)
در جدول1-۱ برخی از ویژگیهای هر کدام از روابط پیشایندی و هممرجعی را قرار دادهایم. توجه به این ویژگیها به درک بهتر نقاط تشابه و اختلاف این دو رابطه کمک فراوانی مینماید.
همچنين بايد اضافه كنيم كه دو عبارت اسمی میتوانند به طور همزمان هم رابطهی هممرجعی و هم رابطهی پیشایندی داشته باشند. البته این بدین معنا نیست که هرگاه دو عبارت اسمی با یکدیگر هممرجع باشند، با یکدیگر ارتباط پیشایندی نیز داشته باشند و یا بالعکس.
شکل 1-۱: انواع روابط ممکن میان دو عبارت اسمیشکل 1-۱، ارتباط میان دو عبارت اسمی را با در نظر گرفتن چند حوزه مشخص نمایش میدهد. ما این حوزهها را با توجه به مفاهیم هممرجعی و پیشایندی تفسیر خواهیم نمود. دو عبارت اسمیدر صورتی که با یکدیگر مرتبط باشند، میتوانند هم دارای ارتباط هممرجعی و هم دارای ارتباط پیشایندی باشند. مانند آنچه در مثال۴ آمده است.
مثال ۴: (علی کریمی)Ant,1 در نیمه دوم، ۲ گل به ثمر رساند. به طوری که به عنوان (محبوبترین بازیکن پرسپولیس)Ana.1 در این بازی تشویق شد.
در میان عبارتهای اسمیای که دارای چنین ارتباط دوجانبهای هستند میتوان به برخی از ضمایر و مراجع آنها نیز اشاره کرد. البته مثالهای ۵ و ۶ نشان میدهند که همه ضمایر و مراجعشان در این رابطه صادق نیستند.
مثال ۵: )هر سگیAnt( زندگی )خودشAna( را دارد.
مثال ۶: اگر (یک خانه)Ant داشتم (آن)Ana را به تو اجاره میدادم.
در مثال ۵، ارتباط میان «هر سگی» و «خودش» یک ارتباط پیشایندی از نوع «ارتباط دهنده51» یا «باهمآیی» میباشد؛ و یا در مثال ۶، «یک خانه» در دنیای واقعی وجود خارجی ندارد. بنابراین طبق تعریفِ ارتباطِ هممرجعی، «یک خانه» نمیتواند به عنوان هممرجع برای «آن» در نظر گرفتهشود.[76] همان طور که در شکل 1-۱ مشاهده میشود، عبارتهای اسمیکه از نوع پیشایندی هستند اما ارتباط هممرجعی ندارند در حوزه پیشایندهای «ارتباطدهنده» قرار میگیرند [80،87] اغلب پژوهشگران این نوع پیشایند را زمانی به کار میبرند که در جفت عبارت (مقدم و تالی)، عبارت مقدم به وضوح در متن ظاهر نشده باشد و با استفاده از برخی از موجودیتهایی که قبلاً در متن اشاره شده است میتوان وجود آنها را اثبات کرد. مثال ۳، یک نمونه مناسب برای این نوع از پیشایندها میباشد. در این مثال ارتباط میان دو عبارت «درب» و «اتاق» از نوع مرونیمیک52 است به این معنا که «درب» جزئی از «اتاق» محسوب میشود.53
یکی دیگر از انواع ارتباط پیشایندی، پیشایند صفر54 است. مثال ۷ نمونهای از این ارتباط را نشان میدهد.
مثال ۷: (دو جاده به سمت اصفهان)Ant میرود، (یکی اتوبانی و سریع)Gap1 و (دیگری خاکی و خطرناک)Gap2 است.
در حقیقت پیشایندهای صفر، یکی از انواع پیشایندهای کاهش یافته میباشند به این ترتیب که لزوماً به صورت عبارتهای اسمی نیستند بلکه به صورت یک شکاف در یک عبارت ظاهر میشوند.[35] در مثال۷ منظور از «اتوبانی و سریع» و «خاکی و خطرناک»، دو جادهای است که به سمت اصفهان میروند. هدف از تحلیل پیشایندهای صفر، شناسایی چنین روابطی است.
یکی از حالتهای ارتباط پیشایند صفر، ضمایر صفر55 میباشد که تحلیل آن در برخی زبانها مانند ژاپنی[92]، اسپانیایی[62] و حتی پارسی بسیار حیاتی است. در این نوع از پیشایندها، يكي از اركان در جفت(مقدم،تالي) حذف میشود. نمونهای از این نوع پیشایند، مثال ۶ میباشد که منظور از گوینده چنین است: «اگر من یک خانه داشتم آنرا به تو اجاره میدادم».
در نهایت دو عبارت اسمیمیتوانند تنها از نوع هممرجع خالص56باشند. ما این ارتباط را با مثال «پرفسور زاده»، «پدر منطق فازی» و «بنیانگذار منطق فازی» تفسیر مینماییم. همان طور که میدانید هر سه عبارت مذکور به شخص«پروفسور لطفعلی عسگرزاده» اشاره دارند اما اگر عبارت اسمیاول، یعنی «پرفسور زاده» در متن عنوان نشود، باز هم میدانیم که عبارتهای اسمی «پدر منطق فازی» و «بنیانگذار منطق فازی» با یکدیگر هممرجع هستند. نمونهی دیگری از یک ارتباط هممرجعِ خالص، ارجاع انواع عبارتهای اسمیبه «باراک اوباما»، در پاراگرافها، مکالمات با حتی متون متمایز است. اغلب نمونههایی از روابط هممرجع خالص در مستندات متقاطع مشاهده میشود. با تکیه بر این مفهوم برخی از پژوهشگران مانند [88] به تحلیل مرجعمشترک در متون متقاطع پرداختهاند.
نکتهی دیگر اینکه، در همه پژوهشهایی که برای شناسایی مرجع ضمیر در زبانهایی مانند انگلیسی انجام شده است، همیشه مرجع ضمیر پیش از ضمیر قرار میگیرد. اما در زبان پارسی این امکان وجود دارد که مرجع یک ضمیر پس از آن قرار گیرد. مثال ۸ ، نمونهای از زبان پارسی میباشد که این مسئله را نشان میدهد.
مثال ۸: سی.ان.ان به آمریکا و جهان چنان شوکی وارد کرد که حتی (خود)Ana,1( ترنر)Ant,1 نیز آنرا باور نمیکرد.
بطورکلی، آنچه مبرهن است برای شناسایی و بررسی هر کدام از روابط پیشایندی و یا هممرجعی، نیاز به دانشهای واژگانی و زبانشناسی در زبان مورد نظر میباشد. به طوری که هر چقدر یک رابطه هممرجعی بیشتر پیشایندی باشد به دانش زبانشناسی بیشتری نیاز دارد. در همین راستا، شکل 1-۲، میزان ارتباط میان حوزههای گفته شده را با هر کدام از انواع دانشهای زبانشناسی و واژگانی نمایش میدهد.
شکل 1-۲: میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی1-۲-۲.تحليل پيشايند:
یکی از وظایف مهم پردازش زبان طبیعی است که موجب کاهش ابهام عبارتهای اسمی به کار رفته در متن میشود. به طور کلی این فرآیند وابستگی و پیوند میان دو عبارت تالی و مقدم را به گونهای تشخیص میدهد که عبارت مقدم، عبارت تالی را تفسیر نماید.
1-۲-۳.تحليل مرجعمشترک:
با توجه به آنچه گفته شد، تحلیل مرجعمشترک، به فرآیند مرتبط کردن تمام عبارتهایی گفته میشود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارتهای اسمیهممرجع، با هم تشکیل یک زنجیره واحد را میدهند که شامل ضمایر صفر تا اسامیخاص خواهد بود. تمام اعضای تشکیل دهندهی این زنجیره باید از نظر تعداد، جنس و… با یکدیگر هم تراز باشند.
1-۲-۴.تقابل تحليل مرجعمشترک و تحليل پيشايندی:
با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجعمشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب میشوند. بدینترتیب که با به کارگیری فرآیند تحلیل مرجعمشترک، سیستم میتواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن میانجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزههای تشابه و اختلاف آنها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با استفاده از مثالهایی لزوم اجرای این دو فرآیند را در کنار یکدیگر بررسی میکنیم.
پس از شناخت فرآیندهای تحلیل مرجعمشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرآیند را مشخص نماییم. استفاده از الگوریتمهای یادگیری، از پرکاربردترین روشهای ارائه شده برای شناسایی روابط مثبت و منفی در مرجعمشترک و پیشایند میباشد. به این ترتیب که الگوریتم با استفاده از برخی ویژگیها (مانند [105]( آموزش میبیند تا روابط مثبت و منفی را پيشبینی نماید57. البته شایان ذکر است که برخی از ویژگیها برای این دو فرآیند مشترک و برخی دیگر متفاوت میباشد. به عنوان مثال ویژگی تطابق رشتهای58 از جمله مواردی است که برای تحلیل مرجعمشترک بسیار مورد توجه قرار گرفته است اما در فرآیند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه میتوانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمیکه در یک متن تکرار میشوند به احتمال خیلی زیاد هممرجع هستند.
مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.
همان طور که در مثال ۹ مشاهده میشود، عبارت اسمی«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشتهای در فرآیند تحلیل مرجعمشترک این دو عبارت با یکدیگر هممرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هممرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجعمشترک محسوب میشود. در حالی که استفاده از فرآیند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیکترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را میدهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونهایست که در آن دقتِ59 تحلیل پیشایندی از تحلیل مرجعمشترک پیشی میگیرد.
طبق آنچه در فرآیند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارتهای اسمیماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارتهای (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرآیند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی مینماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار میگیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمیتواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفهی تحلیل مرجعمشترک، با شناسایی عبارتهای هممرجع، تا حد زیادی این مشکل را برطرف خواهد نمود. حرکت الگوریتم در تحلیل مرجعمشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه شروع آن میتواند انتهای متن باشد، هر عبارت اسمیجدید که با عبارتهای پیش از خود هممرجع باشد به زنجیرههای موجود اضافه میشود، در غیر این صورت خودش تشکیل زنجیرهای جدید را خواهد داد. در چنین حالتی فراخوانی60 و دقت در تحلیل مرجعمشترک نسبت به تحلیل پیشایندی پیشی میگیرد.
به همین ترتیب نیز راهکارهای ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت میباشد. به عنوان نمونه یک رویکرد در فرآیند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفتهای (مقدم و تالی) صورت میگیرد. به این ترتیب که پس از ایجاد نمونههای مثبت و منفی که عموماً توسط یک ردهبند ایجاد میشوند، نزدیکترین و مناسبترین مقدم برای تالی مورد نظر مشخص میشود. در مقابل برخی پژوهشگران برای تحلیل مرجعمشترک را یک فرآیند دومرحلهای در نظر میگیرند؛ در مرحلهی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب61» و یا «اشاره» جایگزین میشود. هر اشاره میتواند خروجی فرآیند كشف و شناسایی اشاره باشد. توجیه این جایگزینی این است که ما در تحلیل مرجعمشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین مینماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیتها در نظر گرفته میشود و میتواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارتهای موجود در متن که برای تحلیل مرجعمشترک کاربرد ندارند، به عنوان خارج از اشاره62 در نظر گرفته میشوند. در مرحلهی دوم نیز فرآیند تحلیل عبارتهای اسمیهممرجع انجام خواهد شد.
1-3.جمعبندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هممرجع در متن میباشد. در پژوهشهای انجام شده گاهی یک ارتباط هممرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب میشود. حتی گاهی ما یک ارتباط را هممرجع میپنداریم که هممرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکرهای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکرهای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت میتواند به انتخاب راهکارهای مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهايت نيز شناخت روابط و راهكارهاي مناسب براي تشخيص هر كدام از انواع روابط ميان عبارتهاي اسمي مرتبط با هم، مي تواند به ايجاد يك سيستم چند گذري، مانند آنچه لي 2011، بنسکو2012 ارائه داده اند كمك كند. [41،80]به اين ترتيب كه در هر گذر، يكي از انواع و حالتهاي موجود مورد بررسي و تحليل قرار گيرد و در نهايت با اجماع نتايج حاصل شده، فرايند تحليل اتمام يابد.
فصل دوم
بخش اول
2-۱-1. پيشينه تشخيص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشارههایی) که به یک موجودیت واحد اشاره دارند، همراه میباشد.[58]به این ترتیب که

قیمت: تومان
