ازي استخراج شده در بهبود کيفيت ترجمه ماشيني بررسي مي‌شود.
فهرست مطالب
عنوان صفحه
1. مقدمه 2
1-1. مقدمه 2
1-1-1. ترجمه ماشيني مبتني بر فرهنگ لغت 3
1-1-2. ترجمه ماشيني مبتني بر قانون 4
1-1-3. ترجمه ماشيني مبتني بر دانش 5
1-1-4. ترجمه ماشيني مبتني بر پيکره 5
ترجمه ماشيني آماري 6
ترجمه ماشيني مبتني بر مثال 6
ترجمه ماشيني مبتني بر متن 7
1-2. ضرورت ساخت پيکره موازي 7
1-3. مسئله تحقيق: ساخت پيکره موازي 9
1-4. هدف تحقيق: ساخت پيکره موازي از روي پيکره تطبيقي 10
1-5. سرفصل‌ها 10
1-5-1. فصل دوم: مباني نظري 10
1-5-2. فصل سوم: مروري بر تحقيقات انجام شده 11
1-5-3. فصل چهارم: مدل پيشنهادي 11
1-5-4. فصل پنجم: ارزيابي و نتيجه گيري 12
2. مباني نظري 14
2-1. پيکره 14
2-1-1. پيکره موازي 15
2-1-2. پيکره تطبيقي 17
2-2. همترازي 18
2-2-1. همترازي در سطح سند 19
2-2-2. همترازي در سطح جمله 19
2-2-3. همترازي در سطح کلمه (همترازي لغوي) 21
همترازي لغوي با استفاده از مدل‌هاي آي‌بي‌ام 22
2-3. ارزيابي ترجمه ماشيني 23
2-3-1. بلو 23
2-3-2. متريک NIST 24
2-3-3. نرخ خطاي کلمه 24
2-3-4. نرخ خطاي ترجمه (TER) 25
3. مروري بر تحقيقات انجام شده 28
3-1. مقدمه 28
3-2. ساخت پيکره موازي از روي متون هم‌ترجمه 28
3-3. استخراج جملات موازي از وب 30
3-4. استخراج جملات موازي از پيکره‌هاي تطبيقي 32
3-5. تشخيص جملات موازي با استفاده از طبقه‌بند آنتروپي بيشينه 34
3-6. ساخت پيکره موازي انگليسي – فارسي 36
4. مدل پيشنهادي 39
4-1. مقدمه 39
4-2. انتخاب جفت جملات کانديد موازي بودن 40
4-2-1. فيلتر کلمات مشترک 41
تبديل کدگذاري کاراکترها 42
مشخص کردن مرز جمله‌ها و کلمه‌ها 43
ريشه‌يابي 44
حذف کلمات پرتکرار 45
رفع ابهام 45
جستجوي معاني از ديکشنري 46
گروه بندي کلمات تکراري جمله به همراه تعداد رخدادشان در جمله 46
الگوريتم يافتن نرخ کلمات مشترک (از طرف مبدأ) 47
4-3. انتخاب جفت جملات موازي از بين جفت جملات کانديد 48
4-3-1. طبقه‌بند آنتروپي بيشينه 48
4-3-2. ويژگي‌هاي عمومي 49
ويژگي‌هاي مبتني بر طول دو جمله 49
نرخ کلمات مشترک 50
4-3-3. ويژگي‌هاي مبتني بر همترازي در سطح کلمه يک جفت جمله 50
کلمات همتراز نشده 50
باروري 51
محدوده پيوسته 52
نمره همترازي 53
4-4. بالا بردن دقت جفت جملات موازي استخراج شده 54
4-5. شيوه ارزيابي مدل 55
5. ارزيابي و نتيجه گيري 58
5-1. ارزيابي طبقه‌بند آنتروپي بيشينه 58
5-1-1. ارزيابي ويژگي‌ها 58
5-1-2. حساسيت به دامنه 60
5-2. تنظيمات و آزمايشات ساخت پيکره موازي از پيکره تطبيقي 63
5-2-1. پيکره تطبيقي مورد استفاده 63
پيکره تطبيقي فارسي – انگليسي دانشگاه تهران (UTPECC) 63
پيکره تطبيقي گرفته شده از مقالات ويکي پديا 65
5-2-2. پارامترهاي تنظيم شده و ابزار مورد استفاده 66
انتخاب جفت جملات کانديد: 66
انتخاب جفت جملات موازي: 68
بالا بردن دقت جفت جملات استخراج شده: 69
5-2-3. ارزيابي جملات موازي استخراج شده با استفاده از ماشين ترجمه 69
5-3. نتيجه گيري 72
5-4. پيشنهادات آينده 75
فهرست جداول
عنوان صفحه
جدول 5-1. مجموعه ويژگي‌ها 59
جدول 5-2. ارزيابي مجموعه ويژگي‌ها 59
جدول 5-3. حساسيت کارآيي طبقه‌بند به دامنه داده‌هاي آموزشي و آزمايشي 61
جدول 5-4. کارآيي طبقه‌بند در برابر داده‌هاي آزمايشي و آموزشي با دامنه‌هاي مختلف 62
جدول 5-5. شرح پيکره‌هاي آموزشي مورد استفاده در هر اجرا 70
جدول 5-6. نمره بلوي به دست آمده به ازاي پيکره‌هاي آموزشي متفاوت 71
جدول 5-7. نمره بلوي به دست آمده به ازاي پيکره‌هاي آموزشي متفاوت 72
جدول 5-8.ارزيابي ماشين‌ترجمه ساخته شده با پيکره‌هاي آموزشي متفاوت در قالب نرخ n-gram‌ هاي مشترک 72
فهرست شکل‌ها
عنوان صفحه
شکل 1-1. دسته‌بندي روش‌هاي ترجمه ماشيني 3
شکل 2-1. نمونه‌اي از دو متن همتراز شده در سطح جمله 20
شکل 2-2. همترازي لغوي بين دو جمله فارسي و انگليسي در شکل گراف دو بخشي 21
شکل 2-3. همترازي لغوي بين دو جمله فارسي و انگليسي در شکل جدول همترازي 21
شکل 2-4. مثالي از نحوه محاسبه نمره TER 25
شکل 4-1. شماي کلي مدل توليد پيکره موازي از روي پيکره تطبيقي 40
شکل 4-2. کلمات مشترک بين دو جمله فارسي و انگليسي 41
شکل 4-3. الگوريتم يافتن نرخ کلمات مشترک 47
شکل 4-4. همترازي در سطح کلمه بين دو جمله غيرموازي 52
شکل 4-5. همترازي در سطح کلمه بين دو جمله موازي 53
شکل 4-6. فرآيند ارزيابي جفت جملات موازي استخراج شده 56
شکل 5-1. نمونه‌اي از سه سند خبري جفت شده در پيکره تطبيقي فارسي-انگليسي دانشگاه تهران 64
شکل 5-2. کلمات پرتکرار انگليسي 67
فصل اول
مقدمه
مقدمه
مقدمه
به دليل افزايش ارتباطات متقابل منطقه‌اي و نياز براي تبادل اطلاعات، تقاضا براي ترجمه زبان بسيار افزايش يافته است. بسياري از نوشتجات نياز به ترجمه دارند از جمله مستندات علمي و فني، دستورالعمل‌هاي راهنما، مستندات حقوقي، کتاب‌هاي درسي، بروشورهاي تبليغاتي، اخبار روزنامه‌ها و غيره؛ که ترجمه برخي از آنها سخت و چالش برانگيز است اما اکثرا خسته کننده و تکراري هستند و در عين حال به انسجام و دقت نياز دارند. برآوردن نيازهاي روز افزون ترجمه براي مترجمان حرفه‌اي دشوار است. در چنين موقعيتي ترجمه ماشيني مي‌تواند به عنوان يک جايگزين به کار گرفته شود.
ترجمه ماشيني بعد از 65 سال يکي از قديمي‌ترين کاربردهاي کامپيوتر است. در طول سال‌ها، ترجمه ماشيني مرکز توجه تحقيقات زبان‌شناسان، روان‌شناسان، فيلسوفان، دانشمندان و مهندسان علم کامپيوتر بوده است. اغراق نيست اگر بگوييم کارهاي جديد در حوزه ترجمه ماشيني، به طور قابل ملاحظه‌اي در توسعه زمينه‌هايي نظير زبان شناسي رايانه‌اي، هوش مصنوعي و پردازش زبان‌هاي طبيعي برنامه‌گرا، مشارکت کرده است.
ترجمه ماشيني را مي‌توان به اين صورت تعريف کرد: “ترجمه از يک زبان طبيعي (زبان مبدأ) به زبان ديگر (زبان مقصد) با استفاده از سيستم‌هاي کامپيوتري شده و به همراه يا بدون کمک انسان”. کار پژوهشي در حوزه ترجمه ماشيني به هدف بزرگ ترجمه تمام خودکار با کيفيت بالا (قابل نشر) محدود نمي‌شود. غالبا ترجمه‌هاي ناهموار براي بازبيني موضوعات خارجي کافي است. تلاش‌هاي اخير، در جهت ساخت کاربردهاي محدودي در ترکيب با تشخيص گفتار به خصوص براي دستگاه‌هاي دستي مي‌باشند. ترجمه ماشيني مي‌تواند به عنوان پايه‌اي براي ويرايش‌هاي بعدي به کار گرفته شود، مترجم‌ها معمولا با ابزارهايي نظير حافظه‌هاي ترجمه که از فناوري ترجمه ماشيني استفاده مي‌کنند اما آنها را در کنترل خود قرار مي‌دهند، استفاده مي‌کنند.
ترجمه ماشيني يکي از حوزه‌هاي پژوهشي “زبانشناسي رايانه‌اي” است. تا کنون روش‌هاي مختلفي جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشيني به صورت‌هاي مختلفي دسته‌بندي شده‌اند. شکل 1-1 انواع روش‌هاي ترجمه ماشيني موجود را در قالب دسته‌بندي که در [1] آمده است نشان مي‌دهد.
دسته‌بندي روش‌هاي ترجمه ماشيني
ترجمه ماشيني مبتني بر فرهنگ لغت1
اين نوع ترجمه ماشيني مبتني بر مدخل‌هاي فرهنگ لغت است؛ و در آن از معادل کلمه جهت توليد ترجمه استفاده مي‌شود. اولين نسل ترجمه ماشيني (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبناي فرهنگ لغت‌هاي الکترونيک بودند. اين روش همچنان تا حدي در ترجمه عبارات و نه جملات مفيد است. اکثر روش‌هايي که بعدا توسعه داده شدند کم يا بيش از فرهنگ لغات دوزبانه بهره مي‌گيرند [1].
ترجمه ماشيني مبتني بر قانون2
ترجمه ماشيني مبتني بر قانون با اطلاعات ريخت شناسي، نحوي و معنايي زبان‌هاي مبدأ و مقصد سر و کار دارد. قوانين زباني از اين اطلاعات ساخته مي‌شوند. اين روش مي‌تواند با پديده‌هاي مختلف زباني مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتي به اين سيستم مي‌افزايد. همچنين فرآيند پژوهشي آن نياز به سرمايه‌گذاري زيادي دارد. هدف ترجمه ماشيني مبتني بر قانون تبديل ساختارهاي زبان مبدأ به ساختارهاي زبان مقصد است. اين روش رويکردهاي مختلفي دارد.
رويکرد مستقيم3: کلمات زبان مبدأ بدون عبور از يک نمايش مياني ترجمه مي‌شوند. در اين روش به بستر متن، معني و دامنه توجه نمي‌شود.
رويکرد انتقالي4: مدل انتقالي متعلق به نسل دوم ترجمه ماشيني است (از اواسط دهه 1960 تا دهه 1980). در اين مدل، زبان مبدأ به يک انتزاع که نمايشي کمتر مختص به زبان است، انتقال مي‌يابد. سپس يک نمايش معادل براي زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانين گرامري توليد مي‌شود.
ميان زباني5: اين روش متعلق به نسل سوم ترجمه ماشيني است. در اين روش زبان مبدأ به يک زبان (نمايش) مياني تغيير شکل مي‌دهد که اين زبان مياني مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه براي زبان مقصد از اين نمايش کمکي به دست مي‌آيد. از اينرو در اين نوع سيستم تنها به دو ماژول تجزيه و ترکيب نياز است. همچينن به دليل مستقل بودن اين روش از زبان‌هاي مبدأ و مقصد، بيشتر در ماشين‌هاي ترجمه چندزبانه استفاده مي‌شود. اين روش بر يک نمايش واحد از زبان‌هاي مختلف تأکيد مي‌کند.
ترجمه ماشيني مبتني بر دانش6
اين روش با واژه‌نامه‌اي مفهومي‌که يک دامنه را نشان مي‌دهد سر و کار دارد. اين روش شامل دو مرحله تحليل و توليد است. اجزاي پايه‌اي يک ماشين ترجمه مبتني بر دانش عبارتند از يک آنتولوژي از مفاهيم، واژه‌نامه و گرامر زبان مبدأ براي فرآيند تحليل، واژه‌نامه و گرامر براي زبان مقصد و قوانين نگاشت بين نحو زبان مياني و زبان‌هاي مبدأ و مقصد.
ترجمه ماشيني مبتني بر پيکره7
رويکرد ترجمه ماشيني مبتني بر پيکره‌هاي متني از سال 1989 ظهور پيدا کرد و به طور وسيعي در حوزه ترجمه ماشيني به آن پرداخته شد؛ و به دليل دقت بالاي اين روش در ترجمه، بر ديگر روش‌ها غلبه يافت. در اين روش، دانش يا مدل ترجمه به طور خودکار از پيکره‌هاي متني (مجموعه متون) دوزبانه گرفته مي‌شود. از آنجايي که اين رويکرد با حجم زيادي از داده‌ها کار مي‌کند، ترجمه ماشيني مبتني بر پيکره ناميده شده است. برخي از انواع روش‌هاي مبتني بر پيکره در ادامه شرح داده مي‌شوند.
ترجمه ماشيني آماري8
با اينکه ايده اوليه ترجمه ماشيني آماري توسط وارن ويور در سال 1941 معرفي شد، اما از سال 1993 که اين روش توسط محققان آي بي ام مدل شد به طور گسترده‌اي مورد استفاده قرار گرفت؛ به طوري‌که در حال حاضر ترجمه ماشيني آماري رايج‌ترين رويکرد در ترجمه ماشيني به شمار مي‌آيد. در روش ترجمه ماشيني آماري از مدل‌هاي آماري استفاده مي‌شود که پارامترهاي اين مدل‌ها از متون دوزبانه يا همان “پيکره‌هاي موازي” استخراج مي‌شوند. به عبارت ديگر سيستم ترجمه ماشيني آماري، احتمالات ترجمه را از پيکره موازي مي‌آموزد و با استفاده از اين احتمالات براي جملات ورودي که در فرآيند آموزش ديده نشده‌اند، ترجمه‌اي مناسب توليد مي‌کند. در اين روش از دو مدل عمده به نام مدل‌هاي مبتني بر کلمه و مدل‌هاي مبتني بر عبارت استفاده مي‌شود.
ترجمه ماشيني مبتني بر مثال9
روشهاي ترجمه ماشيني مبتني بر مثال، روشهاي مبتني بر حافظه10 نيز ناميده شده‌اند. ايده اين روش از سال 1980 در ژاپن شروع شد. اين نوع سيستم‌ها تلاش مي‌کنند تا جمله‌اي مشابه جمله ورودي در پيکره موازي پيدا کنند، و سپس با اِعمال تغييراتي بر روي جمله ترجمه شده که قبلا

دسته بندی : No category

دیدگاهتان را بنویسید