ذخيره شده، ترجمه جمله ورودي را توليد کنند.
ايده اوليه در اين روش، استفاده از ترجمه‌هاي انساني موجود براي ترجمه متن‌هاي جديد است. لذا کافي است متون جديد به قطعه‌هاي کوچک شکسته شود و ترجمه معادل اين قطعات، در پايگاه داده‌اي از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر توليد گردد. اين روش داراي محدوديت دادگان مي‌باشد. جمع‌آوري مجموعه مثال‌هاي بسيار بزرگ نيز کل زبان را پوشش نمي دهد. بنابراين معمولا اين روش براي زير مجموعه‌هاي محدودي از يک زبان استفاده مي‌شود.
ترجمه ماشيني مبتني بر متن11
ترجمه ماشيني مبتني بر متن نوعي از ترجمه ماشيني مبتني بر پيکره است که نه به قوانين و نه به پيکره‌هاي موازي نياز دارد. در عوض اين روش براي اجراي الگوريتم خود به يک پيکره عظيمي از متون تک زبانه (به زبان مقصد)، يک فرهنگ لغت دوزبانه کامل و به صورت اختياري يک پيکره تک زبانه از متون مبدأ (جهت بهبود کيفيت ترجمه) نياز دارد. اين روش يک رويکرد جديد براي ترجمه‌هاي ماشيني مبتني بر پيکره است.
ضرورت ساخت پيکره موازي
در طول چند قرن گذشته، ماشين‌ها در بسياري از کارهاي انسان به کار گرفته شده‌اند، و اخيرا با ظهور کامپيوترهاي ديجيتالي حتي کارهايي که نياز به فکر و هوش دارند توسط ماشين‌ها انجام مي‌شود. ترجمه بين زبان‌ها نيز يکي از اين کارهاست، کاري که حتي انسان‌ها هم براي انجام آن نياز به آموزش‌هاي ويژه دارند.
ترجمه ماشيني سابقه بسيار طولاني دارد، اما در يکي دو دهه اخير تحولش در مسير جديدي صورت گرفت- مسيري که در ديگر رشته‌هاي وابسته به پردازش زبان‌هاي طبيعي منعکس شده است. اين مسير جديد بر اين فرض مبتني است که زبان بسيار غني و پيچيده است، در نتيجه هيچ گاه نمي توان زبان را به طور کامل در قالب مجموعه‌اي از قوانين -که بصورت يک برنامه کامپيوتري کد شده در مي‌آيد- خلاصه کرده و تجزيه و تحليل کرد. در عوض، مسير جديد در جهت توسعه يک ماشين است که قوانين ترجمه را به طور خودکار از يک پيکره بزرگ از متون ترجمه شده کشف مي‌کند، و اين کار را با جفت کردن ورودي و خروجي فرآيند ترجمه و با يادگيري از روي آمارهاي مربوط به داده‌ها انجام مي‌دهد.
ترجمه ماشيني آماري شتاب فوق العاده‌اي را هم در جامعه پژوهشي و هم در بخش تجاري به دست آورده است. نزديک به يک هزار مقاله آکادميک بر روي اين موضوع منتشر شده است که حدود نيمي از آن تنها مربوط به سه سال گذشته است. در همين زمان، سيستم‌هاي ترجمه ماشيني آماري راهشان را در بازار کار پيدا کرده‌اند، از زبان ويور، اولين شرکت ترجمه آماري محض گرفته تا سيستم‌هاي آنلاين آزاد گوگل و مايکروسافت.
همانطور که گفته شد، مرز دانش در ترجمه ماشيني برپايه رويکردهاي آماري است که يک فرآيند داده محور است. در نگاه به ترجمه به عنوان يک مسئله يادگيري ماشين، الگوريتم ترجمه ماشيني آماري قوانين ترجمه را از متون ترجمه شده قبلي ياد مي‌گيرد [2]. بنابراين کارآيي سيستم به شدت به کيفيت و کميت پيکره مورد استفاده براي يادگيري بستگي دارد. عموما، متن‌هاي دوزبانه بزرگ‌تر منجر به کارآيي بيشتر مي‌شوند. سيستم‌هاي ترجمه ماشيني آماري از متن‌هاي دوزبانه موازي براي مدل ترجمه و از پيکره‌هاي تک زبانه براي مدل کردن زبان مقصد به عنوان مواد آموزشي استفاده مي‌کنند. برخلاف اينکه داده‌هاي تک زبانه کافي براي اکثر زبان‌ها وجود دارد، داده‌هاي موازي بسيار کمياب هستند.
ثابت شده است که پيکره متني، يک منبع ضروري براي ترجمه ماشيني آماري است [3,4] همانطور که براي ديگر برنامه‌هاي کاربردي پردازش زبان‌هاي طبيعي از جمله براي ساخت و توسعه واژه‌نامه‌هاي دوزبانه و مجموعه اصطلاحات دوزبانه ضروري مي‌باشد. با اين حال غير از تعداد کمي از زبان‌ها مانند فرانسوي-انگليسي، انگليسي-عربي و انگليسي-چيني و زمينه‌هاي معدودي از جمله مذاکرات پارلماني و متون حقوقي، مانند شرح مذاکرات مجلس کانادا يا اروپا [5]، و يا سازمان ملل متحد، منابع کمي باقي مي‌ماند، که اغلب به دليل هزينه‌هاي انساني و مالي است که براي توليدشان نياز است. بعلاوه اصطلاحات مخصوص صنفي به کاررفته در اينگونه پيکره‌ها براي ترجمه‌هاي روزمره و يا ترجمه در ديگر زمينه‌ها مناسب نيستند؛ بنابراين نياز شديدي براي پيکره‌هاي موازي بيشتر که مناسب ترجمه‌هاي منطبق بر دامنه هستند احساس مي‌شود.
پيکره موازي براي ترجمه ماشيني بايد در اندازه بسيار زياد باشد – بيليون‌ها جمله – تا بتواند موثر باشد. و به همين دليل است که در زبان فارسي با مشکل روبه رو هستيم. به دليل کمبود شديد مواد زباني ذخيره شده بصورت ديجيتال و مستندات موازي برخط، ساخت پيکره موازي فارسي بسيار سخت است [6].
مسئله تحقيق: ساخت پيکره موازي
همانطور که گفته شد ترجمه ماشيني آماري رايج‌ترين رويکرد ترجمه ماشيني در حال حاضر است. از طرفي پيکره‌هاي موازي اصلي‌ترين منابع براي ترجمه ماشيني آماري هستند، اما اين در حالي است که اکثريت زبان‌هاي طبيعي با کمبود اين منابع مهم روبه‌رو هستند. از اينرو تلاش براي ساخت پيکره‌هاي موازي جهت بهبود ترجمه ماشيني ضروري به نظر مي‌رسد.
يک راه براي غلبه بر اين کمبود منابع، توليد ترجمه‌هاي انساني بيشتر است، اما اين يک گزينه بسيار پرهزينه است، هم از نظر زمان و هم از نظر مالي؛ اما با اين حال به دليل اهميت بسيار زياد پيکره‌هاي موازي براي ترجمه ماشيني برخي از پيکره‌هاي موازي از اين طريق ساخته شده‌اند [7]. راه ديگر استفاده از متون از قبل ترجمه شده است از جمله کتاب‌هاي ترجمه شده الکترونيکي [8] و يا کتابچه‌هاي راهنماي چندزبانه الکترونيکي [9]، اما تعداد اينگونه منابع الکترونيکي به خصوص براي زبان فارسي بسيار کم است. گزارشات پارلماني و متون حقوقي مانند شرح مذاکرات پارلماني سازمان ملل متحد، اروپا و کانادا نيز از اصلي‌ترين نوع منابع از قبل ترجمه شده براي توليد پيکره‌هاي موازي محسوب مي‌شوند که زبان فارسي فاقد اين گونه منابع است. در برخي تلاش‌ها جهت ساخت پيکره موازي از زيرنويس فيلم‌ها استفاده شده است [10][11] اما به دليل اينکه زيرنويس فيلم‌ها به زبان محاوره‌اي هستند، پيکره‌هاي ساخته شده از آنها نويزي بوده و در همه زمينه‌ها قابل استفاده نيستند. وب نيز مي‌تواند براي بدست آوردن جملات موازي پيمايش شود [9,12,13,14]، اگرچه اکثر متون دوزبانه يافت شده اغلب ترجمه دقيق هم نيستند و بنابراين همترازي آنها آسان نيست.
در کارهاي اخير، روش‌هاي کم هزينه‌تر اما پربارتري براي توليد اينگونه پيکره‌هاي دوزبانه همتراز شده در سطح جمله ارائه شده است، که بر پايه استخراج متون موازي از متون ” تقريبا موازي” و يا “نه خيلي موازي” مي‌باشند که اينگونه متون اغلب در دسترس هستند و اصطلاح “پيکره تطبيقي” براي آنها به کار مي‌رود.
هدف تحقيق: ساخت پيکره موازي از روي پيکره تطبيقي
يک پيکره تطبيقي مجموعه‌اي از متن‌هاست که به طور جداگانه در زبان‌هاي مربوطه ساخته شده‌اند و بر پايه شباهت محتوي ترکيب شده‌اند. اين‌ها مستنداتي از يک به چند زبان هستند که از نظر شکل و محتوي در ابعاد و درجات مختلف قابل مقايسه هستند. بر عکس، يک پيکره موازي شامل متن‌هاي دو يا چند زبانه است که ترجمه دقيق همديگر بوده و در سطح جمله همتراز شده‌اند.
مواد اوليه براي مستندات تطبيقي اغلب آسان بدست مي‌آيد، اما همترازي تک تک مستندات يک کار چالش بر انگيز است[15]. منابع بالقوه براي پيکره‌هاي تطبيقي، آژانس‌هاي خبري چندزبانه مانند AFP و BBC و …، و يا دايره المعارف‌هاي چندزبانه مانند ويکي پديا و Encarta هستند. برخي از اين پيکره‌هاي تطبيقي به طور گسترده از طريق LDC در دسترس هستند. اينگونه منابع اغلب شامل جملاتي هستند که ترجمه‌هاي مناسبي از يکديگرند. شناسايي مطمئن اين جفت جمله‌ها، ساخت خودکار پيکره‌هاي موازي گوناگون را ممکن مي‌سازد.
در اين پايان نامه نيز روش‌هاي استفاده شده براي استخراج جملات موازي از پيکره‌هاي تطبيقي که براي جفت زبان‌هاي ديگر آمده‌اند، مورد بررسي قرار مي‌گيرند؛ و از آن‌ها براي ساخت يک پيکره موازي از روي پيکره تطبيقي انگليسي -فارسي استفاده مي‌شود.
سرفصل‌ها
فصل دوم: مباني نظري
در اين فصل مباني نظري ترجمه ماشيني و اصطلاحات به کار رفته در اين پايان نامه را شرح مي‌دهيم. در ابتدا پيکره را معرفي کرده و به بحث درباره انواع آن از جمله پيکره موازي و پيکره تطبيقي مي‌پردازيم. در بخش بعد مبحث همترازي را عنوان کرده و انواع آن را معرفي مي‌کنيم، که عبارتند از همترازي در سطح سند، همترازي در سطح جمله و همترازي در سطح لغت. در انتها ارزيابي ترجمه ماشيني آورده مي‌شود و چند نمونه از معيارهاي ارزيابي ترجمه ماشيني مانند BLEU، NIST، WER و TER شرح داده مي‌شوند.
فصل سوم: مروري بر تحقيقات انجام شده
ساخت پيکره موازي يکي از مهمترين مباحث در حوزه ترجمه ماشيني است. از اينرو تا کنون کارهاي زيادي در اين شاخه از ترجمه ماشيني انجام شده است که هر کدام سعي داشته‌اند قدمي هر چند کوتاه براي غلبه بر چالش بزرگ کمبود متون موازي بردارند. برخي از کارها سعي بر توليد پيکره موازي از متون ترجمه شده مانند کتاب‌هاي دوزبانه، کتابچه‌هاي راهنما، متون حقوقي و شرح مذاکرات پارلماني اروپا و غيره دارند. اما اينگونه منابع محدود هستند؛ از اينرو در سالهاي اخير محققان بر استخراج متون موازي از متون دوزبانه موجود در وب و يا پيکره‌هاي تطبيقي تمرکز دارند. در اين فصل کارهاي پيشين انجام شده از هر کدام از روش‌هاي ساخت پيکره مانند ساخت پيکره موازي از متون همراه با ترجمه، استخراج جملات موازي از وب و استخراج جملات موازي از پيکره‌هاي تطبيقي، آورده مي‌شود. در پايان نيز کارهايي که رويکرد مشابهي با رويکرد اين رساله دارند و از طبقه‌بند آنتروپي بيشينه براي استخراج جملات موازي استفاده کرده‌اند، به طور مفصل تري شرح داده مي‌شوند.
فصل چهارم: مدل پيشنهادي
مدل پيشنهادي اين رساله براي استخراج جملات موازي از پيکره‌هاي تطبيقي شامل سه مرحله اصلي است. مرحله اول مربوط است به انتخاب جفت جملاتي که کانديد موازي بودن هستند. اين کار توسط دو فيلتر طول جمله و تعداد کلمات مشترک انجام مي‌شود. مرحله دوم عبارت است از انتخاب و تشخيص جفت جملات موازي از روي جفت جملات کانديد. تشخيص جفت جملات موازي از جفت جملات غيرموازي توسط طبقه‌بند آنتروپي بيشينه انجام مي‌شود. سپس مجموعه‌اي از ويژگي‌هاي يک جفت جمله که براي طبقه‌بند آنتروپي بيشينه در نظر گرفته شده‌اند، شرح داده مي‌شوند. در مرحله سوم دقت پيکره موازي ساخته شده نهايي با از استفاده از معيار TER افزايش داده مي‌شود. در بخش پاياني فصل، نحوه ارزيابي مدل ارائه شده شرح داده مي‌شود.
فصل پنجم: ارزيابي و نتيجه گيري
ارزيابي‌ها در دو بخش اصلي ارزيابي طبقه‌بند آنتروپي بيشينه و ارزيابي جفت جملات موازي استخراج شده آورده مي‌شوند. در بخش ارزيابي طبقه‌بند آنتروپي بيشينه ابتدا ويژگي‌هاي معرفي شده ارزيابي شده و ميزان تأثير گذاري آنها بر کارآيي طبقه‌بند سنجيده مي‌شود. سپس مسئله حساسيت طبقه‌بند به دامنه متون به کار رفته در داده‌هاي آموزشي و آزمايشي بررسي مي‌شود.
در بخش دوم، براي ارزيابي جفت جملات موازي استخراج شده از ماشين ترجمه آماري “موزز” استفاده مي‌کنيم. تنظيمات انجام شده براي ماشين ترجمه و ارزيابي جفت جملات در اين بخش شرح داده مي‌شوند.
فصل دوم
مباني نظري
?
مباني نظري
پيکره12
پيکره، مجموعه‌اي است از مواد متني يا گفتاري که بر اساس مجموعه مشخصي از معيارهاي از پيش تعيين شده گردآوري شده است. پيکره قابل خوانش توسط ماشين است به عبارتي ديگر ديجيتالي است، دامنه مشخصي دارد و محدود (دارا

دسته بندی : No category

دیدگاهتان را بنویسید