هر سوالی دارید:

تلفن تماس 02166578184

آدرس ایمیل irnetcom@gmail.com

شبکه های اجتماعی:

بهبود ترجمه ماشینی مبتنی بر قاعده با استفاده از قواعد نحوی آماری

ترجمه ماشینی مبتنی بر قاعده
که در: مقالات آموزشی

“بازدید کننده گرامی، شبکه ایرنتکام اقدام به درج رایگان چکیده و نتیجه گیری مقالات تحقیقی پژوهشگران نموده است. از خوانندگان گرامی که مایل به مطالعه نسخه کامل این مقالات هستند خواهشمندیم به اطلاعات تماس پژوهشگر نویسنده که در ستون انتهای مقاله درج می گردد مراجعه فرمایند.”

چکیده

ترجمه ماشینی مبتنی بر قاعده (Rule-based Machine Translation) از مجموعه ­ای از قواعد که دربردارنده اطلاعات زبانی هستند در فرایند ترجمه مقاله استفاده می‌کند. نتایج تولید شده توسط این مترجم‌ها معمولاً از نظر دستورزبان و ترتیب کلمات بهتر از نتایج مترجم‌های آماری هستند. ولی تحقیقات نشان داده است که این ترجمه‌ها از نظر روانی و انتخاب کلمات مناسب، ضعیف‌تر از مترجم‌های آماری هستند.

در این مقاله هدف، بهبود انتخاب لغات در مترجم مبتنی بر قاعده است. این کار با استفاده از مجموعه‌ای از قواعد نحوی-لغوی مبتنی بر گرامر درخت-پیوندی (Tree Adjoining Grammar) انجام می‌شود. این قواعد احتمالاتی به‌صورت آماری از یک پیکره موازی با اندازه بزرگ استخراج شده‌اند.

در سیستم ارائه شده، کلمات با ترتیب پیشنهادی مترجم مبتنی بر قاعده در زبان مقصد قرار می‌گیرند و به همین دلیل در ترجمه جملات از یک رمزگشای یکنواخت مبتنی بر برنامه‌ریزی پویا (Dynamic programing) استفاده شده است. در این سیستم بهترین ترجمه با استناد به احتمال قواعد استفاده شده و امتیاز مدل زبانی انتخاب می‌شود. آزمایش‌ها روی ترجمه انگلیسی به فارسی نشان داد که کیفیت نتایج به دست آمده از روش پیشنهادی حدود ۳/۱+ واحد بلو از کیفیت ترجمه به دست آمده توسط مبتنی بر قاعده پایه بالاتر است.

مقدمه

ترجمه ماشینی یکی از شاخه‌های پرکاربرد و پیچیده در پردازش زبان طبیعی است. در سال‌های گذشته رویکردهای متفاوتی برای این مسئله ارائه شده است که هرکدام نقاط قوت و نقاط ضعف خاص خود را دارند.

از میان این رویکردها می‌توان به ترجمه مبتنی بر قاعده، ترجمه آماری، ترجمه مبتنی بر مثال و ترجمه بر پایه شبکه‌های عصبی اشاره کرد. روش‌های ترکیبی (Hybrid approaches) با ترکیب کردن رویکردهای مختلف سعی در هم‌افزایی نقاط مثبت این روش‌ها دارند. در روش‌های ترکیبی معمولاً یکی از رویکردهای عنوان‌شده به‌عنوان رویکرد اصلی انتخاب می‌شود و فرایند ترجمه با تکیه بیشتر بر آن روش انجام می‌شود و روش‌های استفاده شده دیگر برای بهبود و کم کردن خطاهای روش پایه به کار می‌آیند.

رویکرد مبتنی بر قاعده به‌عنوان قدیمی‌ترین رویکرد در حوزه ترجمه ماشینی شناخته می‌شود و بر پایه مجموعه‌ای از قواعد که معمولاً توسط انسان ایجاد شده است استوار است. این مجموعه قواعد نحوه انتقال نحوی و لغوی از یک زبان به زبان دیگر را مدل‌سازی می‌کنند. ازآنجایی‌که این مجموعه قواعد با نظارت انسان تولید می‌شوند استفاده از این رویکرد هزینه بسیار زیادی به همراه دارد. در ازای این هزینه، نتایج تولید شده توسط مترجم‌های مبتنی بر قاعده از نظر دستورزبان صحیح‌تر هستند و ترتیب کلمات در آن‌ها بهتر رعایت شده است.

ترجمه ارائه شده توسط این مترجم‌ها، به دلیل در نظر گرفتن اطلاعات زبان‌شناسی، معمولاً از نظر تطابق فعل و فاعل، زمان، شخص و شمار افعال و خصوصیات ساخت‌واژی دیگر، بهتر از مترجم‌های آماری است. این در حالی است که مترجم‌های آماری از نظر انتخاب معادل مناسب برای کلمات در زبان مقصد، معمولاً بهتر از مترجم‌های مبتنی بر قاعده عمل می‌کنند.

مترجم‌های آماری در انجام جابجایی‌های نزدیک قوی‌تر هستند و به دلیل استفاده از مدل زبانی معمولاً ترجمه‌های روان‌تری نسبت به ترجمه مبتنی بر قاعده ارائه می‌دهند [۱]. بدین ترتیب اگر بتوان مترجم مبتنی بر قاعده را با استفاده از اطلاعات مترجم آماری غنی کرد، امید است که نتایج بهتری نسبت به مترجم مبتنی بر قاعده پایه به دست آید.

در این مقاله هدف ما استفاده از اطلاعات آماری در بهبود نتایج مترجم مبتنی بر قاعده است. بدین ترتیب که می‌خواهیم برای ترتیب قرارگیری کلمات در زبان مقصد به مترجم مبتنی بر قاعده استناد کنیم. ازآنجایی‌که این مترجم‌ها از قواعد نحوی استفاده می‌کنند معمولاً در تشخیص جابجایی‌های دور بین کلمات قوی‌تر از مترجم‌های آماری عمل می‌کنند و از این نظر برای ترجمه بین زوج زبان‌های دور مانند انگلیسی و فارسی مناسب‌تر هستند.

ازآنجایی‌که بافت نحوی کلمه در زبان مبدأ می‌تواند در انتخاب معادل مناسب در زبان مقصد بسیار مفید باشد، ما مجموعه‌ای از قواعد همگام نحوی-لغوی را به‌صورت آماری استخراج کرده‌ایم و برای هر کلمه یا مجموعه از کلمات در جمله مبدأ با توجه به بافت نحوی این کلمات و با استناد به این قواعد معادل مناسب را پیشنهاد می‌دهیم.

این قواعد مبتنی بر گرامر درخت- پیوندی [۲] هستند و با توجه به میزان رخدادشان در پیکره آموزشی به هر یک از آن‌ها احتمالی نسبت داده شده است. سیستم ما درنهایت ترجمه کلمات را از بین ترجمه‌های پیشنهاد شده توسط مترجم مبتنی بر قاعده و ترجمه‌های ارائه شده توسط مدل آماری انتخاب می‌کند. همچنین ازآنجایی‌که ترتیب کلمات توسط مترجم مبتنی بر قاعده تعیین می‌شود، ترجمه به‌صورت یکنواخت انجام می‌شود و می‌توان برای انتخاب ترجمه بهینه از برنامه‌ریزی پویا استفاده کرد که پیچیدگی زمانی بسیار کمتری نسبت به الگوریتم‌های جستجو در ترجمه آماری دارد. در این مقاله ما از مترجم مبتنی بر قاعده فرازین[i] به‌عنوان مترجم پایه استفاده شده است.

ادامه مقاله به این ترتیب سامان‌دهی شده است: در بخش ۲ به مرور کارهای پیشین و مرتبط با این مقاله می‌پردازیم. بخش ۳ به توضیح جزئیات سیستم پیشنهادی اختصاص داده شده است. در بخش ۴ نتایج به دست آمده از این سیستم را مورد بررسی قرار می‌دهیم و درنهایت در بخش ۵ به نتیجه‌گیری می‌پردازیم.

نتیجه گیری و کارهای آتی

در این مقاله روشی برای غنی‌سازی ترجمه مبتنی بر قاعده پیشنهاد شد. این روش بر پایه مجموعه‌ای از قواعد نحوی-لغوی مبتنی بر گرامر درخت-پیوندی است که با استفاده از روش‌های آماری از یک پیکره موازی استخراج‌شده‌اند.

این قواعد احتمالاتی برای هر کلمه یا عبارت با توجه به بافت نحوی کلمه، ترجمه‌ای پیشنهاد می‌کنند. ترتیب قرارگیری کلمات در زبان مقصد در ابتدای کار توسط مترجم مبتنی بر قاعده تعیین می‌شود و ادامه کار با ثابت در نظر گرفتن این ترتیب دنبال می‌شود.

این امر باعث می‌شود که بتوان عمل رمزگشایی را با استفاده از برنامه‌ریزی پویا انجام داد. نتایج به دست آمده از این روش به نسبت مترجم مبتنی بر قاعده پایه از کیفیت بالاتری برخوردار هستند و بهبود ۳/۱+ در واحد بلو در آزمایش‌ها ملاحظه شد. روش پیشنهادی مستقل از زبان است و در صورت وجود پیکره موازی و تجزیه‌گر نحوی مناسب قابل استفاده برای زوج زبان‌های دیگر نیز هست.

برای انجام خدمات ترجمه از جمله ترجمه کاتالوگ ، پارافریز مقاله ، ویرایش نیتیو کلیک کنید.

در روش ارائه شده، به ترجمه‌های پیشنهادی توسط مترجم مبتنی بر قاعده احتمال یکسانی داده شد. انتخاب روشی مناسب‌تر برای تعیین احتمال برای این ترجمه‌ها می‌تواند باعث بهبود نتایج شود. مشکل دیگری که وجود دارد تنکی مجموعه قواعد استخراج‌شده است.

برای کم کردن تأثیر این مشکل می‌توان در مواردی که قاعده‌ای برای کلمه مبدأ در بافت نحوی موردنظر پیدا نمی‌شود به مدلی بدون در نظر گرفتن بافت نحوی عقب‌گرد (Back-off ) کرد.

نویسندگان:

حکیمه فدایی – دانشکده برق و کامپیوتر، پردیس دانشکده های فنی ، دانشگاه تهران، تهران (آدرس ایمیل: h.fadaei@ut.ac.ir)

فرناز قاسمی تودشکی – دانشکده برق و کامپیوتر، پردیس دانشکده های فنی ، دانشگاه تهران، تهران

هتام فیلی – دانشکده برق و کامپیوتر، پردیس دانشکده های فنی ، دانشگاه تهران، تهران

محل انتشار: بیست و دومین کنفرانس ملی سالانه انجمن کامپیوترایران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

چگونه می توانیم به شما کمک کنیم؟

آیا باید ایده های خود را برای یک پروژه یا کمپین دیجیتالی آینده مطرح کنید؟ به دنبال متحول کردن کسب و کار خود با اجرای بازاریابی دیجیتال بالقوه کامل هستید؟

برای هرگونه سوال شغلی، لطفاً از صفحه مشاغل ما اینجا دیدن کنید.
 








    چه خدماتی می توانیم به شما ارائه دهیم؟