“بازدید کننده گرامی، شبکه ایرنتکام اقدام به درج رایگان چکیده و نتیجه گیری مقالات تحقیقی پژوهشگران نموده است. از خوانندگان گرامی که مایل به مطالعه نسخه کامل این مقالات هستند خواهشمندیم به اطلاعات تماس پژوهشگر نویسنده که در ستون انتهای مقاله درج می گردد مراجعه فرمایند.”
چکیده
ترجمه ماشینی مبتنی بر قاعده (Rule-based Machine Translation) از مجموعه ای از قواعد که دربردارنده اطلاعات زبانی هستند در فرایند ترجمه مقاله استفاده میکند. نتایج تولید شده توسط این مترجمها معمولاً از نظر دستورزبان و ترتیب کلمات بهتر از نتایج مترجمهای آماری هستند. ولی تحقیقات نشان داده است که این ترجمهها از نظر روانی و انتخاب کلمات مناسب، ضعیفتر از مترجمهای آماری هستند.
در این مقاله هدف، بهبود انتخاب لغات در مترجم مبتنی بر قاعده است. این کار با استفاده از مجموعهای از قواعد نحوی-لغوی مبتنی بر گرامر درخت-پیوندی (Tree Adjoining Grammar) انجام میشود. این قواعد احتمالاتی بهصورت آماری از یک پیکره موازی با اندازه بزرگ استخراج شدهاند.
در سیستم ارائه شده، کلمات با ترتیب پیشنهادی مترجم مبتنی بر قاعده در زبان مقصد قرار میگیرند و به همین دلیل در ترجمه جملات از یک رمزگشای یکنواخت مبتنی بر برنامهریزی پویا (Dynamic programing) استفاده شده است. در این سیستم بهترین ترجمه با استناد به احتمال قواعد استفاده شده و امتیاز مدل زبانی انتخاب میشود. آزمایشها روی ترجمه انگلیسی به فارسی نشان داد که کیفیت نتایج به دست آمده از روش پیشنهادی حدود ۳/۱+ واحد بلو از کیفیت ترجمه به دست آمده توسط مبتنی بر قاعده پایه بالاتر است.
مقدمه
ترجمه ماشینی یکی از شاخههای پرکاربرد و پیچیده در پردازش زبان طبیعی است. در سالهای گذشته رویکردهای متفاوتی برای این مسئله ارائه شده است که هرکدام نقاط قوت و نقاط ضعف خاص خود را دارند.
از میان این رویکردها میتوان به ترجمه مبتنی بر قاعده، ترجمه آماری، ترجمه مبتنی بر مثال و ترجمه بر پایه شبکههای عصبی اشاره کرد. روشهای ترکیبی (Hybrid approaches) با ترکیب کردن رویکردهای مختلف سعی در همافزایی نقاط مثبت این روشها دارند. در روشهای ترکیبی معمولاً یکی از رویکردهای عنوانشده بهعنوان رویکرد اصلی انتخاب میشود و فرایند ترجمه با تکیه بیشتر بر آن روش انجام میشود و روشهای استفاده شده دیگر برای بهبود و کم کردن خطاهای روش پایه به کار میآیند.
رویکرد مبتنی بر قاعده بهعنوان قدیمیترین رویکرد در حوزه ترجمه ماشینی شناخته میشود و بر پایه مجموعهای از قواعد که معمولاً توسط انسان ایجاد شده است استوار است. این مجموعه قواعد نحوه انتقال نحوی و لغوی از یک زبان به زبان دیگر را مدلسازی میکنند. ازآنجاییکه این مجموعه قواعد با نظارت انسان تولید میشوند استفاده از این رویکرد هزینه بسیار زیادی به همراه دارد. در ازای این هزینه، نتایج تولید شده توسط مترجمهای مبتنی بر قاعده از نظر دستورزبان صحیحتر هستند و ترتیب کلمات در آنها بهتر رعایت شده است.
ترجمه ارائه شده توسط این مترجمها، به دلیل در نظر گرفتن اطلاعات زبانشناسی، معمولاً از نظر تطابق فعل و فاعل، زمان، شخص و شمار افعال و خصوصیات ساختواژی دیگر، بهتر از مترجمهای آماری است. این در حالی است که مترجمهای آماری از نظر انتخاب معادل مناسب برای کلمات در زبان مقصد، معمولاً بهتر از مترجمهای مبتنی بر قاعده عمل میکنند.
مترجمهای آماری در انجام جابجاییهای نزدیک قویتر هستند و به دلیل استفاده از مدل زبانی معمولاً ترجمههای روانتری نسبت به ترجمه مبتنی بر قاعده ارائه میدهند [۱]. بدین ترتیب اگر بتوان مترجم مبتنی بر قاعده را با استفاده از اطلاعات مترجم آماری غنی کرد، امید است که نتایج بهتری نسبت به مترجم مبتنی بر قاعده پایه به دست آید.
در این مقاله هدف ما استفاده از اطلاعات آماری در بهبود نتایج مترجم مبتنی بر قاعده است. بدین ترتیب که میخواهیم برای ترتیب قرارگیری کلمات در زبان مقصد به مترجم مبتنی بر قاعده استناد کنیم. ازآنجاییکه این مترجمها از قواعد نحوی استفاده میکنند معمولاً در تشخیص جابجاییهای دور بین کلمات قویتر از مترجمهای آماری عمل میکنند و از این نظر برای ترجمه بین زوج زبانهای دور مانند انگلیسی و فارسی مناسبتر هستند.
ازآنجاییکه بافت نحوی کلمه در زبان مبدأ میتواند در انتخاب معادل مناسب در زبان مقصد بسیار مفید باشد، ما مجموعهای از قواعد همگام نحوی-لغوی را بهصورت آماری استخراج کردهایم و برای هر کلمه یا مجموعه از کلمات در جمله مبدأ با توجه به بافت نحوی این کلمات و با استناد به این قواعد معادل مناسب را پیشنهاد میدهیم.
این قواعد مبتنی بر گرامر درخت- پیوندی [۲] هستند و با توجه به میزان رخدادشان در پیکره آموزشی به هر یک از آنها احتمالی نسبت داده شده است. سیستم ما درنهایت ترجمه کلمات را از بین ترجمههای پیشنهاد شده توسط مترجم مبتنی بر قاعده و ترجمههای ارائه شده توسط مدل آماری انتخاب میکند. همچنین ازآنجاییکه ترتیب کلمات توسط مترجم مبتنی بر قاعده تعیین میشود، ترجمه بهصورت یکنواخت انجام میشود و میتوان برای انتخاب ترجمه بهینه از برنامهریزی پویا استفاده کرد که پیچیدگی زمانی بسیار کمتری نسبت به الگوریتمهای جستجو در ترجمه آماری دارد. در این مقاله ما از مترجم مبتنی بر قاعده فرازین[i] بهعنوان مترجم پایه استفاده شده است.
ادامه مقاله به این ترتیب ساماندهی شده است: در بخش ۲ به مرور کارهای پیشین و مرتبط با این مقاله میپردازیم. بخش ۳ به توضیح جزئیات سیستم پیشنهادی اختصاص داده شده است. در بخش ۴ نتایج به دست آمده از این سیستم را مورد بررسی قرار میدهیم و درنهایت در بخش ۵ به نتیجهگیری میپردازیم.
نتیجه گیری و کارهای آتی
در این مقاله روشی برای غنیسازی ترجمه مبتنی بر قاعده پیشنهاد شد. این روش بر پایه مجموعهای از قواعد نحوی-لغوی مبتنی بر گرامر درخت-پیوندی است که با استفاده از روشهای آماری از یک پیکره موازی استخراجشدهاند.
این قواعد احتمالاتی برای هر کلمه یا عبارت با توجه به بافت نحوی کلمه، ترجمهای پیشنهاد میکنند. ترتیب قرارگیری کلمات در زبان مقصد در ابتدای کار توسط مترجم مبتنی بر قاعده تعیین میشود و ادامه کار با ثابت در نظر گرفتن این ترتیب دنبال میشود.
این امر باعث میشود که بتوان عمل رمزگشایی را با استفاده از برنامهریزی پویا انجام داد. نتایج به دست آمده از این روش به نسبت مترجم مبتنی بر قاعده پایه از کیفیت بالاتری برخوردار هستند و بهبود ۳/۱+ در واحد بلو در آزمایشها ملاحظه شد. روش پیشنهادی مستقل از زبان است و در صورت وجود پیکره موازی و تجزیهگر نحوی مناسب قابل استفاده برای زوج زبانهای دیگر نیز هست.
برای انجام خدمات ترجمه از جمله ترجمه کاتالوگ ، پارافریز مقاله ، ویرایش نیتیو کلیک کنید.
در روش ارائه شده، به ترجمههای پیشنهادی توسط مترجم مبتنی بر قاعده احتمال یکسانی داده شد. انتخاب روشی مناسبتر برای تعیین احتمال برای این ترجمهها میتواند باعث بهبود نتایج شود. مشکل دیگری که وجود دارد تنکی مجموعه قواعد استخراجشده است.
برای کم کردن تأثیر این مشکل میتوان در مواردی که قاعدهای برای کلمه مبدأ در بافت نحوی موردنظر پیدا نمیشود به مدلی بدون در نظر گرفتن بافت نحوی عقبگرد (Back-off ) کرد.
نویسندگان:
حکیمه فدایی – دانشکده برق و کامپیوتر، پردیس دانشکده های فنی ، دانشگاه تهران، تهران (آدرس ایمیل: h.fadaei@ut.ac.ir)
فرناز قاسمی تودشکی – دانشکده برق و کامپیوتر، پردیس دانشکده های فنی ، دانشگاه تهران، تهران
هتام فیلی – دانشکده برق و کامپیوتر، پردیس دانشکده های فنی ، دانشگاه تهران، تهران
محل انتشار: بیست و دومین کنفرانس ملی سالانه انجمن کامپیوترایران