ترجمه ماشینی | بهبود ترجمه ماشینی مبتنی بر قاعده با استفاده از قواعد نحوی آماری

بازدید کننده گرامی، شبکه ایرنتکام اقدام به درج رایگان چکیده و نتیجه گیری مقالات تحقیقی پژوهشگران نموده است. از خوانندگان گرامی که مایل به مطالعه نسخه کامل این مقالات هستند خواهشمندیم به اطلاعات تماس پژوهشگر نویسنده که در ستون سمت چپ مقاله درج می گردد مراجعه فرمایند.

چکیده

ترجمه ماشینی مبتنی بر قاعده (Rule-based Machine Translation) از مجموعه ­ای از قواعد که دربردارنده اطلاعات زبانی هستند در فرایند ترجمه استفاده می‌کند. نتایج تولید شده توسط این مترجم‌ها معمولاً از نظر دستورزبان و ترتیب کلمات بهتر از نتایج مترجم‌های آماری هستند. ولی تحقیقات نشان داده است که این ترجمه‌ها از نظر روانی و انتخاب کلمات مناسب، ضعیف‌تر از مترجم‌های آماری هستند. در این مقاله هدف، بهبود انتخاب لغات در مترجم مبتنی بر قاعده است. این کار با استفاده از مجموعه‌ای از قواعد نحوی-لغوی مبتنی بر گرامر درخت-پیوندی (Tree Adjoining Grammar) انجام می‌شود. این قواعد احتمالاتی به‌صورت آماری از یک پیکره موازی با اندازه بزرگ استخراج شده‌اند. در سیستم ارائه شده، کلمات با ترتیب پیشنهادی مترجم مبتنی بر قاعده در زبان مقصد قرار می‌گیرند و به همین دلیل در ترجمه جملات از یک رمزگشای یکنواخت مبتنی بر برنامه‌ریزی پویا (Dynamic programing) استفاده شده است. در این سیستم بهترین ترجمه با استناد به احتمال قواعد استفاده شده و امتیاز مدل زبانی انتخاب می‌شود. آزمایش‌ها روی ترجمه انگلیسی به فارسی نشان داد که کیفیت نتایج به دست آمده از روش پیشنهادی حدود ۳/۱+ واحد بلو از کیفیت ترجمه به دست آمده توسط مبتنی بر قاعده پایه بالاتر است.

کلمات کلیدی: ترجمه ماشینی ترکیبی، ترجمه ماشینی مبتنی بر قاعده، قواعد آماری، قواعد نحوی-لغوی، گرامر درخت-پیوندی

۱- مقدمه

ترجمه ماشینی یکی از شاخه‌های پرکاربرد و پیچیده در پردازش زبان طبیعی است. در سال‌های گذشته رویکردهای متفاوتی برای این مسئله ارائه شده است که هرکدام نقاط قوت و نقاط ضعف خاص خود را دارند. از میان این رویکردها می‌توان به ترجمه مبتنی بر قاعده، ترجمه آماری، ترجمه مبتنی بر مثال و ترجمه بر پایه شبکه‌های عصبی اشاره کرد. روش‌های ترکیبی (Hybrid approaches) با ترکیب کردن رویکردهای مختلف سعی در هم‌افزایی نقاط مثبت این روش‌ها دارند. در روش‌های ترکیبی معمولاً یکی از رویکردهای عنوان‌شده به‌عنوان رویکرد اصلی انتخاب می‌شود و فرایند ترجمه با تکیه بیشتر بر آن روش انجام می‌شود و روش‌های استفاده شده دیگر برای بهبود و کم کردن خطاهای روش پایه به کار می‌آیند.

رویکرد مبتنی بر قاعده به‌عنوان قدیمی‌ترین رویکرد در حوزه ترجمه ماشینی شناخته می‌شود و بر پایه مجموعه‌ای از قواعد که معمولاً توسط انسان ایجاد شده است استوار است. این مجموعه قواعد نحوه انتقال نحوی و لغوی از یک زبان به زبان دیگر را مدل‌سازی می‌کنند. ازآنجایی‌که این مجموعه قواعد با نظارت انسان تولید می‌شوند استفاده از این رویکرد هزینه بسیار زیادی به همراه دارد. در ازای این هزینه، نتایج تولید شده توسط مترجم‌های مبتنی بر قاعده از نظر دستورزبان صحیح‌تر هستند و ترتیب کلمات در آن‌ها بهتر رعایت شده است. ترجمه ارائه شده توسط این مترجم‌ها، به دلیل در نظر گرفتن اطلاعات زبان‌شناسی، معمولاً از نظر تطابق فعل و فاعل، زمان، شخص و شمار افعال و خصوصیات ساخت‌واژی دیگر، بهتر از مترجم‌های آماری است. این در حالی است که مترجم‌های آماری از نظر انتخاب معادل مناسب برای کلمات در زبان مقصد، معمولاً بهتر از مترجم‌های مبتنی بر قاعده عمل می‌کنند. مترجم‌های آماری در انجام جابجایی‌های نزدیک قوی‌تر هستند و به دلیل استفاده از مدل زبانی معمولاً ترجمه‌های روان‌تری نسبت به ترجمه مبتنی بر قاعده ارائه می‌دهند [۱]. بدین ترتیب اگر بتوان مترجم مبتنی بر قاعده را با استفاده از اطلاعات مترجم آماری غنی کرد، امید است که نتایج بهتری نسبت به مترجم مبتنی بر قاعده پایه به دست آید.

در این مقاله هدف ما استفاده از اطلاعات آماری در بهبود نتایج مترجم مبتنی بر قاعده است. بدین ترتیب که می‌خواهیم برای ترتیب قرارگیری کلمات در زبان مقصد به مترجم مبتنی بر قاعده استناد کنیم. ازآنجایی‌که این مترجم‌ها از قواعد نحوی استفاده می‌کنند معمولاً در تشخیص جابجایی‌های دور بین کلمات قوی‌تر از مترجم‌های آماری عمل می‌کنند و از این نظر برای ترجمه بین زوج زبان‌های دور مانند انگلیسی و فارسی مناسب‌تر هستند. ازآنجایی‌که بافت نحوی کلمه در زبان مبدأ می‌تواند در انتخاب معادل مناسب در زبان مقصد بسیار مفید باشد، ما مجموعه‌ای از قواعد همگام نحوی-لغوی را به‌صورت آماری استخراج کرده‌ایم و برای هر کلمه یا مجموعه از کلمات در جمله مبدأ با توجه به بافت نحوی این کلمات و با استناد به این قواعد معادل مناسب را پیشنهاد می‌دهیم. این قواعد مبتنی بر گرامر درخت- پیوندی [۲] هستند و با توجه به میزان رخدادشان در پیکره آموزشی به هر یک از آن‌ها احتمالی نسبت داده شده است. سیستم ما درنهایت ترجمه کلمات را از بین ترجمه‌های پیشنهاد شده توسط مترجم مبتنی بر قاعده و ترجمه‌های ارائه شده توسط مدل آماری انتخاب می‌کند. همچنین ازآنجایی‌که ترتیب کلمات توسط مترجم مبتنی بر قاعده تعیین می‌شود، ترجمه به‌صورت یکنواخت انجام می‌شود و می‌توان برای انتخاب ترجمه بهینه از برنامه‌ریزی پویا استفاده کرد که پیچیدگی زمانی بسیار کمتری نسبت به الگوریتم‌های جستجو در ترجمه آماری دارد. در این مقاله ما از مترجم مبتنی بر قاعده فرازین[i] به‌عنوان مترجم پایه استفاده شده است.

ادامه مقاله به این ترتیب سامان‌دهی شده است: در بخش ۲ به مرور کارهای پیشین و مرتبط با این مقاله می‌پردازیم. بخش ۳ به توضیح جزئیات سیستم پیشنهادی اختصاص داده شده است. در بخش ۴ نتایج به دست آمده از این سیستم را مورد بررسی قرار می‌دهیم و درنهایت در بخش ۵ به نتیجه‌گیری می‌پردازیم.

پارافریز آنلاین ، ترجمه رایگان

نتیجه گیری و کارهای آتی

در این مقاله روشی برای غنی‌سازی ترجمه مبتنی بر قاعده پیشنهاد شد. این روش بر پایه مجموعه‌ای از قواعد نحوی-لغوی مبتنی بر گرامر درخت-پیوندی است که با استفاده از روش‌های آماری از یک پیکره موازی استخراج‌شده‌اند. این قواعد احتمالاتی برای هر کلمه یا عبارت با توجه به بافت نحوی کلمه، ترجمه‌ای پیشنهاد می‌کنند. ترتیب قرارگیری کلمات در زبان مقصد در ابتدای کار توسط مترجم مبتنی بر قاعده تعیین می‌شود و ادامه کار با ثابت در نظر گرفتن این ترتیب دنبال می‌شود. این امر باعث می‌شود که بتوان عمل رمزگشایی را با استفاده از برنامه‌ریزی پویا انجام داد. نتایج به دست آمده از این روش به نسبت مترجم مبتنی بر قاعده پایه از کیفیت بالاتری برخوردار هستند و بهبود ۳/۱+ در واحد بلو در آزمایش‌ها ملاحظه شد. روش پیشنهادی مستقل از زبان است و در صورت وجود پیکره موازی و تجزیه‌گر نحوی مناسب قابل استفاده برای زوج زبان‌های دیگر نیز هست.

در روش ارائه شده، به ترجمه‌های پیشنهادی توسط مترجم مبتنی بر قاعده احتمال یکسانی داده شد. انتخاب روشی مناسب‌تر برای تعیین احتمال برای این ترجمه‌ها می‌تواند باعث بهبود نتایج شود. مشکل دیگری که وجود دارد تنکی مجموعه قواعد استخراج‌شده است. برای کم کردن تأثیر این مشکل می‌توان در مواردی که قاعده‌ای برای کلمه مبدأ در بافت نحوی موردنظر پیدا نمی‌شود به مدلی بدون در نظر گرفتن بافت نحوی عقب‌گرد (Back-off ) کرد.

مقالات مرتبط: نرم افزارهای آموزشی، یادگیری زبان و ترجمه

divider
فهرست
support
سوالات پیش از خرید
09907383500
تیکت پشتیبانی
Please Wait
Please Wait