ترجمه ماشینی و از دست رفتن مفاهیم

ترجمه ماشینی

ترجمه ماشینی را می توانیم تا ایده های قرن هفدهم و برخی تلاش ها برای ایجاد لغت نامه های مکانیکی ردیابی کنیم، اما تا قبل از قرن بیستم و ظهور فناوری کامپیوتر هیچگونه پیشرفت قابل ملاحظه ای در این زمینه روی نداد. ترجمه ماشینی (MT ) را در حال حاضر باید معادل ترجمه کامپیوتری (CT) دانست.

با این حال، تمام تلاش هایی که در زمینه ترجمه ماشینی انجام می شد از ادعاهای اغراق آمیز و انتظارات غیر ممکن همراه بود. زبان گفتاری برای CT خیلی سریع و متفرق است. ارتباط شفاهی بسیاری آغازهای غلط دارد و ترجمه ماشینی قادر به درک لحن، ارجاعات فرهنگی، اصطلاحات و طنز فکاهیات موجود در آن نیست.

افراد تک زبانه از نسخه های عمومی و رایگان این یا آن سرویس ترجمه به وجد می آیند. اما واکنش خود من بیشتر واکنشی مودبانه، همراه با غرولند یک فرد چند زبانه است، به خصوص اگر زبان مبدا یا زبان مقصد را بشناسم. خیلی ساده باید گفت، ترجمه متن از مکالمه ساده تر است، و بهتر با تکنولوژی کنار می آید.

برغم این باور عمومی که ترجمه کامپیوتری (CT) برای ترجمه متن نوشته شده گام های بلندی برداشته است، دقیق تر آنست که بگوییم پیشرفت به آهستگی ادامه دارد. داستان معروفی در باره تلاش CT برای ترجمه روسی به انگلیسی زبانزد اهل فن است: “ودکا خوب است، اما گوشت فاسد است” که ترجمه کامپیوتری آن شد “روح مایل است اما جسم ناتوان است.”

اگر شما یک مومن معتقد به آینده CT هستید در این صورت واکنش شما به این داستان به اغلب احتمال یک پوزخند توخالی است. دستاورد ها در CT دشوار و با چالش بسیار همراه است. دلایل آن ساده و روشن است: خصوصیت عمومی همه زبان ها شیوع ابهام تک تک کلمات در آنهاست، و نیز ابهام در رابطه میان بخش های مختلف یک جمله. ما در اولین زبان خودمان (زبان مادری)، در حل و فصل ابهامات، وقتی به تفسیر ورودی زبانی می پردازیم کارآمد هستیم. اما مدلسازی تجارب و زمینه های گذشته در یک برنامه کامپیوتری دشوار است.

یکی از رویکردهای CT بر اساس قواعد زبان شناسی با توجه به زبان های درگیر در ترجمه استوار است، که عمدتا شامل اطلاعات در مورد زبان شناسی زبان های مبدا و مقصد می باشد، و در این فرآیند همیشه از قواعد ریخت شناختی و نحوی، و همچنین تجزیه و تحلیل معنایی هر دو زبان استفاده می شود.

پیشرفت جدیدتری که اخیرا در این زمینه حاصل شده ، ترجمه ماشینی آماری (SMT) است، که به چارچوب غالب تحقیقات CT تبدیل شده است. در روش آماری آشنا بودن محققان با زبان های درگیر در سیستم الزامی نیست، و مستلزم فراگیری قواعد پیچیده زبانی در مقیاس بزرگ و اطلاعات لغوی نمی باشد. در عوض تمرکز داده ها بر پیکره موجود و در حال رشد انبوه اطلاعات نوشتاری تک زبانه و دو زبانه متمرکز است.

ترجمه ماشینی آماری SMT بر این ایده متکی است که هر زبان باید مجموعه ای مشابه از ایده ها را توصیف کند، بنابراین کلماتی که این کار را انجام می دهند نیز باید مشابه باشد. ترفندی که SMT بکار می گیرد توسعه و پالایش به اصطلاح “فضای زبان” است، که می توان آن را مجموعه ای از بردارها که از یک کلمه به دیگری اشاره می کنند دانست. به نظر می رسد که زبان های مختلف شباهت های بسیاری در این فضای برداری دارند؛ این به آن معنی است که پروسه تبدیل یک زبان به زبان دیگر اغلب تا حدی به یک فرآیند ریاضی تبدیل می شود.

بسیاری از محققان در حال اتخاذ رویکردهای “هیبرید” که رویکردهای مبتنی بر قواعد را با مدل های آماری ترکیب می کنند هستند. ترجمه گوگل (Google Translate) به تازگی قابلیت ترجمه داخلی خود را با استفاده از نزدیک به 200 میلیارد کلمه و عبارت برگرفته از مواد نوشتاری سازمان ملل متحد و اتحادیه اروپا بهبود داده و از آن برای آموزش سیستم خود بهره برده است.

مدل گوگل می تواند احتمال آنکه “X” در زبان A به “Y” در زبان B ترجمه شود را فرا بگیرد. تئوری این است که هر چه اطلاعات بیشتری به سیستم تغذیه شود، حدس آماری مدل بهتر خواهد شد. این اسناد پر از ترم های حقوقی هستند، اما حداقل موجب تحریک مجریان قانون کپی رایت نمی شوند!

حتی تلاش های هیبرید هم با این سرزنش مواجه اند که ترجمه های آن “کیفیت انسانی” ندارند و به نظر می رسد که استانداردها به خاطر تقاضای های بالای ارتباطات فوری در اینترنت تنزل داده شده است. اینکه جهان از نظر زبانی هنوز به دور از همگنی است ، یک واقعیت محض است.

این واقعیت شامل این حقیقت است که بیش از نیمی از محتوای اینترنت به زبانی غیر از انگلیسی نوشته شده، و اینکه زبان مادری سه نفر از هر چهار نفر کاربران اینترنت انگلیسی نیست. حضور رو به رشد کاربران چینی زبان، توجهات را به چالش های CT برای جفت زبانی چینی و انگلیسی جلب کرده است.

در وحله اول اختلاف ناشی از فقدان یک سیستم الفبایی، تعداد بسیار بیشتر کاراکترها در مقایسه با تعداد حروف است، گرچه تعداد دقیق کاراکتر های موجود در زبان چینی به دقت شناخته شده نیست. باسواد بودن در زبان چینی مستلزم دانستن 3000 تا 4000 کاراکتر است. کاراکترهای ساده شده و سنتی و همچنین نسخه های مختلف از یک کاراکتر وجود دارند.

شناسایی کلمه نیز مشکلات غیر معمول به همراه دارد. در زبان انگلیسی و بسیاری زبان های دیگر، یک کلمه شفاهی با نوشتن توسط یک رشته از حروف که کلمه را می سارند و حد و مرز دو طرف آن با فاصله سفید مشخص می شود نمایش داده می شود.

اما در زبان چینی، ما نمی توانیم کلمات را با همین روش شناسایی کنیم، چرا که در نگارش چینی، فاصله خالی بین واحدهای اسکریپت نوشته شده قرار نمی گیرد. بنابراین، قبل از آنکه پردازش مورفولوژیکی بتواند انجام شود، یک مرحله اضافی از سگمنت بندی لازم است، که از طریق آن رشته پیوسته کاراکتر ها به تکه های کلمه برش داده می شوند. بعد هم، تفاوت های مهم ساختاری بین زبان انگلیسی و چینی، مانند تفاوت در ترتیب های اسم ها و گزارها وجود دارد. در زبان انگلیسی، کلمات، اعم از آنکه صفت، گروه های اسمی یا گزاره باشند، می توانند هم در قبل و هم بعد از اسم بیایند.

در زبان چینی، عنصر مُعین* فعل تقریبا همیشه قبل از اسم می آید، طول جزء مُعین می تواند بسیار طولانی باشد، و طیف گسترده ای از ساختهای مُعین اسمی وجود دارد. من هنوز هیچ نرم افزار ترجمه ماشینی ندیده ام که بتواند درست تصمیم گیری کند مجموعه ی عناصر مُعین از کجا آغاز می شود. پس جای تعجب نیست که ترجمه کامپیوتری زوج زبانی انگلیسی- چینی بدترین نتایج را بدست می دهد؛ نتایجی که حتی از دیگر مجموعه های دشوار زبانی نیز بدتر است.

نویسنده: تام تامسون، ترجمه: واحد ترجمه تخصصی ایرنتکام

شما میتوانید جهت دریافت خدمات ترجمه و ویرایش از قبیل ویرایش نیتیو ، ترجمه کاتالوگ ، پارافریز مقاله و … با ما تماس بگیرید.

نظرات کاربران : 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.

مقالات مرتبط

divider
فهرست