سال دوم / شمارۀ بیستم / پرونده / لزوم پژوهش در پردازش گفتار زبان‌های ایرانی / دکتر بهرام ظهیر اعظمی

لزوم پژوهش در پردازش گفتار زبان­های ایرانی
)با تأكید بر زبان­های كُردی، فارسی و آذری(

 

دكتر بهرام ظهیراعظمى*، وفا بارخدا**، سعید دامادی**

 



پیش­گفتار


در
جهانِ امروز قریب به 6700 زبان زنده شناخته شده­اند كه در گوشه و كنار كرۀ خاكى با آنها تكلم می­شود. با این وجود بنابر نظر بسیاری از زبان­شناسان حدود 90 درصد این زبان­ها شانس زیادى براى زنده ماندن تا پایان سدۀ حاضر میلادی را ندارند. با توجه به سیطرۀ روزافزون فنون نوین بر زندگی بشر، زبان­هایی كه نتوانند خود را با این فنون جدید وفق دهند، خواه ناخواه از امید خود به شكوفایی و احتمال بقای خود خواهند كاست. وقتی بیشتر به اهمیت این موضوع پی می­بریم كه توجه كنیم با در خطر انقراض قرارگرفتن یک زبان، تمامی دستاوردهای بشری كه در آن زبان است مورد تهدید واقع می­شود، اعم از دستاوردهای فرهنگى، علمى، اجتماعى و غیره. بنابراین شایسته است تا پژوهشگران در فنون نوین و علوم انسانی تلاش خود را در جهت حفظ و حراست از این میراث بشری معطوف دارند.

هر چند به اعتقاد نویسندگان زبان­های ایرانی (به خصوص زبان­های كردی، فارسی و آذری) به طور جدی در معرض خطر انقراض نیستند، در اینجا سعی می­كنیم تا برخی از چالش­هایی را كه این زبان­ها با آنها روبرو هستند معرفی كرده و اهمیت پرداختن بیشتر به آنها را در حوزۀ فنون نوین خاطرنشان نماییم. در این نوشته اهمیت و جایگاه پردازش گفتار در زبان از نظر فرهنگى، اجتماعى، علمى، اقتصادى و تجارى به اختصار بررسی خواهد شد. همچنین كاربرد این پژوهش‌ها در زمینه­هاى مختلف مورد بررسى قرار خواهد گرفت.

 


نقش زبان در فرهنگ و هویت جامعه

تأکید بر زبان به گونه‌ای است که به اعتقاد بسیاری از اندیشمندان، «زبان» شاخص اصلی هویت‌دهی به فرهنگ ملی است [1,2]. ارتباط زبان با ذهن، روح، هویت زبانی، فکر و اندیشه افراد متكلم به آن،‌ بسیاری از جوامع استعمارگر را بر این واداشت که برای تسخیر و استعمار جوامع دیگر بر تسخیر زبان و هویت زبانی تأکید کنند. استعمارگران در طول زمان استعمارگری خود، با آگاهی از اهمیت تسلط فرهنگی و زبانی، کوشیده‌اند به شیوه‌ای غیرمحسوس و نامرئی از طریق زبان، فرهنگ، تفکر، اعتقادات و آداب و سنن خود را انتقال داده و بدین ترتیب مراحل نفوذ و استعمار خود را تکمیل و تقویت نمایند. جوامع استعمار‌شده در اثر ضعف فرهنگی و زبانی به پذیرش فرهنگ استعمارگر گردن نهاده و کم‌کم همۀ جنبه‌های فرهنگی و سلطه‌های فکری را نیز پذیرفته است. به این ترتیب همسو و هم‌جهت با منابع استعمارگر خواهند شد. نویسندگان و اندیشمندان زیادی همچون ‌ادوارد سعید‌، ‌هومی بهابها‌، ‌گایاتری چاکراورتی اسپیواک‌ و ... به بررسی رویکرد جهت‌دار مطالعات استعماری و اثرات سلطه‌ی آنان پرداخته‌اند [3,4].

فرانتس فانون در فصل نخست «پوست سیاه نقاب
­های سفید» یعنی «سیاهان و زبان»، قدرت زبان را برای تغییر دادن فرهنگ در جریان استعمار، نمایان می‌‌‌‌‌‌‌‌‌‌‌کند. او با اظهار این که «سخن گفتن به معنی مطلقاً موجودیت داشتن برای دیگری» است از جایگاه فروتری که جزایر آنتیل به زبان کریولی در مقایسه با زبان فرانسوی به عنوان زبان «تمدن» اختصاص یافته انتقاد کرده و نشان می‌دهد که خوارداشت زبان محلی از سوی استعمارگران به عنوان زبانی «پست» کلید فهم رویۀ غیر انسانی آنان است» [3].

فرهنگ‌های متفاوت، زبان‌های متفاوتی را که حامل و حاصل اندیشه‌هایشان هستند، تولید می‌کنند. زبان معنی‌های آنان را انتقال می‌دهد، بنابراین از طرفی کالایی فرهنگی و از طرف دیگر به عنوان نمادی از استقلال‌ فرهنگ‌ مادر محسوب می‌شود
[1]. استعمارگران و سلطه‌گستران با آگاهی از این جنبۀ زبان است که بیشترین تأکید را بر فروپاشی زبان‌های فرودست دارند. ملتی که زبان را به عنوان تنها عنصر معنی‌بخش و حامل فرهنگ از دست بدهد، لاجرم با پذیرش زبان دیگری، فرهنگ دیگری و از طریق آن هویت دیگری را خواهد پذیرفت.
اگر ملتی زبان را به عنوان دستگاهی معنی‌بخش درک کرده و درصدد استفاده از آن برآید، با انعکاس هستی خود از طریق آن حال و گذشتۀ خود را در بوتۀ زبان می‌نمایاند، چرا که «‌زبان آیینه‌ میراث فرهنگی، وسیل
ۀ ارتباط ما با گذشته و تجسم چیزهایی است که هم انسانی‌ و هم شریف‌ است» [1]. زمانی که میراث فرهنگی‌گذشته و تولیدات فکری امروز از طریق زبان حفظ و منتقل شده، پایگاهی برای هویت ملت شکل می‌گیرد به هدف رویارویی با فرهنگ‌های مهاجم و غالب که اکثراً تلاش‌شان به هدف نابسامانی این هویت و گم کردن این میراث است. دانشمندانی که زبان را از دیدگاه جامعه‌شناسی مورد بررسی قرار داده‌اند معتقدند که «در نهایت زبان مشخص‌ترین رسانۀ مبادلات اجتماعی است، از این رو بایستی همۀ جوانب هستی اجتماعی ما را منعکس کند و همۀ آن را تحت تأثیر قرار دهد» [5].
بر همین اساس ملتی فاقد زبانی پویا، آسان‌تر بیگانه شده و راه نابودی را می‌پیماید. چون گذشته‌ای که ذخایر اندیشه‌اش را در بردارد و حالی که منبع تولید فکر کنونی‌اش است، به دلیل همین ضعف نابود می‌شود. ذهن جمعی‌اش معطوف به «کالاهای فکری و زبانی» وارد‌شده و تحمیل‌شده خواهد شد و نهایتاً در ارتباط با فرهنگ غالب، خود، تاریخ و زمان خود را واگذار می‌کند. اگر ملتی درک درستی از زمان نداشته باشد، درک صحیحی از «خود» نخواهد داشت و اگر «خود» را به عنوان عنصری تأثیر‌گذار گم کند به مدد آن زبان و هویتش را نیز فراموش کرده ‌است.

ریبوارسیو‌ه‌یلی بر اساس همین اهمیت «زمان‌، زبان و خود» است که در خصوص درک‌ صحیح «حاج قادر کویی» از زمان و زبان می‌گوید: «فهم حاجی از زمان با فهم درست و یگانۀ او از خود و هویتش شکل می‌گیرد، هویت «خود» هم در زبان و بخصوص زبان شعر برجسته می‌شود. حاجی به همان اندازه که در جستجوی هویت برای خودش بوده، زبان و به ویژه زبان شعر را ستایش کرده است که نشان دهندۀ «خود» است در‌ زندگی اكنون‌ او»
[4].

در جهان کنونی اگر دفاع‌ فعال که مبتنی بر غنای فرهنگی و اعتماد به خود و به دانش و فرهنگ ملی است توسط ملت‌های‌ فرودست و از طریق زبان شکل نگیرد، در نهایت با توجه به دو قطبی بودن فرهنگ (غالب/مغلوب یا فرادست/فرودست) به جای تبادل فرهنگ و ارتباط زبانی که ‌آن هم یکی و هویت‌سازی‌ نوین است،‌ جریانی یک‌سویه به بار خواهد آمد. «از آنسو استیلا، قدرت، تجاوز و استعمار می‌تازد و در این سو دفاع انفعالی به صورت فلج ذهنی بروز می‌کند. چنین وضعی دیگر مجالی برای گفتگو و هم‌سخنی باقی نمی‌گذارد. هر چه هست تخریب صدف تمدن‌های محلی است که از آنها غالباً جز پوستۀ فولکلور چیزی باقی نمانده است»
[6].

 

 مرگ زبان

یك شكل بارز مرگ یک زبان این است كه همۀ افرادی كه به آن زبان صحبت می­كنند به دلیل نسل­كشی و یا بیماری نابود شوند. این اتفاقی است كه متأسفانه بر سر برخی از زبان­های منطقۀ كاراییب افتاده و مردم آ نجا بعد از فرا رسیدن كاشفان اروپایی از بین رفتند و زبان­هایشان هم مضمحل شد. ولی این شكل نابودی خیلی به ندرت اتفاق می­افتد. شكل بسیار شایع­تر نابودی یک زبان، به صورت اوج جابجایی در زبان بروز می­كند كه حاصل فشارهای درونی و برونی است كه متكلمین به یک زبان را به استفاده از زبانی دیگر ترغیب می­كند. این فشارها می­تواند به شكل تغییر در ارزش­ها و سنن و یا تغییرات در زندگی اقتصادی و سیاسی ناشی از تجارت، ازدواج‌های مختلط، تغییر مذهب و لشگركشی­های نظامی و یا وضع قوانین نژادپرستانه و نابرابر باشد.
برخی نویسندگان از این پدیده­ها به عنوان تغییر در اكولوژی زبان یاد می­كنند. این نام‌گذاری با توجه به تمثیل با گونه­های موجودات زنده صورت می­گیرد و مشابه با فرضیۀ داروین برای زبان­ها هم دو گزینه انطباق و یا اضمحلال را تداعی می­كند. در عمل اتفاقی كه می­افتد این است كه پدر و مادرهایی كه خود دوزبانه هستند دیگر لزومی به تعلیم فرزندانشان به زبانی كه دارای اهمیت كمتر است نمی­بینند. وقتی كه فرزندان دیگر انگیزه­ای برای كسب مهارت در زبان كم­اهمیت‌تر (یعنی زبانی كه كمتر با عوامل مثبت نظیر جوانی، مدرنیته، علم، فناوری و پیشرفت­های مادی و آموزشی عجین است) نداشته باشند، خواه ناخواه قدرت آنها در استفاده از آن زبان­ها به تحلیل می­رود. این موضوع به نوبۀ خود باعث می­شود كه دایرۀ كارآمدی چنین زبان­هایی باز هم كوچک­تر گردد تا به جایی كه در عمل هیچ كاربرد مهمی برای زبان باقی نماند. به این شكل از مرگ یک زبان به اصطلاح، خودكشی زبان هم اطلاق می­گردد.
در بسیاری از مناطق جهان نجات زبان­هاى در شرف انقراض در دستور كار دولت­ها، نهادهای مدنی، دانشمندان و پژوهشگران قرار دارد. به عنوان مثال زبان مانچو كه در زمان سلسلۀ Qing به عنوان زبان ملی كشور چین اعلام شده بود امروزه با تنها 100 نفر متكلّم در خطر انقراض قرار دارد. این زبان اكنون تحت حمایت دولت چین قرار گرفته است تا از انهدام آن جلوگیری به عمل آید. نمونه­هایی از این دست را می­توان در سراسر جهان سراغ گرفت.
به­طور كلی دو راه برای نجات یک زبان وجود دارد. نخست مستندسازی و دوم تجدید حیات. روش دوم نیازمند حمایت همه­جانبه، آموزش، و فرهنگ­سازی است و كاری است كه به ارادۀ جمعی محتاج است.



جایگاه زبان­ها در ایران

ایران
كشوری است كه از اقوام مختلف تشكیل شده است. علاوه بر زبان فارسی كه زبان رسمی و اداری، و همچنین زبان مشترک این اقوام است، زبان­های دیگری نظیر تركیِ آذری، كُردى، لری، عربی، بلوچی، تركمن، ارمنی و گیلكى نیز در ایران مورد استفاده بوده و سابقۀ طولانی دارند. در این بین زبان كُردى در استان­های كردستان، كرمانشاه، آذربایجان غربی، ایلام، همدان، گیلان، لرستان و بخش­هایی از خراسان فراگیر بوده و در تهران نیز زبان مادری مهاجران بسیاری می‌باشد. همچنین زبان آذری نیز در استان­های آذربایجان شرقی، زنجان، همدان، مركزی، اردبیل، آذربایجان غربی و تهران مورد استفاده قرار می­گیرد.  
در قوانین ایران هر چند زبان فارسی موقعیت ویژه­ای دارد، استفاده از سایر زبان­های ایرانی نیز مجاز شمرده شده است. به موجب اصل 15 قانون اساسى جمهورى اسلامى ایران زبان و خط رسمى و مشترک مردم ایران فارسى است. همین اصل در دنباله چنین می­گوید: اسناد و مكاتبات و متون رسمى و كتب درسى باید با این زبان و خط باشد ولى استفاده از زبان­هاى محلى و قومى در مطبوعات و رسانه­هاى گروهى و تدریس ادبیات آنها در مدارس، در كنار زبان فارسى آزاد است.
وظیفه و تعهد مهندسین و پژوهشگران و زبانشناسان ایرانی است تا با توجه به ظرفیت­های موجود در كشور، پژوهش در راستای پردازش گفتار به همگی زبان­های ایرانی را به انجام رسانند. تعلل در این زمینه می­تواند در كوتاه ­مدت نتایج مخرب فرهنگی و اجتماعی و در دراز مدت نتایج فاجعه­آمیزتر سیاسی در پی داشته باشد.

 


تشخیص خودكار كلام

یكی از پروژه­های
مهم در این زمینه تشخیص خودكار كلام است كه در اكثر زبان­ها از جمله در زبان­های كُردی، فارسی و آذری نسبت به تبدیل متن به كلام از پیچیدگی بیشتری برخوردار است. این پیچیدگی به­طور عمده به دلیل وجود لهجه­های متفاوت، وجود ابهامات گفتاری، تفاوت در عادت­های گفتاری در بین گویندگان مختلف و همچنین شرایط شنیداری غیر برابر می­باشد. سیستم­های تشخیص خودكار كلام كاربردهای بسیار زیادی دارند. به عنوان مثال افراد با محدودیت‌های بینایی و یا حركتی می­توانند از این سیستم­ها برای برقراری ارتباط گفتاری با ماشین (به جای صفحه كلید) استفاده نمایند. همچنین سیستم­های خودكار پاسخگوی تلفنی، تایپ خودكار، مترجم خودكار و بسیاری از كاربری های دیگر از الگوریتم­های تشخیص خودكار كلام استفاده می­كنند.



سیستم تبدیل متن به گفتار

سیستم­های تبدیل متن به گفتار، همان‌طور که از اسم­شان پیداست، سیستم­هایی هستند که متن را به عنوان ورودی گرفته و آن را به گفتار تبدیل می­کنند. به عبارت بهتر این سیستم­ها می‌توانند متن ورودی را بخوانند. شاید در نگاه اول طراحی این سیستم­ها آسان به نظر برسد؛ اما در عمل ساختن آن­ها با چالش­های فراوانی مواجه است. ساختن این سیستم­ها از حدود 250 سال پیش مد نظر دانشمندان بوده است. با این حال بیشترین پیشرفت در اوایل قرن گذشته و با روی کار آمدن سیستم­های الکترونیکی حاصل شد. بعد از آن و با توجه به تجاری شدن این سیستم­ها، حجم تحقیقات و سرمایه­گذاری­ها افزایش یافته و نهایتاً در دهه­های اخیر در تعدادی از زبان­ها همچون انگلیسی و فرانسوی سیستم­هایی با کیفیت قابل قبول ساخته شدند.
سیستم‌های تبدیل متن به گفتار دارای دو مرحلۀ اصلی تحلیل متن و تولید گفتار هستند. بخش اول، متن را به عنوان ورودی گرفته و بعد از ابهام­زدایی، آن را به عنوان ورودی بخش دوم آماده می­کند. همچنین برخی تحلیل­های نوایی هم در این مرحله صورت می­گیرد. از بین بردن ابهامات موجود در متن و استخراج درست اطلاعات نوایی کار بسیار پیچیده و سختی است و هنوز یکی از موضوعات جذاب در تحقیقات می­باشد. در بخش دوم این سیستم­ها بایستی گفتار مورد نظر تولید شده و اطلاعات نوایی مطلوب به آن اضافه ­شود.
در طراحی هر سیستم لازم است که نیازها، مسائل و مشکلات آن سیستم به‌طور کامل بررسی شود. در نگاه اول ممکن است طراحی یک سیستم تبدیل متن به گفتار ساده به نظر برسد اما با در نظر گرفتن فرآیند تولید صحبت توسط انسان، پیچیدگی­های این سیستم بیشتر نمایان می‌گردد. مسائل و مشکلات سیستم‌های تبدیل متن به گفتار در زمینه‌های مختلف مطرح و دارای گستردگی بسیار زیادی هستند. از آنجا که در یک سیستم تبدیل متن به گفتار نیاز است که متن ورودی به گفتار قابل فهم تبدیل گردد لازم است ابتدا یک پیش­پردازش بر روی متن انجام شود تا متن ورودی به یک متن عادی و خوانا تبدیل شود. برای مثال لازم است که علائم ناشناخته، اعداد، کوته­نوشت و غیره به شکل متنی قابل خواندن نوشته شوند.
پس از عادی‌سازی متن، باید زنجیرۀ واحدهای صوتی تشکیل دهندۀ گفتار مربوطه را تولید نمود. مسائل و مشکلاتی که برای تولید زنجیرۀ واحدها ممکن است پیش بیاید بسیار متنوع است، برای مثال می­توان به رفع ابهام کلمات هم­نویسه[1] اشاره نمود. با توجه به اینکه تعداد و انواع کلمات هم­نویسه در یک زبان خاص بسیار متنوع است، بنابراین برای رفع ابهام هر مورد به قواعد ساختاری و معنایی خاصی نیاز داریم تا بتوانیم گفتار متناسب را تولید نماییم. همچنین در این مرحله لازم است که ویژگی­های نوایی گفتار از متن استخراج گردد. تشخیص ویژگی­های نوایی یکی از مسائل اساسی در سیستم­های تبدیل متن به گفتار است. متن ورودی به‌صورت مستقیم هیچ­گونه اطلاعاتی در مورد نوای گفتار، تلفظ کلمات هم­نویسه، تلفظ اسامی بیگانه و ... را در اختیار سیستم قرار نمی­دهد.

پس از تولید زنجیرۀ واج­های گفتار و استخراج ویژگی­های نوایی گفتار از متن، باید اطلاعات موجود را در اختیار سنتزکنندۀ گفتار قرار داد تا سیگنال صحبت تولید شود. برای تولید سیگنال صحبت نیز روش­های مختلفی وجود دارد که در این فصل به تفصیل بررسی شده­اند.

 



لزوم انجام پژوهش و كاربردها

تا به حال برای بسیاری از زبان­های دنیا همچون انگلیسی، فرانسوی، اسپانیولی، آلمانی، ایتالیایی، هلندی، سوئدی، دانمارکی، عربی، نروژی و غیره سیستم­های تبدیل متن به گفتار با کیفیت مناسب ارائه شده است. حتی در اکثر این زبان­ها، سیستم­هایی برای لهجه­های مختلف هم عرضه شده است. این در حالی است که متأسفانه برای اکثر زبان­هایی که در ایران تکلم می­شود هیچ کار قابل ملاحظه­ای صورت نگرفته است. باید به این نکته توجه شود که جمعیت متکلم به هر كدام از زبان­های کردی و آذری بیشتر از بسیاری از زبان­هایی است كه در آنها سیستم­های سنتز به صورت كامل ارائه گردیده است. این نکته ضعف در تحقیقات و کم­توجهی افراد این زبان را نشان می­دهد.

با توجه به گسترش روزافزون کاربرد سیستم­های سنتز گفتار و همچنین با رشد سریع فناوری، نیاز به سیستم­های تبدیل متن به گفتار هر روز بیشتر احساس می­شود. شایسته است که در کمترین زمان ممکن تحقیقات مورد نیاز این سیستم­ها برای تمامی زبان­های مورد تکلم در ایران انجام گیرد. در این میان زبان کُردی هم به عنوان یکی از زبان­های شاخه ایرانی، نیازمند توجه بیشتر محققان و به خصوص جامعۀ دانشگاهی می­باشد.

انسان برای برقراری ارتباط با دیگران و همچنین استفاده از امکانات پیرامون خود همواره تمایل دارد که از ساده­ترین روش ارتباط یعنی ارتباط زبانی و یا گفتاری استفاده نماید. سیستم­های تبدیل متن به گفتار در کنار بازشناسی گفتار توسط ماشین، امکان برقراری ارتباط بین انسان و ماشین را به شکل گفتاری فراهم می­نمایند. علاوه بر این انسان به طور طبیعی به جای خواندن متون ترجیح می­دهد که متون را به صورت شنیداری دریافت نماید. با توجه به اینکه امروزه متون به صورت دیجیتالی منتشر می­شوند، در موقعیت­های مختلف خواندن متون توسط ماشین بسیار مفید واقع می­گردد که از این جمله می­توان به خواندن در حین رانندگی، خواندن پست­های الکترونیکی و خواندن پیامک­های دریافتی اشاره نمود.
همچنین کمک به افراد نابینا جهت خواندن متون، استفاده از سیستم­های سنتز در مراکز خدمات ارتباطی همچون تلفن­های گویا، کمک به آموزش و یادگیری زبان توسط کودکان و همچنین یادگیری زبان­های بیگانه، محاورۀ انسان و کامپیوتر، دسترسی به بانک­های اطلاعاتی از طریق گفتار، کاهش حجم اطلاعات صوتی و انتقال سریع‌تر آنها و غیره از دیگر کاربردهای سیستم­های تبدیل متن به گفتار خواهند بود.

 



كارهای انجام گرفته و نواقص موجود

همان‌طور که بیان شد امروزه طراحی و ساخت سیستم تبدیل متن به گفتار به یکی از ملزومات مهم برای هر زبان تبدیل شده است. ما در دانشگاه كردستان پژوهش­هایی را در زمینۀ طراحی و پیاده­سازی سیستم سنتز در زبان­های كُردی و آذری انجام داده­ایم [7-10] كه در این میان دو نکته حائز اهمیت بود: اولاً در این زبان­ها تا به حال هیچ کار علمی در این زمینه صورت نگرفته و به عبارت دیگر بسترهای انجام این تحقیق از قبل موجود نبودند. سیستم­های تبدیل متن به گفتار نیازمند پایگاه­داده­ها، استانداردها و به طور کلی چارچوب مناسب می­باشند. به علاوه برای توسعۀ بهتر این سیستم­ها در هر زبان، نیازمند تحلیل­های زبان­شناسی مناسب از طرف زبان‌شناسان هستیم. متأسفانه در اکثر موارد این تحلیل­ها از قبل وجود نداشته و در راستای انجام این تحقیق برای اولین بار صورت گرفته است.
نکته دوم که باید به آن­ توجه شود پیچیدگی و گستردگی زیاد این سیستم­ها می­باشد. این سیستم دارای زیربخش­هایی است که برای توسعۀ هر کدام از آن­ها به تلاش و زمان زیادی نیاز است. برخی از این بخش­ها هنوز در حال توسعه بوده و زمینۀ تحقیقات زیادی هستند. با توجه به این مطالب، طبیعی است که طراحی یک سیستم تبدیل متن به گفتار همه منظوره با قابلیت­های بالا آن هم در اندک زمان، از عهدۀ چند نفر به تنهایی خارج است و نیاز به مشارکت محققان زیادی دارد.
هدف اولیه در این تحقیقات ایجاد بستر مناسبی برای توسعۀ یک سیستم تبدیل متن به گفتار برای زبان­های کردی و آذری بوده است. در واقع ایجاد چارچوب مناسب برای این سیستم­ها به گونه­ای که بتواند زمینه­ساز انجام گرفتن تحقیقات در آینده باشد، اولین و مهم­ترین قدم در راستای تولید این سیستم خواهد بود. در بررسی­های اولیۀ تولید یک سیستم اتصالی قابل فهم مبتنی بر دایفون هدف اصلی این پروژه بوده است. با توجه به اینکه بخش استخراج اطلاعات نوایی دارای پیچیدگی­های زیادی است و به تحلیل­های زبان­شناسی بیشتری نیاز دارد، استخراج و افزودن این اطلاعات در تعریف اولیۀ پروژه، هدف نبوده است.
خوشبختانه در طی انجام این تحقیق علاوه بر دست یافتن به تمامی اهداف اولیه، کارهای دیگری نیز صورت گرفته است که این پروژه را پربارتر می­نمایاند. به‌عنوان مثال در زبان كُردی استخراج منحنی­های تغییرات گام از جمله مهم­ترین و مفیدترین کارها بود که برای اولین بار صورت گرفته است. شایان ذکر است که این منحنی­ها علاوه بر استفاه در سیستم­های سَنتز، می­توانند در بسیاری از سیستم­های دیگر نیز استفاده شوند و همچنین به مرجع مناسبی برای زبان کُردی تبدیل شوند
[8]. همچنین به غیر از سیستم مبتنی بر دایفون، دو سیستم مبتنی بر هجا و واج‌گونه هم طراحی شدند که فراتر از اهداف اولیه این پایان­نامه بوده است.
با توجه به اینکه تا به حال هیچ سیستم سنتزی برای زبان کُردی موجود نبوده است، طراحی این سیستم به تنهایی نوآوری مهمی محسوب می­شود. درصد بسیار بالایی از کارهای صورت گرفته برای اولین بار در این زبان انجام گرفته­اند. در زیر ما فهرستی از مهم­ترین کارهایی را که برای اولین بار انجام گرفته­اند، ارائه داده­ایم.

 

1.      استخراج منحنی تغییرات گام: همان‌طور که اشاره شد این منحنی­ها تا به حال برای زبان کُردی استخراج نشده بودند. ما در ابتدا جمله­های زبان کُردی را به ترتیبی که ملاحظه خواهد شد تقسیم­بندی کرده و سپس برای هر دسته منحنی مطلوب را استخراج کردیم. از این منحنی­ها می­توان در سیستم­های مشابه و همچنین دیگر سیستم­های مرتبط با زبان کُردی استفاده کرد. همچنین این منحنی­ها می­توانند منبع مناسبی برای مطالعات در مورد زبان کردی و ویژگی­های آن باشند.

2.      استفاده از هر دو رسم­الخط زبان کردی: می­دانیم که زبان کردی دارای سه رسم­الخط استاندارد است که از این میان دو رسم­الخط عربی و لاتین بسیار پرکاربرد هستند. امروزه می­توان متون زیادی را به هر یک از این دو رسم­الخط یافت. مشکل بزرگی که وجود دارد این است که معمولاً کُردزبانان فقط به یکی از این رسم­الخط­ها آشنایی داشته و بنابراین نمی‌توانند از متون نوشته شده به رسم­الخط دیگر استفاده کنند. ما برای اولین بار نمادهای استانداردی را پیشنهاد داده­ایم به گونه­ای که بتوان هر دو رسم­الخط را به آن نگاشت داد. همچنین بلاکی را پیاده­سازی کرده­ایم که هر دو رسم­الخط را گرفته و آن­ها را برای استفاده در سیستم سنتز آماده می­کند. با استفاده از این بلاک، کُردزبانان می­توانند از متون نوشته شده به هر دو رسم­الخط استفاده کنند.

3.      طراحی سیستم مبتنی بر واج­گونه: در زبان کُردی تا به حال هیچ سیستم سنتزی وجود نداشته و سیستم مبتنی بر واج­گونه اولین سیستم تبدیل متن به گفتار طراحی شده برای زبان کردی است.

4.      ساختن پایگاه­داده برای واج­گونه­ها: برای اولین بار پایگاه­دادۀ کاملی از واج­گونه­ها برای زبان کردی طراحی شده است که در آن سیگنال مربوط به هر واج­گونه جداگانه ذخیره شده است. همچنین حدود 2500 کلمه برای آموزش و تست شبکه به همراه واج­گونۀ مطلوب در آنها گردآوری شده است که می­تواند در سیستم‌ها و مطالعات آینده مورد استفاده قرار گیرد.

5.      استخراج واج‌گونه­ها به کمک شبکۀ عصبی: تا آنجا که مطالعات ما نشان می­دهد، تا به حال در هیچکدام از مقالات و سیستم­های دیگر از شبکه­های عصبی برای استخراج واج‌گونه­ها استفاده نشده است. همان­طور که ملاحظه خواهد شد، دقت این شبکه بسیار بالا و در حدود 98 درصد است.

6.      ساختن پایگاه­داده برای هجاها: برای اولین بار یک پایگاه­داده در مقیاس آزمایشگاهی برای هجاها طراحی شده است که شامل حدود 500 هجا می­باشد.

7.      طراحی سیستم سنتز مبتنی بر دایفون: با توجه به اینکه سیستم­های طراحی شده در این تحقیق اولین سیستم­های سنتز در زبان کردی هستند، می­توان گفت که سیستم مبتنی بر دایفون ما هم اولین سیستم سنتزی است که در زبان کردی از دایفون­ها استفاده می­کند.

8.      ساختن پایگاه­داده برای دایفون­ها: ما برای اولین بار در زبان کُردی یک پایگاه­داده کامل را برای دایفون­ها با دو صدای مختلف زن و مرد ضبط کرده­ایم؛ به علاوه یک پایگاه­داده هم در مقیاس آزمایشگاهی با صدای مرد ذخیره شده است که شامل حدود 300 دایفون می‌باشد.


در بخش تحلیل متن دو کار اصلی صورت گرفته است که شامل پیش­پردازش و در واقع ابهام­زدایی از متن و همچنین استخراج منحنی تغییرات گام برای انواع مختلف جمله­ها در زبان کردی است. در بخش پیش­پردازش ابتدا مشکلات موجود در زبان کردی را بررسی کرده و برای آن­ها در حد امکان راه­کارهایی ارائه دادیم. یکی از اولین مشکلات در زبان کردی وجود دو رسم­الخط استاندارد برای این زبان بود که برای حل این مشکل، ما نمادهای استانداردی را تعریف کرده و از آن­ها به عنوان یک رسم­الخط میانی استفاده کردیم. همچنین هر کدام از این رسم­الخط­ها هم دارای مشکلات خاص خود بودند؛ از این رو می­بایست مشکلات هر کدام را جداگانه بررسی کرده و حل کنیم. به غیر از این مشکلات، مواردی از ابهام در متن هم وجود دارد که مخصوص زبان کردی نبوده و در همۀ زبان­ها وجود دارد. به عنوان مثال می­توان به مشکلات مربوط به اعداد، مخفف­ها، اسامی­ خاص، کلمات بیگانه و غیره اشاره کرد که در این پایان­نامه هم در حد امکان در رفع آن­ها کوشیدیم.
در مرحلۀ تولید گفتار كُردی، ما سه سیستم تبدیل متن به گفتار مختلف را بر مبنای واج­گونه، هجا و دایفون پیاده­سازی کردیم. هر کدام از این سیستم­ها دارای ویژگی­های مختص به خود بوده و کیفیت سیگنال خروجی آن­ها نیز متفاوت است. در واقع هدف ما از طراحی این سیستم­ها، انجام مقایسه بین آن­ها بود. در این میان زمان­برترین قسمت کار ساختن پایگاه­داده برای هر کدام از این سیستم­ها بود.
سیستم مبتنی بر واج­گونه، اولین سیستمی بود که در این راستا توسعه یافت. با توجه به اینکه محل وقوع واج­گونه­ها دقیقاً معلوم نیست، ما برای تشخیص آن­ها از متن ورودی از شبکه­های عصبی کمک گرفتیم. برای این کار یک شبکه عصبی سه لایه­ای با الگوریتم پس­انتشارخطا در نظر گرفته شد. برای آموزش این شبکه هم نیاز به مجموعه آموزشی مناسب داشتیم که متاسفانه این مجموعه برای زبان کردی وجود نداشت. بنابراین خود مجموعه آموزشی و تست مناسب را طراحی کردیم. دقت نهایی شبکۀ عصبی بسیار خوب و در حد 98 درصد بود که قابل قبول می‌باشد. به علاوه در مواردی هم که شبکه اشتباه حدس می­زد، باز واج­گونه خروجی بسیار نزدیک به واج­گونه هدف تشخیص داده می­شد که باعث می­شود نتایج بسیار قابل قبول­تر باشد. همان­گونه که نتایج آزمون­های کیفیت در فصل قبل نشان داد، کیفیت نهایی این سیستم متوسط و در برخی موارد هم زیر متوسط بود.
دو سیستم مبتنی بر هجا و دایفون شبیه به روش­های معمول تولید گفتار طراحی شدند. قسمت اعظم تحلیل متن برای این دو سیستم یکسان بوده و در موارد بسیار جزئی با هم تفاوت داشتند. در بخش تولید گفتار هم بایستی برای این دو سیستم پایگاه­داده­های مناسبی ساخته می­شدند. برای سیستم مبتنی بر هجا یک پایگاه­داده در مقیاس آزمایشگاهی و با اندازه 500 واحد و برای سیستم مبتنی بر دایفون پایگاه­داده کامل با صدای زن و مرد طراحی شد. نتایج آزمون­های کیفیت نشان می­دهد که سیستم مبتنی بر هجا در کل کیفیتی متوسط را داراست. یکی از نقاط ضعف این سیستم سختی اعمال تغییرات نوایی می­باشد. در واقع با توجه به اینکه اندازۀ واحدهای ضبط شده بزرگ است، پس تغییر دادن ویژگی­های آن و اعمال نوای مورد نظر سخت­تر می­باشد. سیستم مبتنی بر دایفون دارای کیفیتی بالای متوسط و در برخی جنبه­ها کیفیت خوب بود. این سیستم کاملاً قابل مقایسه با سیستم­های طراحی شده در دیگر زبان­ها می­باشد.
برای سنجش کیفیت سیستم­های طراحی شده چهار آزمون مختلف برگزار گردید. در اولین آزمون که آزمون استاندارد
MOS می­باشد، بیشتر جنبه­های طبیعی بودن سیستم­ها را مورد ارزیابی قرار دادیم. نتایج این آزمون را با سیستم­های طراحی شده برای دو زبان فارسی و انگلیسی مقایسه کردیم. در این میان برای زبان انگلیسی از شش سیستم مشهور استفاده کردیم. نتایج آزمون نشان می­دهد که در کل سیستم­های طراحی شده دارای کیفیت قابل قبولی هستند.
سه آزمون دیگر بیشتر جنبۀ قابلیت فهم سیستم­ها را ارزیابی می­کنند. در آزمون اول نرخ تشخیص درست کلمات و نرخ تشخیص درست هجاها را مورد مقایسه قرار داده­ایم. دو آزمون دیگر، آزمون­های استاندارد
DRT و MRT هستند که البته فقط سیستم­های مبتنی بر واج­گونه و مبتنی بر دایفون را ارزیابی می­کنند. همانطور که نتایج این سه آزمون نشان می­دهد قابلیت فهم هر سه سیستم خوب بوده و به ویژه در این میان سیستم مبتنی بر دایفون قابلیت فهم بسیار خوبی را داراست.
همانطور که بیان شد، ما در این پایان­نامه دو سیستم تبدیل متن به گفتار کامل را بر اساس دو واحد واج­گونه و دایفون طراحی کرده­ایم. در اینجا منظور از کامل بودن این است که سیستم متن را گرفته و به گفتار تبدیل می­کند. اگر کار ساخت پایگاه­دادۀ هجا هم پایان یابد، این سیستم هم سیستم کاملی محسوب خواهد شد. اما این بدان معنا نیست که ما همۀ بخش­های سیستم‌های تبدیل متن به گفتار را پیاده­سازی کرده­ایم. در واقع ما با توجه به زمان و امکانات موجود، برخی از بخش­ها را در نظر نگرفته­ایم که البته باید در کارهای آینده مورد توجه قرار گیرند.
در این تحقیق کار تعیین و استخراج منحنی تغییرات گام مد نظر بوده است. اما اعمال این منحنی به سیگنال نهایی کار دیگری‌ست که مجال پرداختن به آن را پیدا نکردیم. همچنین در بخش اطلاعات نوایی، علاوه بر منحنی تغییرات گام، دو مؤلفۀ تکیه و دیرش هم مطرح هستند که با توجه به پیچیدگی زیاد آن­ها و به ویژه مقوله تکیه، ما در این مرحله از آن­ها صرف نظر کرده و آن را به آینده موکول کرده­ایم.
برای ساخت سیستم­های تبدیل متن به گفتار روش­های دیگری هم پیشنهاد شده است که می‌توانند در کارهای آینده مورد توجه قرار گیرند. روش­های مبتنی بر پیکره یکی از روش­هایی است که در دهۀ اخیر بسیار مورد توجه قرار گرفته است. مهم­ترین چالش این روش پایگاه­ دادۀ بسیار بزرگ آن است که کار طراحی و ساخت آن بسیار زمان­بر و طاقت­فرساست. به همین دلیل در این پایان­نامه ما از این روش صرف­نظر کردیم. اما با توجه به مزایای زیاد این روش، می­توان در ادامۀ این تحقیق، از آن استفاده کرد. همچنین در راستای ساخت سیستم­های سنتز ابزارهای جدیدی به کار گرفته شده­اند که بازدهی بسیار خوبی از خود نشان داده­اند. مدل مخفی مارکوف
(HMM) یکی از این ابزارهاست که به خصوص از سال 2007 به بعد بسیار مورد توجه بوده است و در بسیاری از تحقیقات چند سال اخیر مورد استفاه واقع شده است.

 

نتیجه‌گیری

با توجه به اهمیت فراوان و كاربردهاى وسیع پردازش گفتار و با توجه به تأخیر موجود در فعالیت در زبان­های كُردی و آذری، لازم است تا فعالیت در این زمینه هر چه سریع­تر راه­اندازی شود. در صورت تأخیر بیشتر ممكن است در آیندۀ نه چندان دور با عواقب حادی مواجه گردیم. حداقل نگرانی این خواهد بود كه كشور ما كه خود قادر به تولید این فناوری­هاست در نهایت به وارد كننده آنها تبدیل گردد. و البته حالت بدتر این است كه زبان­های ایرانی قدرت خود را برای عرض اندام در دنیای جدید از دست بدهند و تبدیل به زبان­های حاشیه­ای گردند و به تدریج جای خود را به زبان‌های بیگانه بدهند.
در مرحلۀ نخست باید نیروها شناسایی شده و هسته­های تحقیقاتی تشكیل شوند. تهیۀ پایگاه داده­ها و همچنین ایجاد امكانات لازم برای انجام تست در همین مرحله باید مد نظر قرار بگیرد. در انجام این كار همكارى بین مراكز علمی پژوهشی دانشگاهی و صنعتی و همچنین شركت در گروه­هاى معتبر علمى جهانی توصیه مى‌گردد. همچنین شایان ذكر است كه هر چند در این نوشته بیشتر در مورد زبان­های كُردی و آذری بحث گردید لكن وضعیت سایر زبان‌های ایرانی نیز كمابیش به همین­گونه است و تنها در زبان فارسی است كه چند گروه تحقیقاتی مشغول فعالیت هستند.




پانویس‌ها

اویسنا سلوشنز، تورنتو، كانادا

**  گروه كامپیوتر، دانشگاه كردستان، سنندج، ایران


منابع

1
) ا. ر. هال، زبان و زبان‌شناسی، ترجمۀ محمدرضا براهنی، تهران، نشر امیرکبیر، 1363.

2) م. بودریار، سرگشتگی نشانه‌ها، نمونه‌هایی از نقد پسامدرن، ترجمۀ بابک احمدی و ...، تهران، نشر مرکز، 1374.

3) ی. و. برتنز، نظریه ادبی، ترجمه فرزان سجودی، تهران، نشر آهنگ دیگر، 1382.

4) م. پین، فرهنگ اندیشۀ انتقادی از روشنگری تا پسا مدرنیته، ترجمه پیام یزدانجو، تهران، نشر مرکز، 1382.

5) شایگان، داریوش، بت‌های ذهنی و خاطرۀ ازلی، تهران، نشر امیرکبیر، 1381.

6) ف. جی. نیومایر، جنبه‌های سیاسی زبان‌شناسی، ترجمۀ اسماعیل فقیه، تهران، نشر نی، 1378.

7) س. دامادی، طراحی سیستم سنتز گفتار در زبان تركی آذری، پایان­نامۀ كارشناسی ارشد، دانشكدۀ فنی و مهندسی، دانشگاه كردستان، 1388.

8) و. بارخدا، طراحی و پیاده­سازی سیستم تبدیل متن به گفتار در زبان كردی، پایان­نامۀ كارشناسی ارشد، دانشكدۀ فنی و مهندسی، دانشگاه كردستان، 1388.

9) W. Barkhoda, B. ZahirAzami, A. Bahrampour, and O. Shahryari, "A Comparison between Allophone, Syllable, and Diphone Based TTS Systems for Kurdish Language," in Proceeding of The 9th IEEE International Symposium on Signal Processing and Information Technology (IEEE ISSPIT 2009), Ajman, UAE, Dec. 2009.

10) S. Damadi, B. ZahirAzami, M. Eslami, “Prosody Generation in TTS System for Azeri,” proceedings of the Advanced Intelligent Mechatronics (AIM), Montreal, Quebec, Canada, July 2010.

 

 

 



[1] - کلماتی که دارای شکل نوشتاری یکسان و شکل گفتاری متفاوت هستند.

Comments