لزوم پژوهش در پردازش گفتار زبانهای ایرانی
)با تأكید
بر زبانهای كُردی، فارسی و آذری(
دكتر بهرام ظهیراعظمى*،
وفا بارخدا**، سعید دامادی**
پیشگفتار
در جهانِ امروز
قریب به 6700 زبان زنده
شناخته شدهاند كه در
گوشه و كنار
كرۀ خاكى با آنها تكلم
میشود. با این وجود
بنابر نظر بسیاری از
زبانشناسان حدود 90 درصد این
زبانها شانس زیادى
براى زنده ماندن
تا پایان سدۀ
حاضر میلادی را
ندارند. با توجه
به سیطرۀ روزافزون
فنون نوین بر
زندگی بشر، زبانهایی
كه نتوانند خود
را با این
فنون جدید وفق
دهند، خواه ناخواه از
امید خود به
شكوفایی و احتمال
بقای خود خواهند كاست. وقتی بیشتر
به اهمیت این
موضوع پی میبریم
كه توجه كنیم
با در خطر
انقراض قرارگرفتن
یک زبان، تمامی دستاوردهای
بشری كه در آن زبان است
مورد تهدید واقع میشود،
اعم از دستاوردهای
فرهنگى، علمى، اجتماعى
و غیره. بنابراین
شایسته است تا
پژوهشگران در فنون
نوین و علوم انسانی
تلاش خود را
در جهت حفظ
و حراست از
این میراث بشری معطوف
دارند.
هر چند به
اعتقاد نویسندگان زبانهای ایرانی (به خصوص زبانهای كردی،
فارسی و آذری) به طور
جدی در معرض
خطر انقراض نیستند، در
اینجا سعی میكنیم تا
برخی از چالشهایی
را كه این
زبانها با آنها روبرو هستند معرفی كرده
و اهمیت پرداختن
بیشتر به آنها را در
حوزۀ فنون نوین
خاطرنشان نماییم. در این نوشته
اهمیت و جایگاه
پردازش گفتار در
زبان از نظر فرهنگى،
اجتماعى، علمى، اقتصادى
و تجارى به
اختصار بررسی خواهد شد. همچنین
كاربرد این پژوهشها
در زمینههاى مختلف مورد
بررسى قرار خواهد
گرفت.
نقش زبان در فرهنگ و هویت جامعه
تأکید بر زبان به گونهای است که به
اعتقاد بسیاری از اندیشمندان، «زبان» شاخص اصلی هویتدهی به فرهنگ ملی است [1,2]. ارتباط زبان با ذهن، روح، هویت زبانی، فکر و اندیشه افراد متكلم
به آن، بسیاری از جوامع استعمارگر را بر این واداشت که برای تسخیر و استعمار
جوامع دیگر بر تسخیر زبان و هویت زبانی تأکید کنند. استعمارگران در طول زمان
استعمارگری خود، با آگاهی از اهمیت تسلط فرهنگی و زبانی، کوشیدهاند به شیوهای غیرمحسوس
و نامرئی از طریق زبان، فرهنگ، تفکر، اعتقادات و آداب و سنن خود را انتقال داده و
بدین ترتیب مراحل نفوذ و استعمار خود را تکمیل و تقویت نمایند. جوامع استعمارشده
در اثر ضعف فرهنگی و زبانی به پذیرش فرهنگ استعمارگر گردن نهاده و کمکم همۀ جنبههای
فرهنگی و سلطههای فکری را نیز پذیرفته است. به این ترتیب همسو و همجهت با منابع
استعمارگر خواهند شد. نویسندگان و اندیشمندان زیادی همچون ادوارد سعید، هومی
بهابها، گایاتری چاکراورتی اسپیواک و ... به بررسی رویکرد جهتدار مطالعات
استعماری و اثرات سلطهی آنان پرداختهاند [3,4].
فرانتس فانون در فصل نخست «پوست سیاه نقابهای سفید» یعنی «سیاهان و زبان»، قدرت زبان را برای تغییر
دادن فرهنگ در جریان استعمار، نمایان میکند. او با اظهار این که «سخن
گفتن به معنی مطلقاً موجودیت داشتن برای دیگری» است از جایگاه فروتری که جزایر
آنتیل به زبان کریولی در مقایسه با زبان فرانسوی به عنوان زبان «تمدن» اختصاص
یافته انتقاد کرده و نشان میدهد که خوارداشت زبان محلی از سوی استعمارگران به
عنوان زبانی «پست» کلید فهم
رویۀ غیر انسانی آنان است» [3].
فرهنگهای متفاوت، زبانهای متفاوتی را که حامل و حاصل اندیشههایشان هستند،
تولید میکنند. زبان معنیهای آنان را انتقال میدهد، بنابراین از طرفی کالایی
فرهنگی و از طرف دیگر به عنوان نمادی از استقلال فرهنگ مادر محسوب میشود [1]. استعمارگران و سلطهگستران با آگاهی از این جنبۀ زبان است که
بیشترین تأکید را بر فروپاشی زبانهای فرودست دارند. ملتی که زبان را به عنوان
تنها عنصر معنیبخش و حامل فرهنگ از دست بدهد، لاجرم با پذیرش زبان دیگری، فرهنگ
دیگری و از طریق آن هویت دیگری را خواهد پذیرفت.
اگر ملتی زبان را به عنوان دستگاهی معنیبخش درک کرده و درصدد استفاده از آن
برآید، با انعکاس هستی خود از طریق آن حال و گذشتۀ خود را در بوتۀ زبان مینمایاند،
چرا که «زبان آیینه میراث فرهنگی، وسیلۀ
ارتباط ما با گذشته و تجسم چیزهایی است که هم انسانی و هم شریف است» [1]. زمانی که میراث فرهنگیگذشته و تولیدات
فکری امروز از طریق زبان حفظ و منتقل شده، پایگاهی برای هویت ملت شکل میگیرد به
هدف رویارویی با فرهنگهای مهاجم و غالب که اکثراً تلاششان به هدف نابسامانی این
هویت و گم کردن این میراث است. دانشمندانی که زبان را از دیدگاه جامعهشناسی مورد
بررسی قرار دادهاند معتقدند که «در نهایت زبان مشخصترین رسانۀ مبادلات اجتماعی
است، از این رو بایستی همۀ جوانب هستی اجتماعی ما را منعکس کند و همۀ آن را تحت
تأثیر قرار دهد» [5].
بر همین اساس ملتی فاقد زبانی پویا، آسانتر بیگانه شده و راه نابودی را میپیماید.
چون گذشتهای که ذخایر اندیشهاش را در بردارد و حالی که منبع تولید فکر کنونیاش
است، به دلیل همین ضعف نابود میشود. ذهن جمعیاش معطوف به «کالاهای فکری و زبانی»
واردشده و تحمیلشده خواهد شد و نهایتاً در ارتباط با فرهنگ غالب، خود، تاریخ و
زمان خود را واگذار میکند. اگر ملتی درک درستی از زمان نداشته باشد، درک صحیحی از
«خود» نخواهد داشت و اگر «خود» را به عنوان عنصری تأثیرگذار گم کند به مدد آن
زبان و هویتش را نیز فراموش کرده است.
ریبوارسیوهیلی بر اساس همین اهمیت «زمان، زبان و خود» است که در خصوص درک صحیح
«حاج قادر کویی» از زمان و زبان میگوید: «فهم حاجی از زمان با فهم درست و یگانۀ
او از خود و هویتش شکل میگیرد، هویت «خود» هم در زبان و بخصوص زبان شعر برجسته میشود.
حاجی به همان اندازه که در جستجوی هویت برای خودش بوده، زبان و به ویژه زبان شعر
را ستایش کرده است که نشان دهندۀ «خود» است در زندگی اكنون او» [4].
در جهان کنونی اگر دفاع فعال که مبتنی بر غنای فرهنگی و اعتماد به خود و به دانش
و فرهنگ ملی است توسط ملتهای فرودست و از طریق زبان شکل نگیرد، در نهایت با توجه
به دو قطبی بودن فرهنگ (غالب/مغلوب یا فرادست/فرودست) به جای تبادل فرهنگ و ارتباط
زبانی که آن هم یکی و هویتسازی نوین است، جریانی یکسویه به بار خواهد آمد.
«از آنسو استیلا، قدرت، تجاوز و استعمار میتازد و در این سو دفاع انفعالی به صورت
فلج ذهنی بروز میکند. چنین وضعی دیگر مجالی برای گفتگو و همسخنی باقی نمیگذارد.
هر چه هست تخریب صدف تمدنهای محلی است که از آنها غالباً جز پوستۀ فولکلور چیزی
باقی نمانده است» [6].
مرگ زبان
یك شكل بارز
مرگ یک زبان
این است كه
همۀ افرادی كه به
آن زبان صحبت
میكنند به دلیل
نسلكشی و یا
بیماری نابود شوند. این اتفاقی
است كه متأسفانه
بر سر برخی
از زبانهای منطقۀ كاراییب
افتاده و مردم
آ نجا بعد
از فرا رسیدن كاشفان
اروپایی از بین
رفتند و زبانهایشان
هم مضمحل شد. ولی این
شكل نابودی خیلی
به ندرت اتفاق میافتد. شكل
بسیار شایعتر نابودی
یک زبان، به
صورت اوج جابجایی در
زبان بروز میكند كه
حاصل فشارهای درونی
و برونی است
كه متكلمین به یک زبان
را به استفاده
از زبانی دیگر
ترغیب میكند. این
فشارها میتواند به
شكل تغییر در
ارزشها و سنن و
یا تغییرات در
زندگی اقتصادی و
سیاسی ناشی از
تجارت، ازدواجهای
مختلط، تغییر مذهب
و لشگركشیهای نظامی
و یا وضع قوانین
نژادپرستانه و نابرابر
باشد.
برخی
نویسندگان از این
پدیدهها به عنوان
تغییر در اكولوژی زبان
یاد میكنند. این نامگذاری
با توجه به
تمثیل با گونههای موجودات
زنده صورت میگیرد
و مشابه با
فرضیۀ داروین برای زبانها
هم دو گزینه
انطباق و یا
اضمحلال را تداعی میكند. در
عمل اتفاقی كه
میافتد این است
كه پدر و
مادرهایی كه خود دوزبانه
هستند دیگر لزومی
به تعلیم فرزندانشان
به زبانی كه دارای اهمیت
كمتر است نمیبینند. وقتی
كه فرزندان دیگر انگیزهای
برای كسب مهارت
در زبان كماهمیتتر (یعنی
زبانی كه كمتر
با عوامل مثبت
نظیر جوانی، مدرنیته، علم،
فناوری و پیشرفتهای
مادی و آموزشی
عجین است) نداشته باشند،
خواه ناخواه قدرت
آنها در استفاده
از آن زبانها
به تحلیل میرود. این
موضوع به نوبۀ
خود باعث میشود كه
دایرۀ كارآمدی چنین
زبانهایی باز هم
كوچکتر گردد تا به
جایی كه در
عمل هیچ كاربرد
مهمی برای زبان باقی
نماند. به این شكل
از مرگ یک
زبان به اصطلاح، خودكشی
زبان هم اطلاق
میگردد.
در بسیاری از
مناطق جهان نجات
زبانهاى در شرف انقراض در
دستور كار دولتها،
نهادهای مدنی، دانشمندان
و پژوهشگران قرار دارد. به
عنوان مثال زبان
مانچو كه در
زمان سلسلۀ Qing به عنوان زبان ملی كشور چین اعلام شده بود امروزه با تنها 100
نفر متكلّم در
خطر انقراض قرار
دارد. این زبان اكنون تحت
حمایت دولت چین
قرار گرفته است
تا از انهدام آن
جلوگیری به عمل
آید. نمونههایی
از این دست
را میتوان در سراسر
جهان سراغ گرفت.
بهطور
كلی دو راه
برای نجات یک
زبان وجود دارد. نخست مستندسازی و
دوم تجدید حیات. روش
دوم نیازمند حمایت همهجانبه،
آموزش، و فرهنگسازی
است و كاری
است كه به ارادۀ
جمعی محتاج است.
جایگاه زبانها در ایران
ایران كشوری است
كه از اقوام
مختلف تشكیل شده
است. علاوه بر زبان
فارسی كه زبان
رسمی و اداری،
و همچنین زبان مشترک
این اقوام است،
زبانهای دیگری نظیر
تركیِ آذری، كُردى، لری،
عربی، بلوچی، تركمن،
ارمنی و گیلكى نیز در
ایران مورد استفاده
بوده و سابقۀ
طولانی دارند. در این بین
زبان كُردى در استانهای
كردستان، كرمانشاه، آذربایجان غربی،
ایلام، همدان، گیلان، لرستان
و بخشهایی از
خراسان فراگیر بوده
و در تهران نیز
زبان مادری مهاجران
بسیاری میباشد. همچنین زبان
آذری نیز در استانهای آذربایجان شرقی، زنجان، همدان، مركزی، اردبیل، آذربایجان
غربی و تهران مورد استفاده قرار میگیرد.
در قوانین ایران
هر چند زبان فارسی
موقعیت ویژهای دارد، استفاده
از سایر زبانهای
ایرانی نیز مجاز
شمرده شده است. به
موجب اصل 15 قانون
اساسى جمهورى اسلامى
ایران زبان و خط
رسمى و مشترک
مردم ایران فارسى
است. همین اصل در
دنباله چنین میگوید: اسناد
و مكاتبات و متون
رسمى و كتب
درسى باید با
این زبان و
خط باشد ولى استفاده
از زبانهاى محلى
و قومى در
مطبوعات و رسانههاى گروهى
و تدریس ادبیات
آنها در مدارس،
در كنار زبان فارسى
آزاد است.
وظیفه
و تعهد مهندسین
و پژوهشگران و
زبانشناسان ایرانی است تا
با توجه به
ظرفیتهای موجود در
كشور، پژوهش در راستای
پردازش گفتار به
همگی زبانهای ایرانی
را به انجام رسانند. تعلل
در این زمینه
میتواند در كوتاه مدت
نتایج مخرب فرهنگی و
اجتماعی و در
دراز مدت نتایج فاجعهآمیزتر سیاسی
در پی داشته
باشد.
تشخیص خودكار كلام
یكی از پروژههای مهم در
این زمینه تشخیص
خودكار كلام است كه
در اكثر زبانها
از جمله در
زبانهای كُردی، فارسی و آذری
نسبت به تبدیل متن
به كلام از
پیچیدگی بیشتری برخوردار
است. این پیچیدگی بهطور
عمده به دلیل
وجود لهجههای متفاوت، وجود
ابهامات گفتاری، تفاوت
در عادتهای
گفتاری در بین گویندگان
مختلف و همچنین
شرایط شنیداری غیر
برابر میباشد. سیستمهای
تشخیص خودكار كلام
كاربردهای بسیار زیادی دارند.
به عنوان مثال
افراد با محدودیتهای
بینایی و یا حركتی
میتوانند از این
سیستمها برای
برقراری ارتباط گفتاری با
ماشین (به جای صفحه
كلید) استفاده نمایند. همچنین
سیستمهای خودكار
پاسخگوی تلفنی، تایپ خودكار،
مترجم خودكار و
بسیاری از كاربری
های دیگر از الگوریتمهای
تشخیص خودكار كلام
استفاده میكنند.
سیستم تبدیل متن به گفتار
سیستمهای تبدیل متن به گفتار، همانطور
که از اسمشان پیداست، سیستمهایی هستند که متن را به عنوان ورودی گرفته و آن را
به گفتار تبدیل میکنند. به عبارت بهتر این سیستمها میتوانند متن ورودی را
بخوانند. شاید در نگاه اول طراحی این سیستمها آسان به نظر برسد؛ اما در عمل ساختن
آنها با چالشهای فراوانی مواجه است. ساختن این سیستمها از حدود 250 سال پیش مد
نظر دانشمندان بوده است. با این حال بیشترین پیشرفت در اوایل قرن گذشته و با روی
کار آمدن سیستمهای الکترونیکی حاصل شد. بعد از آن و با توجه به تجاری شدن این
سیستمها، حجم تحقیقات و سرمایهگذاریها افزایش یافته و نهایتاً در دهههای اخیر
در تعدادی از زبانها همچون انگلیسی و فرانسوی سیستمهایی با کیفیت قابل قبول
ساخته شدند.
سیستمهای تبدیل متن به گفتار دارای
دو مرحلۀ اصلی تحلیل متن و تولید گفتار هستند. بخش اول، متن را به عنوان ورودی
گرفته و بعد از ابهامزدایی، آن را به عنوان ورودی بخش دوم آماده میکند. همچنین
برخی تحلیلهای نوایی هم در این مرحله صورت میگیرد. از بین بردن ابهامات موجود در
متن و استخراج درست اطلاعات نوایی کار بسیار پیچیده و سختی است و هنوز یکی از
موضوعات جذاب در تحقیقات میباشد. در بخش دوم این سیستمها بایستی گفتار مورد نظر
تولید شده و اطلاعات نوایی مطلوب به آن اضافه شود.
در طراحی هر سیستم لازم است
که نیازها، مسائل و مشکلات آن سیستم بهطور کامل بررسی شود. در نگاه اول ممکن است
طراحی یک سیستم تبدیل متن به گفتار ساده به نظر برسد اما با در نظر گرفتن فرآیند
تولید صحبت توسط انسان، پیچیدگیهای این سیستم بیشتر نمایان میگردد. مسائل و
مشکلات سیستمهای تبدیل متن به گفتار در زمینههای مختلف مطرح و دارای گستردگی
بسیار زیادی هستند. از آنجا که در یک سیستم تبدیل متن به گفتار نیاز است که متن
ورودی به گفتار قابل فهم تبدیل گردد لازم است ابتدا یک پیشپردازش بر روی متن
انجام شود تا متن ورودی به یک متن عادی و خوانا تبدیل شود. برای مثال لازم است که
علائم ناشناخته، اعداد، کوتهنوشت و غیره به شکل متنی قابل خواندن نوشته شوند.
پس از عادیسازی متن، باید زنجیرۀ واحدهای صوتی تشکیل دهندۀ گفتار مربوطه را تولید
نمود. مسائل و مشکلاتی که برای تولید زنجیرۀ واحدها ممکن است پیش بیاید بسیار
متنوع است، برای مثال میتوان به رفع ابهام کلمات همنویسه[1]
اشاره نمود. با توجه به اینکه تعداد و انواع کلمات همنویسه در یک زبان خاص بسیار
متنوع است، بنابراین برای رفع ابهام هر مورد به قواعد ساختاری و معنایی خاصی نیاز
داریم تا بتوانیم گفتار متناسب را تولید نماییم. همچنین در این مرحله لازم است که
ویژگیهای نوایی گفتار از متن استخراج گردد. تشخیص ویژگیهای نوایی یکی از مسائل
اساسی در سیستمهای تبدیل متن به گفتار است. متن ورودی بهصورت مستقیم هیچگونه
اطلاعاتی در مورد نوای گفتار، تلفظ کلمات همنویسه، تلفظ اسامی بیگانه و ... را در
اختیار سیستم قرار نمیدهد.
پس از تولید زنجیرۀ واجهای گفتار و استخراج ویژگیهای نوایی گفتار از متن، باید
اطلاعات موجود را در اختیار سنتزکنندۀ گفتار قرار داد تا سیگنال صحبت تولید شود.
برای تولید سیگنال صحبت نیز روشهای مختلفی وجود دارد که در این فصل به تفصیل
بررسی شدهاند.
لزوم انجام پژوهش و كاربردها
تا به حال برای بسیاری
از زبانهای دنیا همچون انگلیسی، فرانسوی، اسپانیولی، آلمانی، ایتالیایی، هلندی،
سوئدی، دانمارکی، عربی، نروژی و غیره سیستمهای تبدیل متن به گفتار با کیفیت مناسب
ارائه شده است. حتی در اکثر این زبانها، سیستمهایی برای لهجههای مختلف هم عرضه
شده است. این در حالی است که متأسفانه برای اکثر زبانهایی که در ایران تکلم میشود
هیچ کار قابل ملاحظهای صورت نگرفته است. باید به این نکته توجه شود که جمعیت
متکلم به هر كدام از زبانهای کردی و آذری بیشتر از بسیاری از زبانهایی است كه در
آنها سیستمهای سنتز به صورت كامل ارائه گردیده است. این نکته ضعف در تحقیقات و کمتوجهی
افراد این زبان را نشان میدهد.
با توجه به گسترش روزافزون
کاربرد سیستمهای سنتز گفتار و همچنین با رشد سریع فناوری، نیاز به سیستمهای
تبدیل متن به گفتار هر روز بیشتر احساس میشود. شایسته است که در کمترین زمان ممکن
تحقیقات مورد نیاز این سیستمها برای تمامی زبانهای مورد تکلم در ایران انجام
گیرد. در این میان زبان کُردی هم به عنوان یکی از زبانهای شاخه ایرانی، نیازمند
توجه بیشتر محققان و به خصوص جامعۀ دانشگاهی میباشد.
انسان برای برقراری ارتباط
با دیگران و همچنین استفاده از امکانات پیرامون خود همواره تمایل دارد که از سادهترین
روش ارتباط یعنی ارتباط زبانی و یا گفتاری استفاده نماید. سیستمهای تبدیل متن به
گفتار در کنار بازشناسی گفتار توسط ماشین، امکان برقراری ارتباط بین انسان و ماشین
را به شکل گفتاری فراهم مینمایند. علاوه بر این انسان به طور طبیعی به جای خواندن
متون ترجیح میدهد که متون را به صورت شنیداری دریافت نماید. با توجه به اینکه
امروزه متون به صورت دیجیتالی منتشر میشوند، در موقعیتهای مختلف خواندن متون
توسط ماشین بسیار مفید واقع میگردد که از این جمله میتوان به خواندن در حین
رانندگی، خواندن پستهای الکترونیکی و خواندن پیامکهای دریافتی اشاره نمود.
همچنین کمک به افراد نابینا جهت خواندن متون، استفاده از سیستمهای سنتز در مراکز
خدمات ارتباطی همچون تلفنهای گویا، کمک به آموزش و یادگیری زبان توسط کودکان و همچنین
یادگیری زبانهای بیگانه، محاورۀ انسان و کامپیوتر، دسترسی به بانکهای اطلاعاتی
از طریق گفتار، کاهش حجم اطلاعات صوتی و انتقال سریعتر آنها و غیره از دیگر
کاربردهای سیستمهای تبدیل متن به گفتار خواهند بود.
كارهای انجام گرفته و نواقص موجود
همانطور که بیان شد امروزه طراحی و
ساخت سیستم تبدیل متن به گفتار به یکی از ملزومات مهم برای هر زبان تبدیل شده است.
ما در دانشگاه كردستان پژوهشهایی را در زمینۀ طراحی و پیادهسازی سیستم سنتز در
زبانهای كُردی و آذری انجام دادهایم [7-10] كه در این میان دو نکته حائز اهمیت بود: اولاً در این زبانها تا به حال هیچ کار
علمی در این زمینه صورت نگرفته و به عبارت دیگر بسترهای انجام این تحقیق از قبل
موجود نبودند. سیستمهای تبدیل متن به گفتار نیازمند پایگاهدادهها، استانداردها
و به طور کلی چارچوب مناسب میباشند. به علاوه برای توسعۀ بهتر این سیستمها در هر
زبان، نیازمند تحلیلهای زبانشناسی مناسب از طرف زبانشناسان هستیم. متأسفانه در
اکثر موارد این تحلیلها از قبل وجود نداشته و در راستای انجام این تحقیق برای
اولین بار صورت گرفته است.
نکته دوم که باید به آن توجه شود پیچیدگی و گستردگی زیاد این سیستمها میباشد.
این سیستم دارای زیربخشهایی است که برای توسعۀ هر کدام از آنها به تلاش و زمان
زیادی نیاز است. برخی از این بخشها هنوز در حال توسعه بوده و زمینۀ تحقیقات زیادی
هستند. با توجه به این مطالب، طبیعی است که طراحی یک سیستم تبدیل متن به گفتار همه
منظوره با قابلیتهای بالا آن هم در اندک زمان، از عهدۀ چند نفر به تنهایی خارج
است و نیاز به مشارکت محققان زیادی دارد.
هدف اولیه در این تحقیقات ایجاد بستر مناسبی برای توسعۀ یک سیستم تبدیل متن به
گفتار برای زبانهای کردی و آذری بوده است. در واقع ایجاد چارچوب مناسب برای این
سیستمها به گونهای که بتواند زمینهساز انجام گرفتن تحقیقات در آینده باشد،
اولین و مهمترین قدم در راستای تولید این سیستم خواهد بود. در بررسیهای اولیۀ
تولید یک سیستم اتصالی قابل فهم مبتنی بر دایفون هدف اصلی این پروژه بوده است. با
توجه به اینکه بخش استخراج اطلاعات نوایی دارای پیچیدگیهای زیادی است و به تحلیلهای
زبانشناسی بیشتری نیاز دارد، استخراج و افزودن این اطلاعات در تعریف اولیۀ پروژه،
هدف نبوده است.
خوشبختانه در طی انجام این تحقیق علاوه بر دست یافتن به تمامی اهداف اولیه،
کارهای دیگری نیز صورت گرفته است که این پروژه را پربارتر مینمایاند. بهعنوان
مثال در زبان كُردی استخراج منحنیهای تغییرات گام از جمله مهمترین و مفیدترین
کارها بود که برای اولین بار صورت گرفته است. شایان ذکر است که این منحنیها علاوه
بر استفاه در سیستمهای سَنتز، میتوانند در بسیاری از سیستمهای دیگر نیز استفاده
شوند و همچنین به مرجع مناسبی برای زبان کُردی تبدیل شوند [8]. همچنین به غیر
از سیستم مبتنی بر دایفون، دو سیستم مبتنی بر هجا و واجگونه هم طراحی شدند که
فراتر از اهداف اولیه این پایاننامه بوده است.
با توجه به اینکه تا به حال هیچ سیستم سنتزی برای زبان کُردی موجود نبوده است،
طراحی این سیستم به تنهایی نوآوری مهمی محسوب میشود. درصد بسیار بالایی از کارهای
صورت گرفته برای اولین بار در این زبان انجام گرفتهاند. در زیر ما فهرستی از مهمترین
کارهایی را که برای اولین بار انجام گرفتهاند، ارائه دادهایم.
1.
استخراج منحنی تغییرات گام: همانطور که اشاره شد این منحنیها تا به حال برای زبان کُردی
استخراج نشده بودند. ما در ابتدا جملههای زبان کُردی را به ترتیبی که ملاحظه
خواهد شد تقسیمبندی کرده و سپس برای هر دسته منحنی مطلوب را استخراج کردیم. از
این منحنیها میتوان در سیستمهای مشابه و همچنین دیگر سیستمهای مرتبط با زبان کُردی
استفاده کرد. همچنین این منحنیها میتوانند منبع مناسبی برای مطالعات در مورد
زبان کردی و ویژگیهای آن باشند.
2.
استفاده از هر دو رسمالخط زبان کردی: میدانیم که زبان کردی دارای سه رسمالخط استاندارد است که
از این میان دو رسمالخط عربی و لاتین بسیار پرکاربرد هستند. امروزه میتوان متون
زیادی را به هر یک از این دو رسمالخط یافت. مشکل بزرگی که وجود دارد این است که
معمولاً کُردزبانان فقط به یکی از این رسمالخطها آشنایی داشته و بنابراین نمیتوانند
از متون نوشته شده به رسمالخط دیگر استفاده کنند. ما برای اولین بار نمادهای
استانداردی را پیشنهاد دادهایم به گونهای که بتوان هر دو رسمالخط را به آن
نگاشت داد. همچنین بلاکی را پیادهسازی کردهایم که هر دو رسمالخط را گرفته و آنها
را برای استفاده در سیستم سنتز آماده میکند. با استفاده از این بلاک، کُردزبانان
میتوانند از متون نوشته شده به هر دو رسمالخط استفاده کنند.
3.
طراحی سیستم مبتنی بر واجگونه: در زبان کُردی تا به حال هیچ سیستم سنتزی وجود نداشته و
سیستم مبتنی بر واجگونه اولین سیستم تبدیل متن به گفتار طراحی شده برای زبان کردی
است.
4.
ساختن پایگاهداده برای واجگونهها: برای اولین بار پایگاهدادۀ کاملی از واجگونهها برای
زبان کردی طراحی شده است که در آن سیگنال مربوط به هر واجگونه جداگانه ذخیره شده
است. همچنین حدود 2500 کلمه برای آموزش و تست شبکه به همراه واجگونۀ مطلوب در
آنها گردآوری شده است که میتواند در سیستمها و مطالعات آینده مورد استفاده قرار
گیرد.
5.
استخراج واجگونهها به کمک شبکۀ عصبی: تا آنجا که مطالعات ما نشان میدهد، تا به حال در هیچکدام
از مقالات و سیستمهای دیگر از شبکههای عصبی برای استخراج واجگونهها استفاده
نشده است. همانطور که ملاحظه خواهد شد، دقت این شبکه بسیار بالا و در حدود 98
درصد است.
6.
ساختن پایگاهداده برای هجاها: برای اولین بار یک پایگاهداده در مقیاس آزمایشگاهی برای
هجاها طراحی شده است که شامل حدود 500 هجا میباشد.
7.
طراحی سیستم سنتز مبتنی بر دایفون: با توجه به اینکه سیستمهای طراحی شده در این تحقیق اولین
سیستمهای سنتز در زبان کردی هستند، میتوان گفت که سیستم مبتنی بر دایفون ما هم
اولین سیستم سنتزی است که در زبان کردی از دایفونها استفاده میکند.
8.
ساختن پایگاهداده برای دایفونها: ما برای اولین بار در زبان کُردی یک پایگاهداده کامل را
برای دایفونها با دو صدای مختلف زن و مرد ضبط کردهایم؛ به علاوه یک پایگاهداده
هم در مقیاس آزمایشگاهی با صدای مرد ذخیره شده است که شامل حدود 300 دایفون میباشد.
در بخش تحلیل متن دو کار اصلی صورت گرفته است که شامل پیشپردازش و در واقع ابهامزدایی
از متن و همچنین استخراج منحنی تغییرات گام برای انواع مختلف جملهها در زبان کردی
است. در بخش پیشپردازش ابتدا مشکلات موجود در زبان کردی را بررسی کرده و برای آنها
در حد امکان راهکارهایی ارائه دادیم. یکی از اولین مشکلات در زبان کردی وجود دو
رسمالخط استاندارد برای این زبان بود که برای حل این مشکل، ما نمادهای استانداردی
را تعریف کرده و از آنها به عنوان یک رسمالخط میانی استفاده کردیم. همچنین هر
کدام از این رسمالخطها هم دارای مشکلات خاص خود بودند؛ از این رو میبایست
مشکلات هر کدام را جداگانه بررسی کرده و حل کنیم. به غیر از این مشکلات، مواردی از
ابهام در متن هم وجود دارد که مخصوص زبان کردی نبوده و در همۀ زبانها وجود دارد.
به عنوان مثال میتوان به مشکلات مربوط به اعداد، مخففها، اسامی خاص، کلمات
بیگانه و غیره اشاره کرد که در این پایاننامه هم در حد امکان در رفع آنها
کوشیدیم.
در مرحلۀ تولید گفتار كُردی، ما سه سیستم تبدیل متن به گفتار مختلف را بر مبنای
واجگونه، هجا و دایفون پیادهسازی کردیم. هر کدام از این سیستمها دارای ویژگیهای
مختص به خود بوده و کیفیت سیگنال خروجی آنها نیز متفاوت است. در واقع هدف ما از
طراحی این سیستمها، انجام مقایسه بین آنها بود. در این میان زمانبرترین قسمت
کار ساختن پایگاهداده برای هر کدام از این سیستمها بود.
سیستم مبتنی بر واجگونه، اولین سیستمی بود که در این راستا توسعه یافت. با توجه
به اینکه محل وقوع واجگونهها دقیقاً معلوم نیست، ما برای تشخیص آنها از متن
ورودی از شبکههای عصبی کمک گرفتیم. برای این کار یک شبکه عصبی سه لایهای با
الگوریتم پسانتشارخطا در نظر گرفته شد. برای آموزش این شبکه هم نیاز به مجموعه
آموزشی مناسب داشتیم که متاسفانه این مجموعه برای زبان کردی وجود نداشت. بنابراین
خود مجموعه آموزشی و تست مناسب را طراحی کردیم. دقت نهایی شبکۀ عصبی بسیار خوب و
در حد 98 درصد بود که قابل قبول میباشد. به علاوه در مواردی هم که شبکه اشتباه
حدس میزد، باز واجگونه خروجی بسیار نزدیک به واجگونه هدف تشخیص داده میشد که
باعث میشود نتایج بسیار قابل قبولتر باشد. همانگونه که نتایج آزمونهای کیفیت
در فصل قبل نشان داد، کیفیت نهایی این سیستم متوسط و در برخی موارد هم زیر متوسط
بود.
دو سیستم مبتنی بر هجا و دایفون شبیه به روشهای معمول تولید گفتار طراحی شدند.
قسمت اعظم تحلیل متن برای این دو سیستم یکسان بوده و در موارد بسیار جزئی با هم
تفاوت داشتند. در بخش تولید گفتار هم بایستی برای این دو سیستم پایگاهدادههای
مناسبی ساخته میشدند. برای سیستم مبتنی بر هجا یک پایگاهداده در مقیاس
آزمایشگاهی و با اندازه 500 واحد و برای سیستم مبتنی بر دایفون پایگاهداده کامل
با صدای زن و مرد طراحی شد. نتایج آزمونهای کیفیت نشان میدهد که سیستم مبتنی بر
هجا در کل کیفیتی متوسط را داراست. یکی از نقاط ضعف این سیستم سختی اعمال تغییرات نوایی
میباشد. در واقع با توجه به اینکه اندازۀ واحدهای ضبط شده بزرگ است، پس تغییر
دادن ویژگیهای آن و اعمال نوای مورد نظر سختتر میباشد. سیستم مبتنی بر دایفون
دارای کیفیتی بالای متوسط و در برخی جنبهها کیفیت خوب بود. این سیستم کاملاً قابل
مقایسه با سیستمهای طراحی شده در دیگر زبانها میباشد.
برای سنجش کیفیت سیستمهای طراحی شده چهار آزمون مختلف برگزار گردید. در اولین
آزمون که آزمون استاندارد MOS میباشد، بیشتر جنبههای طبیعی بودن سیستمها
را مورد ارزیابی قرار دادیم. نتایج این آزمون را با سیستمهای طراحی شده برای دو
زبان فارسی و انگلیسی مقایسه کردیم. در این میان برای زبان انگلیسی از شش سیستم
مشهور استفاده کردیم. نتایج آزمون نشان میدهد که در کل سیستمهای طراحی شده دارای
کیفیت قابل قبولی هستند.
سه آزمون دیگر بیشتر جنبۀ قابلیت فهم سیستمها را ارزیابی میکنند. در آزمون اول
نرخ تشخیص درست کلمات و نرخ تشخیص درست هجاها را مورد مقایسه قرار دادهایم. دو
آزمون دیگر، آزمونهای استاندارد DRT و MRT هستند که البته
فقط سیستمهای مبتنی بر واجگونه و مبتنی بر دایفون را ارزیابی میکنند. همانطور
که نتایج این سه آزمون نشان میدهد قابلیت فهم هر سه سیستم خوب بوده و به ویژه در
این میان سیستم مبتنی بر دایفون قابلیت فهم بسیار خوبی را داراست.
همانطور که بیان شد، ما در این پایاننامه دو سیستم تبدیل متن به گفتار کامل را بر
اساس دو واحد واجگونه و دایفون طراحی کردهایم. در اینجا منظور از کامل بودن این
است که سیستم متن را گرفته و به گفتار تبدیل میکند. اگر کار ساخت پایگاهدادۀ هجا
هم پایان یابد، این سیستم هم سیستم کاملی محسوب خواهد شد. اما این بدان معنا نیست
که ما همۀ بخشهای سیستمهای تبدیل متن به گفتار را پیادهسازی کردهایم. در واقع
ما با توجه به زمان و امکانات موجود، برخی از بخشها را در نظر نگرفتهایم که
البته باید در کارهای آینده مورد توجه قرار گیرند.
در این تحقیق کار تعیین و استخراج منحنی تغییرات گام مد نظر بوده است. اما اعمال
این منحنی به سیگنال نهایی کار دیگریست که مجال پرداختن به آن را پیدا نکردیم.
همچنین در بخش اطلاعات نوایی، علاوه بر منحنی تغییرات گام، دو مؤلفۀ تکیه و دیرش
هم مطرح هستند که با توجه به پیچیدگی زیاد آنها و به ویژه مقوله تکیه، ما در این
مرحله از آنها صرف نظر کرده و آن را به آینده موکول کردهایم.
برای ساخت سیستمهای تبدیل متن به گفتار روشهای دیگری هم پیشنهاد شده است که میتوانند
در کارهای آینده مورد توجه قرار گیرند. روشهای مبتنی بر پیکره یکی از روشهایی
است که در دهۀ اخیر بسیار مورد توجه قرار گرفته است. مهمترین چالش این روش پایگاه
دادۀ بسیار بزرگ آن است که کار طراحی و ساخت آن بسیار زمانبر و طاقتفرساست. به
همین دلیل در این پایاننامه ما از این روش صرفنظر کردیم. اما با توجه به مزایای
زیاد این روش، میتوان در ادامۀ این تحقیق، از آن استفاده کرد. همچنین در راستای
ساخت سیستمهای سنتز ابزارهای جدیدی به کار گرفته شدهاند که بازدهی بسیار خوبی از
خود نشان دادهاند. مدل مخفی مارکوف (HMM) یکی از این ابزارهاست که به خصوص از سال
2007 به بعد بسیار مورد توجه بوده است و در بسیاری از تحقیقات چند سال اخیر مورد
استفاه واقع شده است.
نتیجهگیری
با توجه به
اهمیت فراوان و
كاربردهاى وسیع پردازش
گفتار و با توجه
به تأخیر موجود
در فعالیت در
زبانهای كُردی و آذری، لازم است تا
فعالیت در این
زمینه هر چه
سریعتر راهاندازی
شود. در صورت تأخیر بیشتر
ممكن است در
آیندۀ نه چندان
دور با عواقب حادی
مواجه گردیم. حداقل
نگرانی این خواهد
بود كه كشور ما
كه خود قادر
به تولید این
فناوریهاست در نهایت
به وارد كننده
آنها تبدیل گردد. و
البته حالت بدتر این
است كه زبانهای
ایرانی قدرت خود
را برای عرض
اندام در دنیای جدید
از دست بدهند
و تبدیل به
زبانهای حاشیهای گردند
و به تدریج
جای خود را
به زبانهای بیگانه
بدهند.
در مرحلۀ نخست
باید نیروها شناسایی
شده و هستههای
تحقیقاتی تشكیل شوند.
تهیۀ پایگاه دادهها
و همچنین ایجاد امكانات
لازم برای انجام
تست در همین
مرحله باید مد
نظر قرار بگیرد. در
انجام این كار
همكارى بین مراكز
علمی پژوهشی دانشگاهی و
صنعتی و همچنین
شركت در گروههاى معتبر
علمى جهانی توصیه
مىگردد. همچنین شایان
ذكر است كه
هر چند در
این نوشته بیشتر
در مورد زبانهای كُردی و آذری
بحث گردید لكن
وضعیت سایر زبانهای ایرانی
نیز كمابیش به
همینگونه است
و تنها در
زبان فارسی است كه
چند گروه تحقیقاتی
مشغول فعالیت هستند.
پانویسها
* اویسنا سلوشنز، تورنتو، كانادا
** گروه
كامپیوتر، دانشگاه كردستان، سنندج، ایران
منابع
1) ا. ر. هال، زبان و زبانشناسی، ترجمۀ محمدرضا
براهنی، تهران، نشر امیرکبیر، 1363.
2)
م. بودریار، سرگشتگی نشانهها، نمونههایی از نقد پسامدرن، ترجمۀ بابک
احمدی و ...، تهران، نشر مرکز، 1374.
3) ی.
و. برتنز، نظریه ادبی، ترجمه فرزان سجودی، تهران، نشر آهنگ دیگر، 1382.
4)
م. پین، فرهنگ اندیشۀ انتقادی از روشنگری تا پسا مدرنیته، ترجمه پیام
یزدانجو، تهران، نشر مرکز، 1382.
5)
شایگان، داریوش، بتهای ذهنی و خاطرۀ ازلی، تهران، نشر امیرکبیر، 1381.
6)
ف. جی. نیومایر، جنبههای سیاسی زبانشناسی، ترجمۀ اسماعیل فقیه، تهران،
نشر نی، 1378.
7)
س. دامادی، طراحی سیستم سنتز گفتار در زبان تركی آذری، پایاننامۀ كارشناسی
ارشد، دانشكدۀ فنی و مهندسی، دانشگاه كردستان، 1388.
8)
و. بارخدا، طراحی و پیادهسازی سیستم تبدیل متن به گفتار در زبان كردی، پایاننامۀ
كارشناسی ارشد، دانشكدۀ فنی و مهندسی، دانشگاه كردستان، 1388.
9) W. Barkhoda, B. ZahirAzami, A. Bahrampour, and O. Shahryari, "A
Comparison between Allophone, Syllable, and Diphone Based TTS Systems for
Kurdish Language," in Proceeding of The 9th IEEE International
Symposium on Signal Processing and Information Technology (IEEE ISSPIT 2009),
Ajman, UAE, Dec. 2009.
10) S. Damadi, B. ZahirAzami, M. Eslami, “Prosody
Generation in TTS System for Azeri,” proceedings of the Advanced Intelligent
Mechatronics (AIM), Montreal, Quebec, Canada, July 2010.
[1] - کلماتی که دارای شکل نوشتاری یکسان و شکل
گفتاری متفاوت هستند.