لینک دانلود و خرید پایین توضیحات
دسته بندی : وورد
نوع فایل : .doc ( قابل ویرایش و آماده پرینت )
تعداد صفحه : 16 صفحه
قسمتی از متن .doc :
سیزهمین کنفرانس مهندسی برق ایران
20-22 اردیبهشت 1384
ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز
بابک ناصرشریف – دانشگاه علم و صنعت ایران Nasser_s@iust.ac.it
محمدمهدی همایونپور - دانشگاه صنعتی امیرکبیر Homayon@ce,aut.ac.ir
احمد اکبری – دانشگاه علم و صنعت ایران Akbari@just.ac.ir
چکیده: سیستمهای بازشناسی چندباندی گفتار که بر اساس مکانیزم شنوایی انسان عمل می کنند، نرخ بازشناسی را نسبت به سیستم تمام باند به ویژه در حضور نویز بهبود می بخشند. در بازشناسی چندباندی گفتار، سیگنال گفتار ابتدا به چند زیرباند فرکامسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، این بردارها یا احتمال تخمینی برای آنها با یکدیگر ترکیب می شوند. در کار حاضر سیستم چندباندی بازشناسی گفتار بر مبنای ترکیب ویژگیها مد نظر قرار گرفته است و ترکیب این شیوه با یک شیوه مبتنی بر مدل موسوم به معیار تصویردهی وزن دار پیشنهاد گردیده است. نتایج آزمایشها نشان می دهند که علاوه بر بهتر بودن کارآیی شیوه ترکیب ویژگیها نسبت به سیستم تمام باند، روش پیشنهادی نیز سبب بهبود چشمگیر کارآیی روش ترکیب ویژگیها می گردد.
کلمات کلیدی: باشناسی چندباندی گفتار، زیرباند، ترکیب ویژگیها، تبدیل موجک، معیار تصویردهی وزن دار
1-مقدمه
مسئله مقاوم سازی سیستمهای بازشناسی گفتار در برابر نویز را می توان به صورت کاهش میزان عدم تطبیق میان شرایط آموزش و آزمون سیستم درنظر گرفت. روشهایی را که برای کاهش این عدم تطبیق بکار یم روند، می توان به سه گروه اصلی تقسیم کرد: روشهای مبتنی بر داده، روشهای مبتنی بر مدل و شیوه های پردازش چندباندی. روشهای مبتنی بر داده تلاش می کنند تا تاثیرات نویز را بر سیگنالهای گفتار یا ویژگیهای آن کاهش دهند، حال آنکه روشهای مبتنی بر مدل بحای خود سیگنال گفتار یا ویژگیهای آن مدل آلکوستیک گفتار را اصلاح می نمایند. شیوه پردازش چندباندی معمولاً در مورد نویزهایی بکار گرفته می شود که سبب تخریب بخشی از طیف فرکانسی سیگنال گفتار می شوند. در شیوه بازشناسی چندباندی، گفتار تمام باند به چندین زیرباند فرکانسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، بردارهای ویژگی زیرباندها یا احتمال تخمینی برای آنها توسط بازشناس متناظر با هر زیرباند، با یکدیگر ترکیب می شوند و به این ترتیب پاسخ بازشناسی بدست می آید.روشهای مبتین بر داده را می توان معمولاً به دو گروه عمده تقسیم کرد: شیوه بهبود گفتار و روشهای جبران ویژگی. شیوه های بهبود گفتار مستقیماً با سیگنال نویزی گفتار سر و کار دارند و با تخمین سیگنال تمیز از سیگنال نویزی در جهت کاهش میزان عدم تطبیق تلاش می کنند. روش تفاضل طیف و آستانه گذاری ضرایب تبدیل موجک سیگنال گفتار نمونه هایی از این دسته هستند. روشهای جبران ویژگی معمولاً عدم تطبیق را به دو طریق کاهش می دهند. در طریق اول، یک تبدیل به ویژگیها اعمال یم شود تا اثر نویز از آنها حذف گردد. تفاضل میانگین ضرایب کپسترال (CMS) و RASTA PLP از جمله چنین روشهایی هتسند. در طریق دیگر، ویژگیهای جدیدی استخراج می شوند که نسبت به تاثیرات نویز مقاوم باشند، همانند ویژگیهای خود همبستگی فاز.
روشهای مبتنی بر مدل، مدل آماری محیط را به نحوی اصلاح می کنند که با شرایط جدید محیطی همانند شرایط نویزی تطبیق یابد. در این تطبیق هیچ نوع فرض یا دانش خاصی در باره خود سیگنال گفتار لازم نیست. این روشها معمولاً نیازمند آموزش برون خط برروی دادگان گفتار نویزی هستند. به عنوان نمونه ای از این روشها می توان به ترکیب موازی مدلها (PMC) و بازگشت خطی با بیشترین شباهت (MLLR) اشاره کرد.
در بازشناسی چند باندی گفتار، ابتدا سیگنال به چند باند فرکانسی تقسیم می شود. به این ترتیب می توان بخشهای تخریب شده طیق گفتار را از دیگر بخشهای طیف جدا کرد. سپس یک بردار ویژگی از هر زیرباند استخراج می شود که زیربردار ویژگی نامیده می شود. دو روش برای برخورد با این زیربردارها وجود دارد. در روش اول می توان آنها را در کنار یکدیگر قرار داد و به عنوان جایگزینی برای ویژگیهای اصلی استفاده نمود که این شیوه ترکیب ویژگیها نامیده می شود. در روش دیگر زیربردارهای ویژگی بوسیله بازشناس مجزای متناظر یا هر زیرباند، مورد پردازش قرار می گیرند و احتمالی برای آنها تخمین شده می شود و این احتمالات به شیوه خطی یا غیرخطی با یکدیگر ترکیب می شوند. این شیوه ترکیب احتمالات یا ترکیب مدلها نامیده می شود.
در کار حاضر، ما ترکیبی از روشهای مبتنی بر مدل و بازسازی چندباندی گفتار را برای بهبود کارآیی روش بازشناسی مقاوم چندباندی گفتار ارائه می کنیم. در این مقاله، سیستم ترکیب ویژگیها در بازشناسی چندباندی گفتار مد نظر قرار گرفته است و با بکاربردن یک روش مبتنی بر مدل موسوم به معیار تصویردهی وزن دار (WPM)، کارآیی آن بهبود داده شده است. ساختار ادامه مقاله به این
تحقیق در مورد ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز 16