بررسی روش انسان در تشخیص صحبت:
- محدودیتهایی که روشهای موجود ایجاد میکنندغیر قابل تفسیر
- مبتنی بر مدل (معمولا HMM)
- وابسته به اطلاعات زبانی
- بدون قابلیت کشف صداهای جدید
- مبتنی بر نظریه احتمال هستند که شواهد زیادی نشان میدهند که انسان بر مبنای این نظریه کار نمیکند
- پیوند غیر طبیعی با سطوح بالاتر زبانی مانند کلمه و گرامر و نیز مبتنی بودن بر مدل زبانی
- خلاصه: همه مشکلات از بالا به پایین حل میشوند (ما راه حل را کشف میکنیم و به کامپیوتر میدهیم)
تولید ابزار:
- دستکاری سیگنال در فرکانس pitch
- دستکاری سیگنال در فضای طیف نگار
- دستکاری سیگنال در فضای بانک فیلتر
ویژگیهای سیگنال صحبت؟
- فازی
- غیر دقیق
- اهمیت ویژگیها با انرژی آنها متناسب است
- مبتنی بر نظریه امکان
سیگنال صحبت فازی است:
- در مثال بعد میبینیم که حرف «ی» میتواند بهجای حرف «ن» بهکار رود.
- به عبارت دیگر «ی» و «ن» بودن مفهومی فازی است که دارای اشتراک ذاتی است.
- نکته: ولی میتوان (امکان دارد) «ی» را به عنوان «ن» پذیرفت.
- س: احتمال اینکه کسی «ی» را مانند «ن» بگوید چقدر است؟
فهرست مطالب:
- شناخت انسان و سیگنال صحبت
- سیستم استخراج ویژگی
- سیستم بازشناسی
- آزمایشها