فرمت فایل : power point (لینک دانلود پایین صفحه) تعداد اسلایدها 9 اسلاید
بخشی از اسلایدها:
قطعه بندی و نرمال سازیقطعه بندی و نرمال سازی
برای پردازش متن در کاربردهایی مانند ترجمه ماشینی، بازیابی اطلاعات، تبدیل متن به گفتار و ... باید متن ورودی قطعه بندی و نرمال سازی شود.
قطعه بندی (segmentation): تقطیع دنباله کاراکترهای تشکیل دهندة متن به دنباله ای از کلمات
نرمال سازی (normalization): یکدست سازی واحدهای متنی به طوری که قابل پردازش توسط ماشین باشد.
قطعه بندی:
ساده ترین راه برای قطعه بندی متن: قطعه بندی بر اساس کاراکتر فاصله (space)
token: واحدهای متنی که با استفاده از فاصله از هم جدا می گردند.
همیشه کاراکتر فاصله مرز کلمات را مشخص نمی کند.
مثال: کلماتی که از چند token تشکیل شده اند (Multi Token Units)
می روند – کتاب ها – در حالی که – زبان شناسی
take off - St. Petersburg - go back - air force
کلماتی که به هم چسبیده اند و یک token را به وجود آورده اند (Multi Unit Tokens)
درکتاب – است.
مشکلات:
علائم نقطه گذاری (punctuations) معمولاً به کلمه قبل از خود می چسبند.
راه حل: علائم نقطه گذاری را هم مانند کاراکتر فاصله به عنوان مرز کلمات به حساب آوریم.
استثنا: اختصاراتی مانند B.B.C و اعداد ممیزدار مانند 2.3
پسوندها و پیشوندها: در فارسی پسوندها و پیشوندها در بسیاری مواقع با فاصله از کلمه اصلی نوشته می شوند (رفته ام – بر می گردد – دانش آموز)
کلمات مرکب: بین اجزای کلمات مرکب معمولاً فاصله گذاشته می شود (دوچرخه سوار – برون مرزی)
پاورپوینت درباره قطعه بندی و نرمال سازی