اینو دیدی

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

اینو دیدی

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

پاورپوینت درباره قطعه بندی و نرمال سازی

اختصاصی از اینو دیدی پاورپوینت درباره قطعه بندی و نرمال سازی دانلود با لینک مستقیم و پر سرعت .

پاورپوینت درباره قطعه بندی و نرمال سازی


پاورپوینت درباره قطعه بندی و نرمال سازی

فرمت فایل : power point  (لینک دانلود پایین صفحه) تعداد اسلایدها 9 اسلاید

بخشی از اسلایدها:

قطعه بندی و نرمال سازیقطعه بندی و نرمال سازی

برای پردازش متن در کاربردهایی مانند ترجمه ماشینی، بازیابی اطلاعات، تبدیل متن به گفتار و ... باید متن ورودی قطعه بندی و  نرمال سازی شود.

قطعه بندی (segmentation): تقطیع دنباله کاراکترهای تشکیل دهندة متن به دنباله ای از کلمات

نرمال سازی (normalization): یکدست سازی واحدهای متنی به طوری که قابل پردازش توسط ماشین باشد.

قطعه بندی:

ساده ترین راه برای قطعه بندی متن: قطعه بندی بر اساس کاراکتر فاصله (space)
token: واحدهای متنی که با استفاده از فاصله از هم جدا می گردند.

همیشه کاراکتر فاصله مرز کلمات را مشخص نمی کند.
مثال: کلماتی که از چند token تشکیل شده اند (Multi Token Units)
می روند – کتاب ها – در حالی که – زبان شناسی
take off - St. Petersburg - go back -  air force

کلماتی که به هم چسبیده اند و یک token را به وجود آورده اند (Multi Unit Tokens)
درکتاب – است.

مشکلات:

علائم نقطه گذاری (punctuations) معمولاً به کلمه قبل از خود می چسبند.
راه حل: علائم نقطه گذاری را هم مانند کاراکتر فاصله به عنوان مرز کلمات به حساب آوریم.
استثنا: اختصاراتی مانند B.B.C و اعداد ممیزدار مانند 2.3

پسوندها و پیشوندها: در فارسی پسوندها و پیشوندها در بسیاری مواقع با فاصله از کلمه اصلی نوشته می شوند (رفته ام – بر می گردد – دانش آموز)

کلمات مرکب: بین اجزای کلمات مرکب معمولاً فاصله گذاشته می شود (دوچرخه سوار – برون مرزی)


دانلود با لینک مستقیم


پاورپوینت درباره قطعه بندی و نرمال سازی