نقشه راه پروژه
مسیر ما برای ساخت پیشرفتهترین ابزار پژوهشهای زبانشناختی.
فاز ۱: پیکرهسازی
۱۴۰۱ - ۱۴۰۳ساخت و حاشیهنویسی دستی پیکره ۱۴۰۰
- جمعآوری یک-میلیون توییت فارسی و استخراج یک ریزپیکره یک-میلیون توکنی از پیکره اصلی
- پیشپردازش خودکار و دستی ریزپیکره
- تدوین یک چارچوب کدگذاری با عنوان تگفریم
- تگزنی دستی پیکره با ۸۴ ارزش زبانی
- بازنگری در برخی مفاهیم دستوری و مصادیق آن
فاز ۲: زیرساخت و پایه
تیر ۱۴۰۴ - دی ۱۴۰۴ایجاد زیرساختهای اصلی و ابزارهای پایه زبانشناسی.
- ساخت ابزارهای پردازشی پایه
- ساخت صفحات مرتبط با ابزارها
- مستندسازی و ساخت صفحات تکمیلی
فاز ۳: توسعه پیکرهها
در حال اجراتوسعه منابع و یکسانسازی آنها
- یکسانسازی تگهای دستوری
- تگزنی خودکار پیکرههای خام
- افزودن پیکرههای دیگر
فاز ۴: توسعه و گسترش
برنامهریزی شدهتوسعه حاشیهنویسی پیکرهها و ابزارها
- توکنیابی پیکره ۱۴۰۰ در سطح جملات
- حاشیهنویسی پیکرههای موجود در سطوح مختلف (م: معنایی، نحوی)
- توسعه ابزارهای تحلیل پیکره