نقشه راه پروژه

مسیر ما برای ساخت پیشرفته‌ترین ابزار پژوهش‌های زبان‌شناختی.

فاز ۱: پیکره‌سازی

۱۴۰۱ - ۱۴۰۳

ساخت و حاشیه‌نویسی دستی پیکره ۱۴۰۰

  • جمع‌آوری یک-میلیون توییت فارسی و استخراج یک ریزپیکره یک-میلیون توکنی از پیکره اصلی
  • پیش‌پردازش خودکار و دستی ریزپیکره
  • تدوین یک چارچوب کدگذاری با عنوان تگفریم
  • تگزنی دستی پیکره با ۸۴ ارزش زبانی
  • بازنگری در برخی مفاهیم دستوری و مصادیق آن

فاز ۲: زیرساخت و پایه

تیر ۱۴۰۴ - دی ۱۴۰۴

ایجاد زیرساخت‌های اصلی و ابزارهای پایه زبان‌شناسی.

  • ساخت ابزارهای پردازشی پایه
  • ساخت صفحات مرتبط با ابزارها
  • مستندسازی و ساخت صفحات تکمیلی

فاز ۳: توسعه پیکره‌ها

در حال اجرا

توسعه منابع و یکسان‌سازی آنها

  • یکسان‌سازی تگ‌های دستوری
  • تگزنی خودکار پیکره‌های خام
  • افزودن پیکره‌های دیگر

فاز ۴: توسعه و گسترش

برنامه‌ریزی شده

توسعه حاشیه‌نویسی پیکره‌ها و ابزارها

  • توکن‌یابی پیکره ۱۴۰۰ در سطح جملات
  • حاشیه‌نویسی پیکره‌های موجود در سطوح مختلف (م: معنایی، نحوی)
  • توسعه ابزارهای تحلیل پیکره