مقدمه
این صفحه به نحوه کار با ابزارها و معرفی برخی از مفاهیم بهکاررفته در آنها میپردازد. برای دسترسی سریع میتوانید از فهرست سمت چپ ابزار موردنظر خود را انتخاب کنید.
اصطلاحات
فهرست واژگان (Word List):
استخراج فهرست بسامدی ابتداییترین تحلیلی است که میتوان از پیکره داشت. این امکان در CorpusLab با ابزار «فهرست واژگان» محقق میشود. کافی است بر روی دکمه Generate کلیک کنید تا این فهرست را دریافت کنید. در ستون جدول مستخرج، بسامد توکنها به صورت درصد درج شده است.
کلیدواژه در بافت (KWIC):
کلیدواژه در بافت (KWIC) ابزاری برای نمایش بافت پیرامونی یک کلیدواژه است. این ابزار با بازیابی تمام رخدادهای یک واژه (کلیدواژه) و بافت پیرامونی آن، و مرتبکردن کلیدواژه ذیل یکدیگر، امکان مشاهده واژههای پیرامون کلیدواژه را فراهم میکند. امکان نمایش واژههای پیرامونی تا ۸ واژه و مرتب کردن الفبایی این واژهها این امکان را برای محققان فراهم میکند تا بافت پیرامونی واژه را به راحتی شناسایی کنند.
چندگرام (N-gram):
چندگرام (n-gram) توالی بلافصلی از چند (n) توکن مجاور است. ابزار چندگرام توالیهایی با طول ۲-تا-۴-گرامی را به همراه بسامدشان استخراج میکند. در توالیهای با طول ۲-توکن (دوگرام) امکان سنجش آماری همآیی توکنهای مجاور وجود دارد که میتوان در ستون آخر نتایج مشاهده کرد. برای مثال سه-گرام جمله زیر به ترتیب زیر است:
علی کتاب را به زهرا داد
(علی, کتاب), (کتاب, را)
(را, به), (به, زهرا), (زهرا, داد)
جَستگرام (Skip-gram):
جستگرام (skip-gram) توالیای از چند توکن مجاور و غیرمجاور است. ابزار جستگرام توالیهایی با طول ۲-تا-۳-گرامی با فاصله ۱-تا-۳ توکن را به همراه بسامدشان استخراج میکند. در توالیهای با طول ۲-توکن امکان سنجش آماری همآیی توکنها وجود دارد که میتوان در ستون آخر نتایج مشاهده کرد. برای مثال سه-گرام جمله زیر با فاصله ۱-توکن به ترتیب زیر است
علی کتاب را به زهرا داد
(علی, کتاب), (علی, را)
(کتاب, را), (کتاب, به)
(را, به), (را, زهرا)
(به, زهرا), (به, داد)
(زهرا, داد)
توکنیابی (Tokenization):
توکنیابی (Tokenization) به فرآیند تقطیع متن به واحدهای هدف یا توکن گفته میشود. واحدهای هدف میتواند واژه، کاراکتر، ریزواژه (sub-words)، یا جمله باشد.
توکن (ُToken):
توکن اصطلاحی پوششی برای انواع واحدهای هدف میباشد. از آنجائیکه عناصر تقطیعشده لزوما با واحدهای هدف مطابقت ندارند، از اصطلاح توکن برای ارجاع به آنها استفاده میشود. برای مثال توکنیابی متن در سطح واژه میتواند به عناصری مانند علائم نگارشی (،؟!)، نمادها (+-٪) و مانند آن ختم شود که برای ارجاع به تمامی این عناصر (از جمله واژهها) از اصطلاح توکن استفاده میشود.
لمایابی (Lemmatization):
به فرآیند یافتن لمای یک واژه در متن لمایابی گفته میشود. لمایابی در پیکرههای «آزمایشگاه پیکره» تنها برای پیکره ۱۴۰۰ و قرآن انجام شده است.
لما (Lemma):
لما صورتی واژگانی است که مجموعه صورتهای واژگانی مرتبط با آن را (عموماً صورتهای صرفی) نمایندگی میکند. این صورت معمولاً صورتی است که در لغتنامهها به عنوان مدخل ضبط میشود. برای مثال لمای صورتهای صرفی رفتم، رفتش، رفتهام، و ... «رفتن» است.
ازآنجائیکه برخی توکنها فاقد لمای مشخصی هستند و به منظور کاستن از حجم واژگان، برای لمای برخی از توکنها (یا حتی برخی از توکنها) از زنجیرههای ذخیره (reserved sequence) استفاده کردهایم که فهرست آن را میتوانید در زیر مشاهده کنید. لازم است برای جستجوی این عناصر از این زنجیرههای ذخیره استفاده کنید.
| طبقه توکنها | توکن | لما | مثال |
|---|---|---|---|
| واژهها و عبارات عربی | ❌ | [ARB] | |
| انواع «بسم الله ...»ها | ❌ | [BSM] | بسه تعالی، بسم الله الرحمن الرحیم |
| نگارش قراردادی تاریخها | ❌ | [DAT] | ۱۴۰۴/۱۱/۲۲ |
| ارقام | ❌ | [DGT] | ۱،۲،۳و ... |
| اموجیها و اموتیکانها | ❌ | [EMJ] | 😍 :))))) |
| ایمیلها | [EML] | [EML] | JohnDoe@host.com |
| واژهها و عبارات انگلیسی | ❌ | [ENG] | WDF, Chomsky |
| واژهها و عبارات کرهای | [KRN] | [KRN] | 방탄소년단 |
| واژهها و عبارات غیرفارسی غیرایرانی دیگر | ❌ | [FRG] | датаджовский |
| فرمولها | ❌ | [FRM] | ۲ + ۲ |
| نامآواها | ❌ | [INJ] | آخ، هی |
| واژهها و عبارات غیرفارسی ایرانی | ❌ | [LOC] | |
| ترکیبات عدد + واژه | ❌ | [NUM]+واژه | پنجسالگی، دهکیلومتری، و مانند آن |
| ترکیبات رقم + واژه | ❌ | [DGT]+واژه | ۵سالگی، ۱۰کیلومتری، و مانند آن |
| علائم نگارشی | ❌ | [PNC] | .،!؟: |
| آیات قرآن | [QRN] | [QRN] | انا فتحنا لک فتحا قریبا |
| عبارات احترامآمیز | ❌ | [SLM] | علیه السلام، (ص) |
| انواع صلواتها | ❌ | [SLV] | اللهم صل علی محمد و آله |
| نمادها | ❌ | [SYM] | + - اعداد یا حروف ترتیبی فهرست |
| شماره تلفنها | ❌ | [TEL] | +۹۸۹۳۷۴۲... |
| قراردادهای نوشتاری زمان | ❌ | [TIM] | ۲:۱۰ |
| واژهها و عبارات ترکی | ❌ | [TRK] | آجام یعنی گشنمه |
| واژههای ناشناخته | ❌ | [UKN] | چرا کفتر داریم ولی کفخشک نداریم |
| نامهای کاربری | [USR] | [USR] | @JohnDoe |
گزینههای صفحه تولید
انتخاب پیکره (Corpus Selection):
از این گزینه برای انتخاب پیکره مورد نظر خود استفاده میکنیم. در حال حاضر، حاوی ۴ پیکره است:
- پیکره ۱۴۰۰
- پیکره بیجنخان
- پیکره قرآن (عربی)
- پیکره قانون
نوع جستجو (Search Type):
این گزینه تعیین میکند که فهرست مستخرج فهرستی از توکنها یا لماهای پیکره باشد. گزینه لما (lemma) تنها برای پیکرههایی فعال است که لمایابی شدهاند.
واژههای رکیک و ایستواژهها:
فعال کردن گزینههای این بخش طبقه مرتبط با آن را از نتایج حذف میکند. اگر واژههای رکیک فعال باشد، توییتهای حاوی واژههای رکیک از نمونه گیری و پیکره مستثنا میشود.
ایستواژهها توکنهای پربسامدیاند که فاقد ارزش محتواییاند. از منظر زبانشناختی غالب چنین توکنهایی را واژههای نقشی تشکیل میدهند. حذف این توکنها اجازه میدهد تا بر روی توکنهای محتوایی تمرکز کرد.
آستانه بسامد (Min Frequency):
این گزینه حداقل بسامد توکنها را تعیین میکند. فهرست واژگان استخراجشده حاوی توکنهایی خواهد بود که بسامدشان بیشتر از عدد «آستانه بسامد» است.
مقدار بافت (Context Size):
این گزینه که تنها برای ابزار KWIC به کار میرود، مقدار توکنهای مجاور در دو سمت توکن هدف را نشان میدهد. حداقل مقدار آن ۳ توکن و حداکثر آن ۸ توکن است.
طول (ٌLength):
در چندگرام و جستگرام تعداد توکنهایی که همآیی آنها سنجیده میشود را تعیین میکند. حداقل مقدار آن ۲ توکن و حداکثر آن ۴ توکن است.
حاشیهگذاری (ٌPadding):
در ابزارهای چندگرام و همآیی، ابتدا و انتهای جمله را، به ترتیب، با [START] و [END] نشاندار می کند و برای مطالعه توکنهایی که در ابتدا یا انتهای جمله میآیند، مناسب است.
بافت همآیی (Collocation Context):
در ابزار همآیی، این گزینه تعیین میکند که توکنهای مجاور توکن هدف تا چه فاصلهای و از کدام سمت توکن هدف بازیابی شود. این گزینه از ۴ انتخاب تشکیل شده است که ترکیبی از دو حرف L (چپ) و R (راست)، که جهت را نشان میدهند، و دو عدد ۱ و ۲، که فاصله از توکن هدف را نشان میدهند، است.
معیارهای آماری (Statistical Measures):
در ابزارهای چندگرام و همآیی، همنشینی توکنها با یکدیگر را میسنجد. معیار انتخابشده به صورت یک ستون مجزا در فهرست خروجی ظاهر میشود. در چندگرام این گزینه تنها برای همنشینیهایی با طول ۲ توکن فعال است. ۵ معیار آماری در این بخش ارائه شده است:
- Mutual Information (MI)
- Pointwise MI (PMI)
- Log-Likelihood Ratio (LLR)
- Chi-Squared (χ²)
- Dice Coefficient (DICE)
نمونهگیری تصادفی (Randomization):
این گزینه از بین جملات پیکره نمونهگیری میکند. ازآنجائیکه پیکره ۱۴۰۰ براساس توییت توکنیابی شده است، عدد واردشده از بین توییتها نمونهگیری میکند. گزینه Random Seed این اطمینان را میدهد که بتوان نمونهگیری تصادفی را تکرار کرد.