آزمایشگاه پیکره

مقدمه

این صفحه به نحوه کار با ابزارها و معرفی برخی از مفاهیم به‌کاررفته در آنها می‌پردازد. برای دسترسی سریع می‌توانید از فهرست سمت چپ ابزار موردنظر خود را انتخاب کنید.

اصطلاحات

فهرست واژگان (Word List):

استخراج فهرست بسامدی ابتدایی‌ترین تحلیلی است که می‌توان از پیکره داشت. این امکان در CorpusLab با ابزار «فهرست واژگان» محقق می‌شود. کافی است بر روی دکمه Generate کلیک کنید تا این فهرست را دریافت کنید. در ستون جدول مستخرج، بسامد توکن‌ها به صورت درصد درج شده است.

کلیدواژه در بافت (KWIC):

کلیدواژه در بافت (KWIC) ابزاری برای نمایش بافت پیرامونی یک کلیدواژه است. این ابزار با بازیابی تمام رخدادهای یک واژه (کلیدواژه) و بافت پیرامونی آن، و مرتب‌کردن کلیدواژه ذیل یکدیگر، امکان مشاهده واژه‌های پیرامون کلیدواژه را فراهم می‌کند. امکان نمایش واژه‌های پیرامونی تا ۸ واژه و مرتب کردن الفبایی این واژه‌ها این امکان را برای محققان فراهم می‌کند تا بافت پیرامونی واژه را به راحتی شناسایی کنند.

چندگرام (N-gram):

چندگرام (n-gram) توالی بلافصلی از چند (n) توکن مجاور است. ابزار چندگرام توالی‌هایی با طول ۲-تا-۴-گرامی را به همراه بسامدشان استخراج می‌کند. در توالی‌های با طول ۲-توکن (دوگرام) امکان سنجش آماری هم‌آیی توکن‌های مجاور وجود دارد که می‌توان در ستون آخر نتایج مشاهده کرد. برای مثال سه-گرام جمله زیر به ترتیب زیر است:

علی کتاب را به زهرا داد
(علی, کتاب), (کتاب, را)
(را, به), (به, زهرا), (زهرا, داد)

جَست‌گرام (Skip-gram):

جست‌گرام (skip-gram) توالی‌ای از چند توکن مجاور و غیرمجاور است. ابزار جست‌گرام توالی‌هایی با طول ۲-تا-۳-گرامی با فاصله ۱-تا-۳ توکن را به همراه بسامدشان استخراج می‌کند. در توالی‌های با طول ۲-توکن امکان سنجش آماری هم‌آیی توکن‌ها وجود دارد که می‌توان در ستون آخر نتایج مشاهده کرد. برای مثال سه-گرام جمله زیر با فاصله ۱-توکن به ترتیب زیر است

علی کتاب را به زهرا داد
(علی, کتاب), (علی, را)
(کتاب, را), (کتاب, به)
(را, به), (را, زهرا)
(به, زهرا), (به, داد)
(زهرا, داد)

توکن‌یابی (Tokenization):

توکن‌یابی (Tokenization) به فرآیند تقطیع متن به واحدهای هدف یا توکن گفته می‌شود. واحدهای هدف می‌تواند واژه، کاراکتر، ریزواژه (sub-words)، یا جمله باشد.

توکن (ُToken):

توکن اصطلاحی پوششی برای انواع واحدهای هدف می‌باشد. از آنجائیکه عناصر تقطیع‌شده لزوما با واحدهای هدف مطابقت ندارند، از اصطلاح توکن برای ارجاع به آنها استفاده می‌شود. برای مثال توکن‌یابی متن در سطح واژه می‌تواند به عناصری مانند علائم نگارشی (،؟!)، نمادها (+-٪) و مانند آن ختم شود که برای ارجاع به تمامی این عناصر (از جمله واژه‌ها) از اصطلاح توکن استفاده می‌شود.

لمایابی (Lemmatization):

به فرآیند یافتن لمای یک واژه در متن لمایابی گفته می‌شود. لمایابی در پیکره‌های «آزمایشگاه پیکره» تنها برای پیکره ۱۴۰۰ و قرآن انجام شده است.

لما (Lemma):

لما صورتی واژگانی است که مجموعه صورت‌های واژگانی مرتبط با آن را (عموماً صورت‌های صرفی) نمایندگی می‌کند. این صورت معمولاً صورتی است که در لغتنامه‌ها به عنوان مدخل ضبط می‌شود. برای مثال لمای صورت‌های صرفی رفتم، رفتش، رفته‌ام، و ... «رفتن» است.

ازآنجائیکه برخی توکن‌ها فاقد لمای مشخصی هستند و به منظور کاستن از حجم واژگان، برای لمای برخی از توکن‌ها (یا حتی برخی از توکن‌ها) از زنجیره‌های ذخیره (reserved sequence) استفاده کرده‌ایم که فهرست آن را می‌توانید در زیر مشاهده کنید. لازم است برای جستجوی این عناصر از این زنجیره‌های ذخیره استفاده کنید.

طبقه توکن‌ها	توکن	لما	مثال
واژه‌ها و عبارات عربی	❌	[ARB]
انواع «بسم الله ...»ها	❌	[BSM]	بسه تعالی، بسم الله الرحمن الرحیم
نگارش قراردادی تاریخ‌ها	❌	[DAT]	۱۴۰۴/۱۱/۲۲
ارقام	❌	[DGT]	۱،۲،۳و ...
اموجی‌ها و اموتیکان‌ها	❌	[EMJ]	😍 :)))))
ایمیل‌ها	[EML]	[EML]	JohnDoe@host.com
واژه‌ها و عبارات انگلیسی	❌	[ENG]	WDF, Chomsky
واژه‌ها و عبارات کره‌ای	[KRN]	[KRN]	방탄소년단
واژه‌ها و عبارات غیرفارسی غیرایرانی دیگر	❌	[FRG]	датаджовский
فرمول‌ها	❌	[FRM]	۲ + ۲
نام‌آواها	❌	[INJ]	آخ، هی
واژه‌ها و عبارات غیرفارسی ایرانی	❌	[LOC]
ترکیبات عدد + واژه	❌	[NUM]+واژه	پنج‌سالگی، ده‌کیلومتری، و مانند آن
ترکیبات رقم + واژه	❌	[DGT]+واژه	۵سالگی، ۱۰کیلومتری، و مانند آن
علائم نگارشی	❌	[PNC]	.،!؟:
آیات قرآن	[QRN]	[QRN]	انا فتحنا لک فتحا قریبا
عبارات احترام‌آمیز	❌	[SLM]	علیه السلام، (ص)
انواع صلوات‌ها	❌	[SLV]	اللهم صل علی محمد و آله
نمادها	❌	[SYM]	+ - اعداد یا حروف ترتیبی فهرست
شماره تلفن‌ها	❌	[TEL]	+۹۸۹۳۷۴۲...
قراردادهای نوشتاری زمان	❌	[TIM]	۲:۱۰
واژه‌ها و عبارات ترکی	❌	[TRK]	آجام یعنی گشنمه
واژه‌های ناشناخته	❌	[UKN]	چرا کفتر داریم ولی کفخشک نداریم
نام‌های کاربری	[USR]	[USR]	@JohnDoe

گزینه‌های صفحه تولید

انتخاب پیکره (Corpus Selection):

از این گزینه برای انتخاب پیکره مورد نظر خود استفاده می‌کنیم. در حال حاضر، حاوی ۴ پیکره است:

پیکره ۱۴۰۰
پیکره بیجن‌خان
پیکره قرآن (عربی)
پیکره قانون

نوع جستجو (Search Type):

این گزینه تعیین می‌کند که فهرست مستخرج فهرستی از توکن‌ها یا لماهای پیکره باشد. گزینه لما (lemma) تنها برای پیکره‌هایی فعال است که لمایابی شده‌اند.

واژه‌های رکیک و ایست‌واژه‌ها:

فعال کردن گزینه‌های این بخش طبقه مرتبط با آن را از نتایج حذف می‌کند. اگر واژه‌های رکیک فعال باشد، توییت‌های حاوی واژه‌های رکیک از نمونه گیری و پیکره مستثنا می‌شود.

ایست‌واژه‌ها توکن‌های پربسامدی‌اند که فاقد ارزش محتوایی‌اند. از منظر زبانشناختی غالب چنین توکن‌هایی را واژه‌های نقشی تشکیل می‌دهند. حذف این توکن‌ها اجازه می‌دهد تا بر روی توکن‌های محتوایی تمرکز کرد.

آستانه بسامد (Min Frequency):

این گزینه حداقل بسامد توکن‌ها را تعیین می‌کند. فهرست واژگان استخراج‌شده حاوی توکن‌هایی خواهد بود که بسامدشان بیشتر از عدد «آستانه بسامد» است.

مقدار بافت (Context Size):

این گزینه که تنها برای ابزار KWIC به کار می‌رود، مقدار توکن‌های مجاور در دو سمت توکن هدف را نشان می‌دهد. حداقل مقدار آن ۳ توکن و حداکثر آن ۸ توکن است.

طول (ٌLength):

در چندگرام و جست‌گرام تعداد توکن‌هایی که هم‌آیی آنها سنجیده می‌شود را تعیین می‌کند. حداقل مقدار آن ۲ توکن و حداکثر آن ۴ توکن است.

حاشیه‌گذاری (ٌPadding):

در ابزارهای چندگرام و هم‌آیی، ابتدا و انتهای جمله را، به ترتیب، با [START] و [END] نشان‌دار می کند و برای مطالعه توکن‌هایی که در ابتدا یا انتهای جمله می‌آیند، مناسب است.

بافت هم‌آیی (Collocation Context):

در ابزار هم‌آیی، این گزینه تعیین می‌کند که توکن‌های مجاور توکن هدف تا چه فاصله‌ای و از کدام سمت توکن هدف بازیابی شود. این گزینه از ۴ انتخاب تشکیل شده است که ترکیبی از دو حرف L (چپ) و R (راست)، که جهت را نشان می‌دهند، و دو عدد ۱ و ۲، که فاصله از توکن هدف را نشان می‌دهند، است.

معیارهای آماری (Statistical Measures):

در ابزارهای چندگرام و هم‌آیی، همنشینی توکن‌ها با یکدیگر را می‌سنجد. معیار انتخاب‌شده به صورت یک ستون مجزا در فهرست خروجی ظاهر می‌شود. در چندگرام این گزینه تنها برای همنشینی‌هایی با طول ۲ توکن فعال است. ۵ معیار آماری در این بخش ارائه شده است:

Mutual Information (MI)
Pointwise MI (PMI)
Log-Likelihood Ratio (LLR)
Chi-Squared (χ²)
Dice Coefficient (DICE)

نمونه‌گیری تصادفی (Randomization):

این گزینه از بین جملات پیکره نمونه‌گیری می‌کند. ازآنجائیکه پیکره ۱۴۰۰ براساس توییت توکن‌یابی شده است، عدد واردشده از بین توییت‌ها نمونه‌گیری می‌کند. گزینه Random Seed این اطمینان را می‌دهد که بتوان نمونه‌گیری تصادفی را تکرار کرد.