پیکره بزرگ شناسایی موجودیتهای نامدار فارسی برچسب خورده
یکی از ابزارهای مهم جهت استخراج اطلاعات از متن، شناسایی موجودیتهای نامدار (Named Entity Recognition) است. تشخیص موجودیتهای نامدار (نامی) به این معناست که اسامی خاص در یک متن را بتوان تشخیص داد و آنها را به ردههای مشخصی دستهبندی کرد.
این مخزن حاوی پیکرهای از اطلاعات برچسبخورده استاندارد است. اطلاعات از ویکیپدیای فارسی استخراج شدهاند و در حال حاضر شامل حدود بیست و پنج میلیون توکن در قالب حدود یک میلیون جمله است
این پیکره به صورت اپنسورس منتشر شده است. همه پژوهشگران و علاقمندان میتوانند به رایگان از آن استفاده کنند. برای بهبود برچسبهای این پیکره میتوانید به سایت زیر مراجعه کنید: https://app.text-mining.ir
تا کنون بیش از ۱۰۰۰ نفر از کاربران در بهبود این پیکره نقش داشتهاند. لیست کامل مشارکتکنندگان (تا زمان انتشار فایل) را از اینجا میتوانید مشاهده کنید
بعد از ثبتنام و ورود، با مراجعه به بخش «برچسبزنی متن NER» . راهنما و مثالهای برچسبزدن متون در این بخش درج شده است و به راحتی میتوانید برچسب کلمات را تغییر دهید. مراجعه کنید
اطلاعات موجود در این مخزن، بر اساس دستهبندیهای زیر برچسبگذاری شدهاند: