پیکره متون فارسی عمومی برای پردازش زبان طبیعی (NLP)

پیکره متون فارسی عمومی برای پردازش زبان طبیعی (NLP)
فرمت فایل
zip
حجم محصول
27 گیگابایت
زبان
فارسی
تاریخ انتشار
2023
تعداد فایل
1 فایل
5,500,000 تومان

دیتاست | دیتاست پیکره متون فارسی | دیتاست پردازش زبان طبیعی | نمونه متن فارسی پردازش زبان | دیتابیس متون فارسی | پیکره متون عمومی فارسی

دیتاست (انگلیسی: Data set‎) به مجموعه‌ای از داده‌های آماری یا دیتاهای رایانه‌ای مربوط به یک پایگاه داده اطلاق می‌شود، که با هدف یکپارچه نمودن داده‌ها، محتویات آن را در قالب یک جدول پایگاه داده تنظیم و مرتب می‌نمایند، که در آن، هر ستون از پایگاه داده، نشان دهنده یک متغیر خاص است و هر ردیف نیز به یکی از اعضای مجموعه داده‌های مورد نظر مرتبط می‌باشد.

دیتاست پیکره متون فارسی برای پردازش زبان طبیعی (NLP) حاوی بزرگترین پیکره های متون زبان فارسی جهت پردازش و آموزش زبان فارسی به سرویس و الگوریتم های کامپیوتری می باشد که در موضوعات مختلف استخراج،پاکسازی و جمع آوری شده است.

حجم نهایی رکوردهای دانلود شده دیتاست بیش از 20 میلیون جمله و عبارت و 9 میلیارد لغت فارسی می باشد . این دیتاست ها از منابع مختلف از جمله سایت ها و انجمن های فارسی زبان،شبکه های اجتماعی مانند اینستاگرام، توییتر و تلگرام و.. استخراج شده اند.

نکته: این محصول به قطعات کوچک (حدود 500 مگابایت) تقسیم شده تا فرآیند دانلود با مشکل مواجه نشود اما برای دانلود فایل ها حتما از دانلود مننجر استفاده کنید.از طرفی با توجه به قرارگیری فایلها در دیتاسنتر داخلی هزینه دانلود نیم بها خواهد بود.خروجی نهایی این دیتاست با توجه به اضافه شدن بروزرسانی جدید حدود 93 گیگابایت می باشد که در قالب فایل txt لینک دانلود کلیه فایل ها در اختیارتان قرار خواهد گرفت.

اگر نیاز به دیگر پیکره های متنی چندزبانه در موضوعاتی اعم از سیاسی، ریاضی و آمار، اقتصاد، زیست شناسی، عمران ، معماری ، پزشکی، کامپیوتر و فناوری اطلاعات و سایر زمینه ها دارید کلید کنید.

پیش نمایش دیتاست پیکره متون زبان فارسی
پیش نمایش دیتاست پیکره متون زبان فارسی

ویژگی های دیتاست پیکره متون فارسی

  • جدیدترین نسخه
  • حاوی لیستی از انواع جمله و عبارات فارسی
  • پشتیبانی از حوزه های مختلف

کاربردهای دیتاست:

  • تحلیلگران و علاقمندان به داده های آماری
  • کاوش در فناوری های آینده و بازارهای نوظهور
  • شناسایی چالش های موجود
  • برنامه ریزی ، مدیریت و تحقیق و توسعه محصولات مرتبط

مشخصات فنی دیتاست :

  • عنوان محصول: دیتاست پیکره متون فارسی برای پردازش زبان طبیعی (NLP)
  • کد محصول:dataset138
  • تاریخ انتشار: 1401/11
  • بروزرسانی: 1402/09/28
  • تعداد نمونه : بیش از 20 میلیون
  • نوع فایل: Jsonl
  • حجم فایل: فشرده 27 گیگابایت (باز شده 93 گیگابایت)
  • قابلیت ویرایش: دارد
  • راهنما: ندارد

در صورتی که نحوه کار با نرم افزار Octoparse را نمی دانید می توانید از آموزش استخراج داده از سایتها با نرم افزار Octoparse استفاده نمایید.

در صورتی که برای استخراج دیتا از سایت های مختلف نیاز به الگوهای آماده دارید می توانید از پروژه های استخراج داده با Octoparse که توسط فروشگاه فایل های دیجیتال طراحی و ارائه شده اند استفاده کنید.

و در صورتی که برای انجام پروژه های تحقیقاتی و یا شناسایی رفتار کاربران و بازار هدف در حوزه های گوناگون نیاز به دیتاست آماده دارید می توانید از دیتاست های فروشگاه فایل های دیجیتال استفاده نمایید.

مطالعه بیشتر

راهنمای خرید:
  • لینک دانلود فایل بلافاصله پس از پرداخت وجه به نمایش در خواهد آمد.
  • پس از خرید به صورت خودکار در سایت ثبت نام می شوید و اطلاعات ورود به حساب کاربری برایتان ایمیل می شود.
  • از طریق بخش حساب کاربری امکان دسترسی به محصولات خریداری شده وجود دارد.
  • دریافت آپدیت یا بروزرسانی محصولات تنها از طریق پروفایل کاربری خواهد بود و هیچگونه آپدیتی به ایمیل خریدار ارسال نخواهد شد.
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
  • لطفا قبل از خرید قوانین ما را مطالعه فرمایید.
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *