سال انتشار: ۱۳۹۳

محل انتشار: کنفرانس بین المللی مهندسی، هنر و محیط زیست

تعداد صفحات: ۹

نویسنده(ها):

سیدمحسن هاشمی – موسسه آموزش عالی رهنما، گروه کامپیوتر اهواز، خوزستان، ایران
زکیه درفشان – موسسه آموزش عالی رهنما، گروه کامپیوتر اهواز، خوزستان، ایران
صدیقه جوادی – موسسه آموزش عالی رهنما، گروه کامپیوتر اهواز، خوزستان، ایران
محمد مولازاده دزفولی – موسسه آموزش عالی کارون، گروه کامپیوتر اهواز، خوزستان، ایران

چکیده:

امروزه بخش قابلتوجهی از اطلاعات موجود در پایگاه دادههای متنی ذخیره میشود که از مجموعه بزرگی ازاسناد و منابع مختلف، از قبیل اخبار، مقالات علمی، کتاب، کتابخانههای دیجیتالی، پیامهای ایمیل و صفحات وب تشکیل شده است . متنکاوی دانش استخراجاطلاعات از متن بدون ساختار است. دستهبندی متون بدین معنی است که اسناد متنی موجود را به چند دسته از قبل تعریفشده که اسناد متعلق به آنها هستند را نسبت دهیم. تا کنون روشهای متنوعی برای دستهبندی متون در زمینه متون لاتین ارائه گردیده است. تمامی پژوهشها پیشین سعی در افزایش کارایی دستهبندی داشتهاند. در این پژوهش نیز هدف افزایش کارایی دستهبندی بر روی مجموعه داده فارسی میباشد و هدف بهبود روشهای بیز میباشد. در این مقاله با انجام مراحلی از پیش پردازش و استفاده از الگوریتم های یادگیری بیز کارایی دسته بندی را به 24.42 درصد با 2 دسته رسانیدیم