سال انتشار: ۱۳۸۹

محل انتشار: سومین همایش ملی مهندسی کامپیوتر و فناوری اطلاعات

تعداد صفحات: ۳

نویسنده(ها):

سولماز خاتمی – دانشکده فنی دانشگاه آزاد اسلامی واحد زنجان
محمدرضا فیضی درخشی – گروه کامپیوتر دانشگاه تبریز

چکیده:

افزودن رکوردها ازمنابع مختلف به پایگاه داده مساله حادی است که اغلب باعث رکوردهای تکراری می شود رکوردهای تکراری کلید مشترک ندارند لیکن به یک موجودیت واحد اشاره دارند پایگاه داده هایی که این رکوردها را دربرمی گیرند معمولا خطاهایی را در بر میگیرند که مسئله تطابق رکوردهای تکراری را به یک مسئله پیچیده تبدیل می کنند این خطاها عبارتند از: خطاهای تایپی، اطلاعات ناقص، نادیده گرفتن فرمتهای استاندارد و یا هرترکیبی از عاملهای فوق دراین مقاله سعی داریم سه الگوریتم مطرح ، longest common string،smith-waterman،edit-distance را در زمینه فیلدهای تکراری برروی داده های واقعی که شامل اطلاعات املاک به زبان فارسی می باشند را مقایسه کنیم دراین مقاله از فیلد ادرس ملک برای انجام ازمایشات بهره گرفته ایم. در داده های موجود در پایگاه داده ما بیشتر اطلاعات ناقص وجوددارد که ما الگوریتم های موجود را برروی این دسته از خطاها بررسی می کنیم.