تبلیغات
طراحی وب سایت - کاستی های الگوریتمی در موتورهای جستجوی وب

کاستی های الگوریتمی در موتورهای جستجوی وب

نویسنده :
تاریخ:سه شنبه 22 شهریور 1390-11:05 ب.ظ

ما در این مقاله شش مسأله الگوریتمیحل نشده یا بخشی حل شده را که در موتورهای جست و جوی وب رخ میدهد شرح میدهیم : (1) نمونه گیری یکنواخت صفحات وب (2) مدل کردن گراف وب (3) یافتن میزبانهای دوگان (4) یافتن تارک داران و تارک بازان (5) یافتن گرافهای بزرگ دوبخشی چگال ، و درک چگونگی إفراز وب توسط بردارهای ویژه .

1 . مقدمه
موتور جست و جوی وب از سه بخش تشکیل میشود : (1) یک دنبالگرد crawler که صفحات وب را پیدا میکند تا داخل مجموعه صفحات وب آن موتور قرار گیرد، (2) یک شاخص گذار indexer که شاخص معکوس inverted index ( نیز موسوم به شاخصindex ) را که ساختمان اصلی دادههای مورد استفاده ی آن موتور جست وجواست و صفحات وب دنبال گشته crawled را ارائه میکند ، (3) یک پاسخ دهنده که پرس و جو های کاربررا با استفاده از شاخصها پاسخ میدهد .
در حد مقصود ما بگوییم، دنبالگرد، وب را به مثابه ی یک گراف مینگرد : هر صفحه وب یک گره است و هر ابرپیوند یک کمان است . پرسش اساسی ای که دنبالگرد با آن رودررو است این است که کدام صفحه ها را پیدا کند تا ‹‹ مناسب ترین›› صفحات را در مجموعه ی خود داشت باشد .
برخی مسائل باز که ذیلا عنوان شده است، میتواند دنبالگردهابهبود بخشد.
-درک بهتر از ساختار گراف (بخش 3 ) ممکن است به راه کارآمدتری برای دنبالگردی در وب منجر شود .
-
درک بهتر خصوصیت های مختلف وب (بخش 2) میتواند مشخص کند کدام جمعیت از صفحه ها در دنبالگردی تا بدینجا کمترارائه شده هستند .
-
راه مؤثری برای یافتن میزبانهای دوگان Duplicate hosts میتواند به دنبالگرد کمک کند تا از دنبالگردی در دوگان‏‏ میزبانیکه قبلا دنبالگردی کرده است ، پرهیز نماید .
به فرض این که مجموعه ای از پرس وجوها به موتور جست و جوعرضه شده باشد ، مساله ی اصلی این است که کدام پرس وجوها بیشتر بوده است.البته برای کشف تأثیرات موقت ، جستن « تارک داران» top gainers و « تارک بازان» top losers نیز جالب است . این مسأله در بخش 5 مطرح شده است. در پایان ، دو مسأله را که در ارتباطبا خوشه ای شدن موضوع-وابسته ی وب یا یک زیرگراف آن است مطرح میکنیم: بخش 6 از مسأله ی یافتن زیر گرافهای دوبخشی جهت دار چگال بحث میکند . بخش 7 پرسش چگونگی اشتقاق بردارهای ویژه ی ماتریسهای مختلف را از گراف وب عرضه میدارد . ما هر یک از این مسائل باز را ترسیم کرده ، ارجاعاتی نیز به کارهای پیشین در این زمینه میدهیم .
2-
نمونه گیری صفحات وب
درک وب و خصوصیت های آن ، از آغاز وب ، یک موضوع مهم تحقیقاتی است . چند صفحه در وب وجود دارد؟چند تا از آنها توسط موتور جست و جویی شاخص گذاری شده است؟ چند صفحه به یک زبان خاص یا در یک حوزه ی معین وجود دارد ؟ متوسط اندازه ی یک صفحه ی وب چقدر است ؟ چه درصدی از صحات وب صفحه ی اصلی هستند ؟ و این خصوصیت ها در زمان چگونه تغییر میکند ؟ موتور های جست وجومیکوشند تا آنجا که ممکن باشد، اطلاعاتوب را ثبت کنند . به علاوه نسبت انواع مختلف صفحه ها ، نظیر صفحه های به زبانهای مختلف باید تقریبا متناسب با انواع موجود در وب باشد .
رد گیری این خصوصیات در دنبالگردی بدیهی است . بنابر این اگر این آمار برای وب معلوم باشد ، دنبالگرد میتواند تعیین کند که چه انواعی از صفحات وب تا بدینجا خیلی کمتر ارائه شده هستندو بکوشد بیشتر از آنها دنبالگردی کند .
برا ی نمونه گیری یکنواخت صفحات وب میشد از یک فناستفاده کرد ، تا همه ی چنین سؤالاتی را به جز سؤال نخست پاسخ داد . متأسفانه چنین فنی شناخته نشده است اگرچه تحقیقات دامنهداری در این خصوص صورت گرفته است . لارنس و جایلز[Lawrence and giles 99 ] از رهیافتهای مبتنی بر آزمون تصادفی نشانی های ip  بهره گرفتند : آنها یک نشانی تصادفی ip   را انتخاب کردند و بررسی کردند که آیا آن میزبان host یک وبگاهاست یا نه . در صورت بودن ،آنها میکوشند صفحه های وب دسترس پذیر این وبگاهرا نمونه گیری کنند . البته اگر از صفحات وب یک وبگاهفهرست جامعی نداشته باشیم این که چگونه از این صفحه های وب نمونه گیری کنیم ، همچنان یک مسأله ی باز باقی خواهد ماند . هنتسینگر و همکارانش [henzinger et al . 00] تشکیل یک راه تصادفی خاص را بر گراف (جهت دار ) وب و آنگاه نمونه گیری ازصفحاتعبور شده را به طور معکوس متناسب با توزیع ثابت راه تصادفی مطرح نمودند . این رهیافت مشکلاتی چند دارد . یک مسأله این که، واضح نیست که چند مرحله باید انجام داد تا توزیع متوازن راتقریب زد.

منبع : شبکه فناوری اطلاعات ایران

نوع مطلب : اینترنت 

What causes pain in the Achilles tendon?
جمعه 24 شهریور 1396 02:27 ب.ظ
Hi there! Quick question that's totally off topic.
Do you know how to make your site mobile friendly?
My website looks weird when viewing from my apple
iphone. I'm trying to find a template or plugin that might be able to resolve this problem.
If you have any recommendations, please share. Cheers!
manicure
سه شنبه 22 فروردین 1396 02:14 ب.ظ
An outstanding share! I have just forwarded this onto a co-worker
who had been conducting a little homework on this. And he in fact bought me dinner simply because I discovered
it for him... lol. So allow me to reword this.... Thank YOU for the meal!!
But yeah, thanx for spending the time to discuss this matter here on your web page.
 
لبخندناراحتچشمک
نیشخندبغلسوال
قلبخجالتزبان
ماچتعجبعصبانی
عینکشیطانگریه
خندهقهقههخداحافظ
سبزقهرهورا
دستگلتفکر