گلستانه ارقام پارسیان|های‌تک

مقدمه با افزایش روزافزون سایت ها و اطلاعات در اینترنت، برنامه ای نیاز بود که بتواند اطلاعات موجود را تفکیک و در موقع نیاز کاربران در اختیار آنها قرار دهد. از این رو مدیران شرکت...

موتور جستجوی گوگل

google-search-engin

مقدمه

با افزایش روزافزون سایت ها و اطلاعات در اینترنت، برنامه ای نیاز بود که بتواند اطلاعات موجود را تفکیک و در موقع نیاز کاربران در اختیار آنها قرار دهد. از این رو مدیران شرکت هایی همچون گوگل درصدد طراحی برنامه ای برآمدند که بتواند پاسخگوی درخواست های کاربران باشد و بدین گونه موتورهای جستجوگر را طراحی نمودند. در حال حاضر بدون مرورگرها دسترسی به اطلاعات موجود در اینترنت تقریبا غیرممکن می باشد.

 

موتور جستجوگر یا مرورگر

در عصر تکنولوژی و فناوری، به هر سیستمی که در میان حجم زیادی از اطلاعات، داده‌های مشخصی را جستجو کند، موتور جستجو گفته می‌شود.

موتور جستجوگر سایتی است که با گرفتن عبارتی مختصر، کاربر را با لیستی از سایت ها روبرو می‌کند که به موضوع مورد علاقه او مرتبط می‌باشند. در واقع برنامه است که با غربال سازی اطلاعات و ذخیره آنها در پایگاه داده خود و سپس مقایسه و تطبیق و در نهایت رتبه بندی اطلاعات، بهترین نتیجه را در اختیار کاربران قرار می دهد.

کار مرورگر گوگل با درج کلمه کلیدی کابران در سرچ گوگل آغاز نمی شود بلکه زمانی آغاز می شود که شخص یا شرکتی سایتی را در آن ثبت نماید. یعنی بعد از ثبت سایت و قبل از جستجوی کاربر، گوگل با ابزارهای خود سایت های ثبت شده را مورد بررسی قرار داده و با خزیدن در تمام صفحات آن ، اطلاعات موجود در آن سایت را جمع آوری کرده و مورد تحلیل و بررسی قرار می هد.

نکته قابل توجه اینکه مرورگر گوگل تنها سایت مورد نظر را مورد پویش قرار نداده بلکه تمامی لینک های موجود به صفحات دیگر را نیز چک می کند.

مرورگرها در یک بازه زمانی مشخص و بصورت اتوماتیک تمام سایت ها را مورد خزش قرار داده و چنانچه تغییراتی در سایت ها رخ داده باشد، پایگاه داده خود را بروز رسانی می کند.

گوگل برای بررسی سایت ها و اعلام نتیجه ای مناسب به کاربران از بخش های مختلفی تشکیل شده است که به بررسی هریک خواهیم پرداخت.

 

اجزای تشکیل دهنده موتور جستجوگر

v     اسپایدر (عنکبوت) Spider

v     کراولر (خزنده) Crawler

v     ایندکسر (بایگانی کننده ) Indexer

v     دیتابیس( پایگاه داده) database

v     رنکر (سیستم رتبه بندی) Ranker

 

اسپایدر ( spider ):

اسپایدر روبات یا نرم افزاری که وظیفه جمع آوری اطلاعات را برعهده دارد. کارکرد اسپایدر را می توان به کاربران تشبیه نمود. همانطور که کاربران از سایت ها بازدید می کنند ، اسپایدرها نیز سایت ها و لینک های موجود در آن را مورد بازدید قرار داده و اطلاعات را جمع آوری کرده و در اختیار سایر بخش های گوگول قرار می دهند.تفاوت پویش کاربران با اسپایدرها در این است که اسپایدرها کدهای html هر صفحه را می خوانند و کاربران نتیجه حاصل از این کدهای html را می بینند.

  google-spider

کراولر (crawler):

کراولرها تقریبا عملکردی شبیه اسپایدرها دارند که عمل جمع آوری اطلاعات را برعهده دارند. در واقع نرم افزاری است که بعنوان فرمانده اسپایدر عمل کرده و تعیین می نماید که اسپایدرها کدام صفحات را مورد بازدید قرار دهند.

 

ایندکسر (indexer) :

تمامی اطلاعات جمع آوری شده توسط اسپایدرها برای ایندکسر ارسال می شود و مورد تجزیه و تحلیل قرار می گیرد. برای ایندکسر پارامترهایی تعریف شده است که براساس آن اطلاعات را مورد تجزیه تحلیل قرار می دهد. بعنوان مثال مشخص می کند اطلاعات مربوط به کدام صفحه است ، کلمات موجود در آن کدامند، چندبار تکرار شده اند و ...

ایندکسرها هنگام تجزیه تحلیل داده ها جهت کاهش حجم داده ها، از برخی کلمات که ارزش معنایی ندارند صرف نظر می کند. کلماتی نظیر a, an, the, is, with, that و ...  

 

پایگاه داده (database):

داده ها بعد از جمع آوری و تجزیه و تحلیل، بصورت دسته بندی و کدگذاری شده در پایگاه داده ذخیره می شوند.براساس تکنیک های خاص گوگل، داده ها فشرده سازی شده تا فضای کمتری از پایگاه داده را اشغال نمایند.مرورگرها به دلیل حجم زیاد اطلاعات موجود در اینترنت باید پایگاه داده های بزرگی داشته باشند.

بنابراین حجم پایگاه داده و بروزبودن اطلاعات موجود در آن بسیار حائز اهمیت می باشد.

 

سیستم رتبه بندی ( Ranker) :

بعد از ذخیره اطلاعات در پایگاه داده، حال مرورگر آماده پاسخگویی به نیاز کاربران می باشد. چنانچه کاربری کلمه ای را در search box یا جعبه سرچ گوگل، جستجو نماید، رنکر ابتدا تمام صفحات مرتبط با موضوع سرچ شده را مشخص نموده و سپس با استفاده از سیستم رتبه بندی ، مطالبی را که بیشترین ارتباط با موضوع درخواستی را دارند تا کمترین ارتباط را بصورت نزولی به کاربر نمایش می دهد. با جرات می توان گفت سیستم رتبه بندی قلب تپنده هر مرورگر می باشد که بتواند مطالب مرتبط با درخواست کاربر را نمایش دهد و این تفاوت اصلی موتورهای جستجو می باشد.

رتبه بندی گوگل برای نمایش سایت ها براساس معتبر و مشهور بودن سایت ها نبوده بلکه براساس میزان ارتباط و بروز بودن مطالب آن سایت با موضوع سرچ شده می باشد.

 

با توجه به توضیحات داده شده عملکرد موتور جستجوی گوگل را می توان به سه بخش اصلی و مهم تقسیم نمود:

1- ربات های خزنده و ایندکس کلمات

جستجو با ثبت سایت و یا سرچ کاربر آغاز شده و ربات ها صفحات بیشماری که در اینترنت قرار دارد را مورد خزش قرار می دهند و سپس بر اساس محتوا و دیگر فاکتورهای تعریف شده آنها را نگهداری می نمایند.

 

2-  الگوریتم ها

همانطور که قبلا اشاره گردید گوگل از برنامه ها و پارامترهای خاصی استفاده می نماید تا بهترین نتیجه را در اختیار کاربران قرار دهد که به این راهکارها الگوریتم گفته می شود.

بعد از درج کلیدواژه توسط کاربر، الگوریتم ها کار خود را آغاز کرده تا بتواند منظور کاربر را درک نماید و مثلا کامل کردن کلمات، اصلاح نوشتار کلمات، تشخیص کلمات مترادف و ...

الگوریتم های گوگل به دلیل افزایش حجم اطلاعات و ارائه نتایج بهتر به کاربران، مدام در حال تغییر و بروز رسانی هستند.

  alogrithm

3- مبارزه با اسپم ها

یکی دیگر از مهم ترین فعالیت های جستجوگر گوگل مبارزه با اسپم ها است که از دید کاربران پنهان است. گوگل در طول شبانه روز درحال شناسایی و مبارزه با اسپم ها بود تا بتواند نتایج بدست آورده خود را حفظ نماید. اکثر اسپم ها با توجه به برنامه های تعریف شده ی گوگل به صورت اتوماتیک حذف می شوند و موارد مشکوک توسط متخصصین گوگل مورد بررسی قرار گرفته و در صورت تایید اسپم بودن، آنها را بصورت دستی حذف می کنند. زمانی که گوگل چنین تصمیمی بگیرد ابتدا صاحبان سایت ها را در جریان می گذارد تا سایت خود را بررسی و اصلاح نمایند.

مواردی که از نظر گوگل اسپم یا نمره منفی محاسبه می شود :

  • سایت های اسپم : سایت هایی که اتوماتیک ایجاد شده و یا تنها به قصد ایجاد هرزنامه بوجود آمده اند.
  • سایت های هک شده
  • متن یا کلمات مخفی شده در صفحه
  • اسپم های ایجاد شده توسط کاربر
  • محتوای کم و بی ارزش
  • تغییر مسیر و پنهان سازی
  • هاستینگ های رایگان اسپم
  • لینک های غیر طبیعی و ...

 

7 اسفند 1397   |   1584 بازدید