ما هو زاحف الويب وكيف يعمل؟

ما هو زاحف الويب وكيف يعمل؟

ما هو زاحف الويب وكيف يعمل؟


من المؤكد أنك بحثت عدة مرات في Google ؛ ولكن هل تساءلت يومًا ، "كيف تعرف Google أين تبحث؟" الإجابة على هذا السؤال هي "برامج زحف الويب". يمكنهم البحث في الويب وفهرسته حتى تتمكن من العثور بسهولة على عناصر مختلفة. في ما يلي  سنشرح هذه المشكلة بشكل كامل.


محركات البحث وبرامج الزحف

ما هو زاحف الويب وكيف يعمل؟



عندما تبحث باستخدام كلمة مفتاحية في محرك بحث مثل Google أو Bing ، يقوم موقع الويب هذا بمسح تريليونات الصفحات لإنشاء قائمة بالنتائج المتعلقة بهذه العبارة. وهنا تبرز أسئلة في أذهان المستخدمين الفضوليين: كيف تصل محركات البحث هذه بالضبط إلى كل هذه الصفحات؟ كيف يعرفون كيفية البحث عنها وإخراج هذه النتائج في غضون ثوانٍ وعرضها على المستخدم؟

الإجابة على هذا السؤال هي برامج زحف الويب ، والمعروفة أيضًا باسم العناكب. إنها برامج آلية تسمى الروبوتات  التي تزحف عبر الويب لتتم إضافتها إلى محركات البحث. تجد هذه الروبوتات مواقع ويب متنوعة لإنشاء قائمة بالصفحات التي ستظهر في النهاية في نتائج البحث.

تقوم برامج الزحف أيضًا بإنشاء نسخ من هذه الصفحات وتخزينها في قاعدة بيانات المحرك ، مما يتيح لك البحث بسرعة عن عناصر مختلفة. لهذا السبب ، غالبًا ما تضع محركات البحث نسخًا مخبأة من المواقع في قواعد بياناتها.


خرائط واختيار الموقع

كيف تختار برامج الزحف الزحف إلى مواقع الويب؟ علينا أن نقول أن السيناريو الأكثر شيوعًا هو أن مالكي مواقع الويب يريدون أن تقوم محركات البحث بالزحف إلى مواقعهم. 

يمكنهم تحقيق ذلك عن طريق مطالبة Google أو Bing أو Yahoo أو محرك بحث آخر بفهرسة صفحاتهم. تختلف هذه العملية من محرك لآخر. أيضًا ، غالبًا ما تختار محركات البحث مواقع الويب الشائعة والملائمة للزحف إليها عن طريق تتبع عدد المرات التي يرتبط فيها عنوان URL بمواقع الويب العامة الأخرى.


يمكن لمالكي مواقع الويب استخدام عمليات خاصة لمساعدة محركات البحث على فهرسة مواقع الويب الخاصة بهم ؛ مثل تحميل ملف sitemap. يحتوي هذا الملف على جميع الروابط والصفحات التي تشكل جزءًا من موقع الويب الخاص بك. أيضًا ، يتم استخدام الملف عادةً للإشارة إلى الصفحات التي سيتم فهرستها.


عندما تقوم محركات البحث بالفعل بالزحف إلى موقع ويب ، فإنها ستقوم تلقائيًا بتحديد موقع الويب هذا مرة أخرى للقيام بذلك. سيختلف عدد المرات التي سيتم فيها القيام بذلك اعتمادًا على شعبية الموقع والمعايير الأخرى ؛ لذلك ، غالبًا ما يقوم مالكو مواقع الويب بتحديث خرائط مواقعهم.


إخفاء الصفحات من برامج الزحف

ماذا لو كان موقع الويب لا يريد أن تظهر بعض صفحاته أو كلها في محرك بحث؟ على سبيل المثال ، قد لا ترغب في أن يتمكن الأشخاص من البحث عن صفحة خاصة بالأعضاء فقط أو عرض صفحة الخطأ 404 الخاصة بموقعك.

 هذا هو المكان الذي يتم فيه تشغيل قائمة منع الزاحف التي تسمى robots.txt. هذا الخيار عبارة عن ملف نصي بسيط يخبر برامج الزحف بصفحات الويب التي يجب إزالتها من الفهرس.

سبب آخر لأهمية ملف robots.txt هو أن برامج زحف الويب يمكن أن يكون لها تأثير كبير على أداء موقع الويب. نظرًا لأن برامج الزحف تقوم بتنزيل جميع صفحات الويب الخاصة بك تقريبًا ، فإنها يمكن أن تبطئك. أيضًا ، ليس لعملهم وقت يمكن التنبؤ به ويدخلون دون موافقة. إذا لم تكن بحاجة إلى الزحف إلى صفحاتك بشكل متكرر ، فقد يساعد إيقاف برامج الزحف في تقليل بعض تحميل موقع الويب الخاص بك. لحسن الحظ ، تتوقف معظم برامج الزحف عن الزحف على بعض الصفحات وفقًا لقواعد مالك الموقع.


سحر البيانات الوصفية

ستجد أسفل عنوان URL وعنوان كل نتيجة بحث في Google وصفًا موجزًا ​​للصفحة. تسمى هذه التفسيرات "مقتطفات". ربما لاحظت أن مقتطفات الصفحات على Google لا تتطابق دائمًا مع المحتوى الفعلي لمواقع الويب. وذلك لأن العديد من مواقع الويب لديها شيء يسمى "علامة وصفية". العلامة الوصفية هي وصف مخصص يضيفه مالكو مواقع الويب إلى صفحاتهم.

غالبًا ما يقدم مالكو مواقع الويب أوصاف بيانات وصفية مضللة تجعلك تنقر على موقع الويب. يسرد Google أيضًا البيانات الوصفية الأخرى ، مثل الأسعار والأسهم. هذا مفيد بشكل خاص للأشخاص الذين لديهم مواقع للتجارة الإلكترونية.


كيفية استخدام محرك بحث قوقل بشكل احترافي 


يعد البحث في الويب جزءًا أساسيًا من استخدام الإنترنت. يعد البحث في الويب طريقة رائعة لاكتشاف مواقع الويب والمتاجر والمجتمعات والاهتمامات الجديدة. تزور برامج زحف الويب ملايين الصفحات كل يوم وتضيفها إلى محركات البحث. أخيرًا ، يجب أن نقول أن الزواحف لها أيضًا عيوب ؛ لكنها أيضًا ذات قيمة كبيرة لأصحاب مواقع الويب وزوارها.


mounir tech
بواسطة : mounir tech
مدون عربي مهتم بالتكنولوجيا و خاصة تطبيقات الهاتف و كل مايتعلق بالايفون و الاندرويد
تعليقات



حجم الخط
+
16
-
تباعد السطور
+
2
-