ماهو ملف عناكب البحث Robots.txt؟
تم تصميم بروتوكول Robots.txt ، والذي يُطلق عليه أيضًا "معيار استبعاد برامج الروبوت" ، لحظر العناكب عبر الويب من الوصول إلى جزء من موقع ويب. إنه إجراء أمان أو خصوصية ، أي ما يعادل تعليق علامة "الابتعاد" على بابك.
يستخدم مسؤولو موقع الويب هذا البروتوكول عندما يكون هناك أقسام أو ملفات يفضلون الوصول إليها من قبل بقية العالم. قد يشمل ذلك قوائم الموظفين ، أو الملفات التي يتم تداولها داخليًا. على سبيل المثال ، يستخدم موقع البيت الأبيض ملف robots.txt لمنع أي استفسارات عن خطابات نائب الرئيس ومقال مصور للسيدة الأولى وملفات شخصية عن ضحايا robots.
كيف يعمل البروتوكولrobots.txt؟
وهي تسرد الملفات التي لا ينبغي مسحها ضوئيًا ، وتضعها في دليل المستوى الأعلى لموقع الويب. تم إنشاء بروتوكول robots.txt بتوافق الآراء في يونيو 1994 من قبل أعضاء القائمة البريدية لـ robots (robots-request@nexor.co.uk). لا توجد هيئة معايير رسمية أو RFC للبروتوكول ، لذلك من الصعب سن تشريعات أو تفويض باتباع البروتوكول. في الواقع ، يتم التعامل مع الملف على أنه استشاري بشكل صارم ، وليس لديه ضمان مطلق بعدم قراءة هذه المحتويات.
في الواقع ، يتطلب ملف robot.txt تعاونًا من عنكبوت الويب وحتى القارئ ، نظرًا لأن أي شيء يتم تحميله على الإنترنت يصبح متاحًا للجمهور. أنت لا تحجبهم عن هذه الصفحات ، بل تجعلهم أكثر صعوبة في الحصول عليها. لكن الأمر يتطلب القليل منهم لتجاهل هذه التعليمات. يمكن أيضًا للمتسللين عبر الكمبيوتر اختراق الملفات واسترداد المعلومات بسهولة. وبالتالي فإن قاعدة التجربة - إذا كانت حساسة ، فلا ينبغي أن تكون على موقع الويب الخاص بك لتبدأ.
ومع ذلك ، يجب توخي الحذر للتأكد من أن بروتوكول Robots.txt لا يمنع روبوتات الموقع من مناطق أخرى في موقع الويب. سيؤثر هذا بشكل كبير على تصنيف محرك البحث الخاص بك ، حيث تعتمد برامج الزحف على الروبوتات لحساب الكلمات الرئيسية ومراجعة البيانات الوصفية والعناوين والرؤوس المتقاطعة وحتى تسجيل الارتباطات التشعبية.
يمكن أن يكون للوصل أو الشرطة في غير محلها آثار كارثية. على سبيل المثال ، تتم مطابقة أنماط robots.txt بمقارنات سلسلة فرعية بسيطة ، لذلك يجب توخي الحذر للتأكد من أن الأنماط المطابقة للدلائل تحتوي على الحرف "/" النهائي: وإلا فإن جميع الملفات ذات الأسماء التي تبدأ بهذه السلسلة الفرعية سوف تتطابق ، بدلاً من فقط تلك الموجودة في الدليل المقصود.
محاكي العنكبوت لمحرك البحث
لتجنب هذه المشكلات ، حاول تقديم موقعك إلى محاكي العنكبوت لمحرك البحث ، والذي يُسمى أيضًا محاكي روبوت محرك البحث. تستخدم أجهزة المحاكاة هذه - التي يمكن شراؤها أو تنزيلها من الإنترنت - نفس العمليات والاستراتيجيات لمحركات البحث المختلفة وتمنحك "تشغيلًا جافًا" لكيفية قراءتها لموقعك. سيقومون بإخبارك بالصفحات التي يتم تخطيها ، وأي الروابط يتم تجاهلها وأي الأخطاء التي يتم مواجهتها. نظرًا لأن المحاكيات ستعيد تنشيط الطريقة التي تتبع بها الروبوتات في الارتباطات التشعبية ، فسترى ما إذا كان بروتوكول robot.txt الخاص بك يتداخل مع قدرة محرك البحث على قراءة جميع الصفحات الضرورية.
من المهم أيضًا مراجعة ملفات robot.txt ، والتي ستمكنك من اكتشاف أي مشاكل وتصحيحها قبل إرسالها إلى محركات البحث الحقيقية.
يوفر XML-Sitemaps.com أدوات مجانية عبر الإنترنت لأصحاب المواقع ، بما في ذلك محاكي عنكبوت محرك البحث ومدقق XML لملفات Sitemap من Google.

تعليقات
إرسال تعليق