یکی از ابزارهای مدیریت نمایه سازی سایت ها توسط موتورهای جستجو ، فایل robots.txt است. این روش عمدتا برای جلوگیری از بارگیری محتوای برخی از صفحات خاص توسط همه یا فقط برخی از ربات ها استفاده می شود. با این کار می توانید از "زباله" ها در نتایج موتور جستجو خلاص شوید و در بعضی موارد ، رتبه بندی منابع را به طور قابل توجهی بهبود ببخشید. برای داشتن موفقیت در برنامه مهم داشتن فایل robots.txt صحیح است.
ضروری است
ویرایشگر متن
دستورالعمل ها
مرحله 1
لیستی از ربات هایی را که برای آنها قوانین ویژه حذف استفاده می شود یا بخشنامه های استاندارد robots.txt ، و همچنین دستورالعمل های غیر استاندارد و خاص (پسوندهای یک موتور جستجوی خاص) استفاده کنید. مقادیر قسمتهای User-Agent از عناوین درخواست HTTP را که توسط ربات های انتخاب شده به سرور سایت ارسال می شود ، در این لیست وارد کنید. نام ربات ها را می توان در بخش های مرجع سایت های موتور جستجو نیز یافت.
گام 2
گروه های URL منابع سایت را که باید دسترسی به هر یک از ربات ها در لیستی که در مرحله اول وارد شده است ، رد کنید ، انتخاب کنید. همین کار را برای همه ربات های دیگر انجام دهید (مجموعه نامحدود ربات های نمایه سازی). به عبارت دیگر ، نتیجه باید چندین لیست باشد که حاوی پیوندهایی به بخشهای سایت ، گروههایی از صفحات یا منابع محتوای رسانه باشد که نمایه سازی آنها ممنوع است. هر لیست باید با یک ربات متفاوت مطابقت داشته باشد. همچنین باید لیستی از URL های ممنوع برای همه ربات ها وجود داشته باشد. لیست ها را براساس مقایسه ساختار منطقی سایت با مکان فیزیکی داده ها در سرور و همچنین با گروه بندی URL های صفحات بر اساس ویژگی های عملکردی آنها به عنوان مثال ، می توانید در لیست های انکار ، محتویات هر کاتالوگ خدماتی (گروه بندی شده براساس مکان) یا تمام صفحات نمایه کاربر (گروه بندی شده بر اساس هدف) را وارد کنید.
مرحله 3
علائم URL را برای هر یک از منابع موجود در لیست های وارد شده در مرحله دوم انتخاب کنید. هنگام پردازش لیست های استثنایی برای ربات ها که فقط از دستورالعمل های استاندارد robots.txt و ربات های تعریف نشده استفاده می کنند ، قسمتهای URL منحصر به فرد با حداکثر طول را برجسته کنید. برای مجموعه آدرسهای باقیمانده ، می توانید الگوهایی مطابق با مشخصات موتورهای جستجوی خاص ایجاد کنید.
مرحله 4
یک فایل robots.txt ایجاد کنید. گروه هایی از دستورالعمل ها را به آن اضافه کنید ، که هر کدام مربوط به مجموعه ای از قوانین منع کننده برای یک ربات خاص است ، که لیست آنها در مرحله اول تنظیم شده است. دستورالعمل های اخیر باید با یک گروه از دستورالعمل ها برای همه ربات های دیگر دنبال شود. گروه های قانون را با یک خط خالی جدا کنید. هر مجموعه قوانین باید با یک دستورالعمل عامل کاربر برای شناسایی ربات شروع شود ، و به دنبال آن یک دستورالعمل عدم اجازه ، که نمایه سازی گروه های URL را ممنوع می کند. خطوط بدست آمده در مرحله سوم را با مقادیر دستورالعمل Disallow ایجاد کنید. دستورالعمل ها و معانی آنها را با دو نقطه از هم جدا کنید. مثال زیر را در نظر بگیرید: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / این مجموعه از دستورالعمل ها به ربات اصلی موتور جستجوی Yandex URL را فهرست نمی کند. این حاوی زیر رشته / temp / داده / تصاویر / است. همچنین از ایندکس کردن سایر ربات ها در URL های حاوی / temp / data / جلوگیری می کند.
مرحله 5
robots.txt را با دستورالعمل های استاندارد پیشرفته یا بخشنامه های خاص موتور جستجو تکمیل کنید. نمونه هایی از این دستورالعمل ها عبارتند از: میزبان ، نقشه سایت ، نرخ درخواست ، زمان بازدید ، تأخیر خزش.