آشنایی و آموزش کار با متا تگ در وردپرس و فایل robots.txt

خزندهای موتور جستجو همه سایت شما رو مورد پیمایش قرار میده تا به صفحات سایت شما دسترسی پیدا کنه و اونا رو ایندکس گذاری کنه. کلا صاحبان وب سایتا از اینکه موتورهای جستجو صفحات دلخواه اونا رو ایندکس گذاری کنن بسیار خوشنود می شن. با این حال موقعیتایی هم هست که صاحبان وب سایتا نمی خوان که بعضی از صفحات سایتشان ایندکس گذاری شه.
مثلا اگه در حال راه اندازی یه سایت جدید هستین، بهترین اقدام اینه که موتورهای جستجو رو از ایندکس گذاری سایتتون منع کنین تا سایت نیمه کاره شما در صفحات جستجو ظاهر نشه. این کار رو میشه به آسونی با خوندن صفحه تنظیمات در نشانی yourwebsite.com/wp-admin/options-reading.php انجام داد.
تموم کاری که نیازه انجام بدین اینه که در بخش search engine visibility اسکرول رو به پایین برده و گزینه ای با عنوان “از موتورهای جستجو درخواست کن تا محتوای سایت رو بررسی نکنن” رو فعال کنین.

ورد پرس به شما این امکان رو میده تا همه موتورهای جستجو رو از ایندکس گذاری سایتتون منع کنین و انگار اونا رو بلاک کنین.
بدیش اینه در وردپرس این توانایی وجود نداره که بتونین تنها بعضی از صفحات رو از ایندکس گذاری خط بزنین. یعنی در وردپرس می تونین دستور بدین که همه صفحات ایندکس گذاری شن یا هیچ کدوم از اونا ایندکس گذاری نشن.
جلوگیری از ایندکس گذاری بعضی از صفحات در خیلی از موارد بسیار لازمه. مثلا میشه در وبلاگ، صفحه ای که مربوط به دانلوده رو از ایندکس گذاریا حذف کرد. این کاریه که در بیشتر وبلاگا صورت نمی گیره. این به این معنیه که کاربران می تونن با یه جستجوی آنلاین ساده کتابای الکترونیک و فایلای دیجیتال موجود در سایتتون رو دانلود کنن و اصلا به سایت شما ورود نکنن.

دیجیتال

راه های زیادی هست که با به کار گیری اونا می تونین موتورهای جستجو رو از ایندکس گذاری صفحات و محتواهای خودتون منع کنین. در این مقاله می خوایم بعضی از این راه ها که در دسترس تر هستن رو به شما معرفی کنیم.
بررسی خلاصه رباتای تگ متا (Robots Meta Tag)
گوگل پیشنهاد می کنه که وبمسترها صفحات سایت رو با به کار گیری Robots Meta Tag بلاک کنن. Robots Meta Tag از این فرمت پیروی می کنه :

robots meta tag باید در بخشدر هدر وردپرس قرار داده شه. به طور دقیق این تگ باید بینوقرار داده شه. واسه نام و ویژگیای دیگه محتوا مقدارای متفاوتی در دسترسه. مقدارایی که به وسیله گوگل واسه بستن دسترسی به یه صفحه پیشنهاد شده، robots و noindexه :Robots همه موتورهای جستجو رو در بر میگیره اما noindex فقط به موتورهای جستجو میگه که صفحه در ایندکس گذاریا روش زوم کرده نشه. اگه می خواین دسترسی به محتوای شما در بعضی موتورهای جستجوی خاص بلوکه شه، باید بجای مقدار robots از نام اسپایدر اون موتور جستجو استفاده کنین.

بعضی از اسپایدرای موتورهای جستجوی شناخته شده با این اسما شناخته می شن : googlebot – Google googlebot-news – Google News googlebot-image – Google Images bingbot – Bing teoma – Ask از جمله اسپایدرای شناخته شده ای که در لیست بالا به اون اشاره نشد MSNBot و Slurp هستن. MSNBot نام اسپایدریه که واسه ایندکس گذاری صفحات مربوط به Live Search، Windows Live Search و MSN Search استفاده می شه. این اسپایدرا در سال ۲۰۰۹ . ۲۰۱۰ برند خود رو با بینگ ترکیب کردن و حالا با نام Bingbot شناخته می شن. MSNBot هنوزم به وسیله Microsoft واسه پیمایش صفحات وب به کار برده می شه اما به زودی این اسپایدر از رده خارج می شه. Slurp نام اسپایدری بود که به وسیله موتور جستجوی یاهو مورد استفاده قرار می گرفت. کار این اسپایدر هم در سال ۲۰۰۹ به اتمام رسید و یاهو واسه تقویت موتور جستجوی خود از Bing استفاده کرد. واسه بلاک کردن بعضی موتورهای جستجوی خاص کافیه در کد به جای robots  از نام اسپایدر اون موتور استفاده کنین. مثلا :شما می تونین موتورهای جستجوی بیشتری رو هم بلاک کنین.

کافیه نام چند اسپایدر رو در کد بنویسین و اونا رو با یه کاما از هم جدا کنین :تا اینجا شما با چگونگی به کار گیری متا تگ noindex آشنا شدید. مقدارهای دیگری هم وجود دارن که واسه محتوا استفاده میشن. این مقادیر با عنوان دستورات (directives) شناخته می شن. اینجا لیستی ارائه می شه که در اون مهمترین دستورات در دسترس ارائه شده :

All – هیچ محدودیتی در ایندکس گذاری یا لینک دهی دید نشه Index – صفحه و هم اینکه یه لینک دسترسی در یافته های جستجو به نمایش درآورده شه

Noindex- صفحه و هم اینکه لینک دسترسی در یافته های جستجو به نمایش گذاشته نشه

Follow- لینکای موجود در صفحه پیگیری شه

Nofollow – لینکای موجود در صفحه پیگیری نشه

None – چگونگی استفاده به طور کامل مثل noindex, nofollowه

Noarchive- لینک دسترسی در یافته های جستجو به نمایش گذاشته نشه

Nocache- لینک دسترسی در یافته ها به نمایش گذاشته نشه

Nosnippet- هیچ اسنیپتی واسه صفحه مورد نظر در یافته های جستجو به نمایش در نیاد

Noodp- از متا دیتاای Open Directory Project واسه عناوین و اسنیپتای این صفحه استفاده نشه

Noydir – از متادیتاای دایرکتوری Yahoo واسه عناوین و اسمیپتای این صفحه استفاده نشه

Notranslate – در یافته های جستجو واسه این صفحه پیشنهاد ترجمه به زبون دیگه ارائه نشه

Noimageindex – تصاویر این صفحه اندیش گذاری نشن

unavailable_after: [RFC-850 date/time] – بعد از تاریخ و وقتی که در فرمت RFC 850 اومده، این صفحه در یافته های جستجوها نشون داده نشه بعضی از این دستورات فقط در بعضی موتورهای جستجوی خاص قابل اجراست. مثلا unavailable_after ، nosnippet و notranslate فقط در موتور جستجوی گوگل پشتیبانی می شن. Noydir فقط در موتور جستجوی یاهو و nocache فقط در موتور جستجوی بینگ قابل اجرا هستن. بقیه موتورای جستجو که کمتر شناخته شده هستن دستورات کلی که مربوط به موتورای جستجوی بزرگ نیستن رو پشتیبانی می کنن. بعضی از دستورات هم در گذشته کارایی داشتن اما حالا از رده خارج شدن : مثلا و یافته ها به طور کامل مشابهی رو بوجود میارن و هیچ دلیلی نداره که از این تگا استفاده شه چون موتورهای جستجو به شکل پیشفرض محتواها رو ایندکس گذاری می کنن و لینکا رو پیگیری می کنن. اگه شما در تلاشین که ایندکس گذاری یه صفحه به وسیله موتورهای جستجو رو متوقف کنین،

دستور nofollow به خودی خود نمی تونه استفاده بشه. دستور nofollow به موتورهای جستجو پیشنهاد می کنه که لینکای داخل صفحه مورد پیگیری قرار داده نشن. شما می تونین از این دستور واسه توقف پیمایش یه صفحه استفاده کنین. این نتیجه مثل نتیجه ایه که از استفاده ویژگی nofollow واسه لینکا بدست میاد. وبلاگی رو تصور کنین که تنها یه لینک به صفحه دانلود داده. در این مورد میشه از متا تگ nofollow در header صفحه دانلود استفاده کرد تا اینکه اسپایدرای موتورهای جستجو هیچوقت صفحه دانلود رو مشاهده ننمایند. این روش، خزندهای موتورهای جستجو رو از پیمایش این صفحه و هم اینکه ایندکس گذاری اون باز می داره. چه خوشتون بیاد و چه نیاد، مطمئنا شخص دیگری به صفحه دانلود مورد نظر شما لینک میده.

این به این معنی میشه که دستور nofollow به خودی خود خنثی می شه و اگه از تگ nofollow در هدر استفاده نشه به هر حال صفحه در یافته ها به نمایش در میاد. اگه صفحه ای شناخته شده واسه دانلود داشته باشین تقریبا غیر ممکنه که بقیه به اون لینک ندن. به خاطر همین علاوه بر دستور nofollow به دستور noindex هم نیازمند هستین. این دستور شما رو مطمئن می کنه که صفحه شما در یافته های جستجو ظاهر نمیشه.

هم اینکه لینکای بدست آورده شده به وسیله این صفحه هم به نمایش درنخواهند اومد. اگه از noindex استفاده میکنین احتیاجی به به کار گیری دستور noarchive نیس. پس واسه جلوگیری از ایندکس گذاری یه صفحه به وسیله موتورهای جستجوگر هم اینکه جلوگیری از پیگیری یه لینک، باید در هدر صفحه خط زیر رو اضافه کنین :عبارت بالا می تونه به صورتنیز نوشته شه. با این حال همه موتورهای جستجوگر از دستور none  پشتیبانی نمی کنن.

از این رو بهتره بجای none  از noindex,nofollow استفاده شه. اگه می خواین یه صفحه رو از یافته های جستجو خط بزنین اما می خواین که موتورهای جستجو بازم لینکای موجود در اون صفحه رو پیمایش کنن، می تونین از عبارت زیر بهره بگیرین :هزاران مقاله آنلاین هست که به اشتباه عقیده دارن که عبارت بالا باید بصورتنوشته شه. گوگل به روشنی اعلام کرده که نباید تو یه متا تگ از یکی از دستورات index یا follow استفاده شه. در سال ۲۰۰۷ گوگل این موضوع رو با بیان عبارت زیر روشن کردن : “به شکل پیش فرض، ربات گوگل یه صفحه رو ایندکس گذاری می کنه و لینکایی که به اون داده شده رو هم پیگیری می کنه. از این رو احتیاجی نیس که واسه یه صفحه از تگایی با مقادیر INDEX  یا FOLLOW استفاده شه.”

وقتی که از متا تگ robots  در وب سایتتون استفاده می کنین حتما حواستون باشه : تگای متا به بزرگی و کوچیکی حروف حساس نیستن. از این رو،هر سه عملکردی برابر دارن. حالا میدونید چیجوری میشه ایندکس گذاری صفحه به وسیله موتورهای جستجو رو متوقف کنین. با این حال در اضافه کردن متا تگا به قالب فایل header.php مشکلی هست. بستن یه صفحه، منتهی به این می شه که از ایندکس گذاری صفحاتی که به وسیله وردپرس قدرت گرفتن جلوگیری شه. واسه اطمینان از اینکه تنها یه محتوا یا یه صفحه خاص از ایندکس گذاری منع شده، باید از یه عبارت if استفاده کنیم.

مشکلی

به این صورت دستور noindex فقط به صفحه ای خاص تعلق پیدا می کنه. در ادامه به شما نشون میدیم که این روش دقیقا به چه شکل اجرا می شه : اضافه کردن متا تگ Robots  به Theme Header

روش ۱ در ادامه سه روش واسه اضافه کردن تگای متا بوسیله تغییر به شکل فایل header.php به شما ارائه می شه. در هر سه روش یافته های بدست اومده مثل هم هستن. با این حال شما ممکنه یکی از این روش ها رو نسبت به بقیه ترجیح بدین. به خاطر بلاک کردن یه صفحه یا محتوای خاص، باید post ID مربوط به اونو بدونین. آسون ترین راه واسه پیدا کردن این ID ویرایش اون هستش. وقتی که هر نوع صفحه ای رو در وردپرس ویرایش می کنین، یه URL مثل yourwebsite.com/wp-admin/post.php?post=15&action=edit در نوار نشانی دیده می شه. شماره ای که در این نشانی نشون داده می شه همون post IDه. این شماره به ردیف محتوا در جدول پایگاه داده وردپرس اشاره میکنه. در مثال بالا post ID عدد ۱۵ه. پس از اینکه ID محتوا یا صفحه ای که قصد بلاک کردن اونو دارین رو پیدا کردین، با اضافه کردن این کد در head section قالب فایل header.php می تونین ایندکس گذاری این صفحه به وسیله موتورهای جستجوگر رو متوقف کنین. این عبارت باید بینوقرار داده شه. شما می تونین این عبارت رو در هر جایی بذارین. پیشنهاد ما اینه که این عبارت در زیر یا بالای تگای متا قرار داده شه تا در مواقع نیاز خیلی راحت بتونین اونو پیدا کنین. در کد بالا X نشون دهنده ID  مربوط به محتواییه که قصد بلاک کردن اونو دارین. بر فرض اگه این ID مقدارش ۱۵ باشه، کد به شکل زیر میشه : از اونجایی که همه شکلای جور واجور محتواها در جدول پایگاه داده محتواهای وردپرس ذخیره می شن، کد بالا واسه هر نوع صفحه ای کارایی داره. هم اینکه می تونین صفحات اضافی موجود در سایتتون رو با به کار گیری عملگر OR بلاک کنین. کافیه که ID مربوط به صفحه هایی که می خواین بلاک شن رو بجای X و Y و … بیارین. مثلا : در این حالت صفحات با ID به شماره های ۱۵ ، ۱۳۷ و ۴۰۰۸ بلاک می شن. واسه تایید اینکه همه چیز رو به درستی پیکربندی کردین، باید بررسی کنین که صفحات بلاک شده همانایی هستن که مورد توجه شما بودن. آسون ترین راه اینه که منبع صفحه ای که قصد بلاک کردن اونو داشتین رو ببینین. اگه کد رو به درستی اضافه کرده باشین، عبارت رو می بینین که در بخش head اون صفحه قرار داده شده. اگه اینطور نباشه شما کد رو به درستی وارد نکردین.

شمام اینکه باید سورس کد یکی از صفحاتی رو که نمی خواید از ایندکس گذاری اون به وسیله موتور جستجو جلوگیری کنین رو هم مورد بررسی بذارین. اینطوری مطمئن میشین که همه صفحات شما به وسیله تگا بلوکه نشده ان.
اضافه کردن متا تگ Robots  به Theme Header :

روش ۲ : شما می تونین با به کار گیری تگای مشروط وردپرس (WordPress conditional tags)، ایندکس گذاری صفحات به وسیله موتورهای جستجو رو بلاک کنین. به خاطر استفاده درست از این فوت وفن، باید از تگای مشروط مناسبی بهره بگیرین. مثلا، شما باید واسه یه محتوا از is_single و واسه یه صفحه وردپرس از is_page استفاده کنین. دوباره ما باید کدی رو به قسمت head قالب فایل header.php اضافه کنیم. در مثالی که می خوام بزنم، X نشون دهنده ID محتواییه که می خوایم ایندکس گذاری اونو مسدود کنیم.

تگای مشروط نسبت به چگونگی مشخص کردن محتوا یا صفحه شما به طور کامل انعطاف پذیر هستن. شما می تونین از ID محتوا، عنوان محتوا یا post slug استفاده کنین.
اولین محتوای وبلاگی رو که در وردپرس وارد شده رو درنظر بگیرین. این محتوا دارای ID شماره ۱ه. عنوان این محتوا Hello World بوده و هم اینکه post slug اونم Hello World بوده. از این رو در کد می تونیم این محتوا رو به شکل زیر تعریف کنیم :

یا

و اگه می خواین بیشتر از یه صفحه رو بلاک کنین می تونین از عملگر OR  استفاده کنین. مثلا :

اگه تعداد بسیار زیادی محتوا و صفحه دارین، می تونین از یه عملگر OR  بین یه آرایه  is_single و یه آرایه is_page استفاده کنین.

واسه ساده کردن نکات بالا، عبارت if رو دوباره نویسی کردیم تا این فوت وفن رو توضیح بدیم. یادتون نره هنگام اضافه کردن کد به بخش header سایت، متا تگ در کد وجود داشته باشه و عبارت endif هم جا نیفته.

می تونین محتواهایتان رو با به کار گیری عنوان محتوا و slug محتوا مشخص کنین. این کار به شما کمک می کنه که خیلی راحت کد رو باز بینی کنین و دریابید که کدوم مقالات رو بلاک کردین. با این حال، این کار کمی ریسکیه. عنوان یه محتوا ممکنه عوض شه. اما ID محتوا همیشه ثابت باقی می مونه.
اگه به محتوا، عنوان صفحه یا slug در کد اشاره کرده باشین، و بعد شخصی در عنوان یا slug تغییری ایجاد کنه، کد دیگه کار نمیکنه. هر بار که شما تغییری در عنوان صفحه یا slug ایجاد میکنین، باید کد متا تگ رو هم در header.php به روز کنین. به خاطر همین پیشنهاد می شه از ID مربوط به محتوا یا صفحه استفاده کنین. در دراز مدت، اگه می خواین پستا و صفحات زیادی رو مخفی کنین، این روش عملی تر به نظر می رسه.
اضافه کردن متا تگ Robots  به Theme Header : روش۳
فوت وفن دیگه واسه بستن محتوا اینه که از ویژگی custom field وردپرس استفاده کنین. اولین کاری که باید انجام بدین اینه که کد زیر رو به قسمت هد قالب فایل header.php وارد کنین.

if ($noindex) {
echo ”;
}
?>

احتیاجی نیس که در کد بالا تغییری بسازین و ID  محتوا یا عنوان محتوا رو در اون بذارین. بجای مشخص کردن صفحه یا محتوا واسه بلوکه شدن، از custom field واسه این منظور استفاده میکنین. کافیه یه custom field با عنوان noindex-post مشخص کنین و یه مقدار به اون اختصاص بدین. مهم نیس که چی در اون وارد میکنین. فقط کافیه مطمئن شید که مقداری در فیلد وارد شده تا اینکه noindex-post مربوط به custom field مقدار true رو در کدی که در هدر قرار دادین بازگرداند.

مراحل بالا رو واسه هر نوع محتوایی که می خواین از ایندکس گذاری موتورهای جستجو دور بمونه انجام بدین. به نظر میاد این روش بسیار کاربر پسندتر از دیگر روش هاس. طوری که طراح سایت می تونه اونو واسه مشتری خود پیکر بندی کنه چون با این روش بستن محتواها و صفحات بسیار ساده س!.
با این حال، این روش یه راه آسون واسه بررسی اینکه کدوم محتواها و صفحات بلاک شدن ارائه نمی کنه. اگه از این فوت وفن استفاده کنین و با به کار گیری اون تعداد زیادی صفحه رو بلاک کنین، عاقلانه ترین کار اینه که اطلاعات مربوط به صفحاتی که بلاک شدن رو تو یه جا یادداشت کنین.
بلاک کردن موتورهای جستجو با به کار گیری یه افزونه وردپرس

اگه می خواین دسترسی موتورهای جستجو به تعداد خیلی از صفحات و محتواهایتان رو مسدود کنین، بهترین راه حل اینه که از یه افزونه وردپرس استفاده کنین. این افزونه PC Hide Pagesه.

راه حل

واسه حذف کردن یه صفحه از یافته های جستجو با به کار گیری افزونه، کافیه از لیست صفحات صفحه مورد نظرتون رو پیدا کنین. پس از انجام این کار، افزونه به صورت خودکار متا تگ مناسب رو به صفحه درخواست شده اعمال انجام میده. این یکی از بهترین روش ها واسه مخفی کردن صفحات از دید موتورهای جستجوئه. چون با این روش می تونین تو یه نگاه بفهمین که کدوم یکی از صفحات سایت شما از دید موتورهای جستجو مخفی شدن و می تونین این کار رو مستقیما از راه WordPress admin area انجام بدین.
تنها نقطه ضعف این افزونه اینه که افزونه اونا صفحات وردپرس رو پشتیبانی می کنه. این افزونه پستای وبلاگی و دیگه شکلای جور واجور محتواها رو پشتیبانی نمی کنه. این موضوع واسه کسائی که کلا از وردپرس واسه مدیریت کامل محتواهایشان استفاده می کنن هیچ مشکل خاصی ایجاد نمی کنه و این دسته از کاربران می تونن خیلی راحت از این افزونه استفاده کنن.

اگه سایت شما از یه پلاگین وردپرس بسیار محبوب که مربوط به موتورهای جستجوئه استفاده می کنه (مانند WordPress SEO یا All in One SEO Pack)، پس شما حالا توانایی حذف کردن محتوا از موتورهای جستجو رو دارین.
Yoast یکی از اولین پلاگینایی بود که به صاحبان وب سایتا کمک کرد تا خیلی راحت موتورهای جستجو رو بلوکه کنن. Yoast بعدا پلاگین Robots Meta خود رو با WordPress SEO ترکیب کرد.
بخش Titles & Metas settings در WordPress SEO زیر شاخه ای با عنوان Sitewide meta settings داره. این بخش به شما اجازه میده تا به آسونی دستور noindex رو به زیر صفحه های مجموعه اعمال کنین و عناوین و اسنیپتا رو از Open Directory Project و دایرکتوری یاهو که مورد استفاده قرار گرفته بود، غیر فعال کنین.

WordPress SEO امکانات زیادی واسه کنترل چگونگی رفتار موتورهای جستجو با صفحات سایتتون بهتون میده. اولین گزینه کنترل می کنه که یه صفحه به وسیله موتورهای جستجو ایندکس گذاری می شن یا خیر. دستور اضافی مربوط به متا تگ robots اینجا می تونه اعمال شه. دستورات follow، nofollow ، none و noarchive از جمله دستورات قابل اجرا هستن. هم اینکه میتونین که یه صفحه رو از نقشه سایتتون حذف کرده و یا صفحات موجود در نقشه سایت رو اولویت بندی کنین. اگه می خواین ترافیک رو از یه صفحه به مکان دیگری انتقال بدین، می تونین اینجا از ریدایرک۳۰۱ استفاده کنین.

صفحه اصلی تنظیمات مربوط به افزونه All in One SEO بخشی داره که با عنوان Noindex Settings شناخته می شه. در این بخش شما می تونین به آسونی متا تگ nofollow رو در ناحیه های مختلفی از سایتتون اعمال کنین. مثلا، می تونین تگ nofollow رو به دسته بندیا، مجموعه نویسنده و مجموعه تگا اعمال کنین. هم اینکه می تونین عناوین و اسنیپتا رو از دایرکتوری یاهو و Open Directory Project غیر فعال کنین. همونطور که می بینین، این بخش انتخابای عمومی بیشتری رو نسبت به WordPress SEO ارائه می کنه.

درست مثل WordPress SEO، افزونه All in One SEO یه settings area به صفحه ویرایش محتوا (post editor page) اضافه می کنه. در این بخش علاوه بر به کار گیری noindex و nofollow، می تونین صفحه رو از نقشه سایت خارج کنین و هم اینکه Google Analytics رو غیر فعال کنین. واسه کنترل محتوا، امکانات All in One SEO در مقایسه با WordPress SEO ضعیف تره.

WordPress SEO و All in One SEO Pack درست مثل custom field که در بالا توضیح داده شده عمل می کنن. درست مثل custom field باید noindex,nofollow رو از راه ویرایشگر محتوا (post editor) انتخاب کنین. اگه الان یکی از این افزونها رو مورد استفاده قرار دادین، می تونین از اونا واسه بستن بعضی از محتواها و صفحات سایتتون بهره بگیرین.

با به کار گیری فایل Robots.txt مانع از کراول شدن صفحات و یا پستا به وسیله موتورهای جستجوگر شیم
شما می تونین با به کار گیری فایل Robots.txt مشخص کنین که اسپایدرهای موتورهای جستجوگر کدوم صفحات و پستای سایت شما رو ایندکس گذاری کنن و کداما رو ایندکس گذاری نکنن. واسه انجام این کار شما باید اول یه فایل تکست یا .txt جدید بسازین و در اون مشخص کنین که خزندها کدوم صفحات و پستاتون رو ایندکس گذاری نکنن و بعد اون فایل تکست رو به عنوان فایل Robots.txt سایت خود در اون ذخیره سازی کنین.
معنی نهفته در پشت قرارداد Robots.txt مشابه با مفاهیم نهفته در متا تگ Robotsه که در این مقاله مفصلا در مورد اون صحبت شد. تنها فرق این دو معنی در مورد قوانین اولیه س که در ادامه به اونا پرداخته می شه.
⦁ User-agent: این خط کد تعیین کننده اون هستش که دستور اعمال شده واسه کدوم دسته از اسپایدرهای موتورهای جستجوگر باید اعمال شه.
⦁ Disallow: این خط کد تعیین کننده URL و یا دایرکتوری مشخصیه که شما می خواین اونو بلاک کنین.
نامایی که در بخشای قبلی این مقاله واسه اسپایدرهای موتورهای جستجوگر ذکر شد در فایل Robots.txt هم صادقه، یعنی شما می تونین دستور User-agent رو به شکل زیر به کار ببرین:

User-agent: Googlebot

که این خط کد واسه اشاره به اون هستش که دستور نوشته شده باید روی اسپایدرهای گوگل اعمال شه، اما اگه در خط کد بالا به جای Googlebot نوشته شده بود Bingbot خط دستور روی اسپایدرهای موتور جستجوگر بینگ اعمال می گردید. البته دستور user-agent معمولا به شکل زیر استفاده می شه:

User-agent:*

که در این صورت دستور نام برده روی تموم موتورهای جستجوگر اعمال می شه.
همونجوریکه گفته شد دستور Disallow اسپایدرها رو از ایندکس گذاری یه URL و یا دایرکتوری خاص منع می کنه. مثلا اگه دستور Disallow به شکل Disallow: / استفاده بشه دسترسی ربات گفته شده در دستور user-agent به همه صفحات سایت محدود می شه و اگه این دستور به شکل Disallow: /admin.php استفاده کرده شه دسترسی موتورمشخص شده در دستور user-agent به صفحه admin.php محدود می شه.
در زیر چند مثال از استفاده دستورات اشاره شده آورده شده و شما می تونین با مطالعه این مسالا متوجه کارکرد کلی این دستورات بشوید:
مثال ۱:

User-agent: *
Disallow: /

دستورات بالا از کراول شدن و ایندکس گذاری همه صفحات سایت به وسیله همه موتورهای جستجوگر جلوگیری می کنن. این دستورات وقتی کاربرد داره که مشکلی واسه سایت شما ایجاد شه و یا شما طبق دلیلی مثل ایجاد تغییرات بنیادی در سایت و یا تغییر کاربری اون بخواین به مدت نامعلومی مانع از اون شید که اسپایدرهای موتورهای جستجوگر صفحات سایت شما رو ایندکس گذاری کنن.
مثال ۲- اگه بخواین که موتورهای جستجوگر دایرکتوریای مشخصی رو در سایت شما ایندکس گذاری کنن می تونین کدی به شکل زیر در فایل robots.txt خود بسازین:

User-agent: *
Disallow: /tmp/
Disallow: /junk/
Disallow: /bin/

این دستورات مانع از اون می شن که دایرکتوریای Junk، bin و tmp به وسیله هیچ کدوم از موتورهای جستجوگر کراول شن.
مثال ۳- اگه شما بخواین رباتای موتورهای جستجوگر رو از ایندکس گذاری صفحه admin.php منع شن باید کدی به شکل زیر بنویسین:

User-agent: *
Disallow: /admin.php

شمام اینکه می تونین واسه رباتای موتورهای جستجوگر جور واجور قوانین مختلفی مشخص کنین. واسه این کار باید کدی به شکل زیر بنویسین:

User-agent:*
Disallow: /admin.php

User-agent: googlebot
Disallow: /images/

User-agent: bingbot
Disallow: /

حواستون باشه که در نام بردن صفحات و دایرکتوریا و یا حتی نام موتورهای جستجوگر بزرگی و کوچیکی حروف رو رعایت کنین چون فایل Robots.txt به کوچیک و بزرگ بودن حروف حساسه. مثلا اگه شما فایلی با نام My-eBook.pdf در سایت خود داشته باشین و بخواین مانع از اون شید که موتورهای جستجوگر اونو کراول کنن و دستوری به فرم زیر بنویسین:

Disallow: /downloads/myebook.pdf

این دستور کارکرد درستی نداره چون در اون به بزرگی و کوچیکی حروف توجه نشده.
یه دستور پر کاربر دیگه هم در ایجاد فایلای robots.txt می تونه مورد استفاده قرار بگیره و اونم دستور Allowه. با به کار گیری این دستور می تونین یکی از موتورهای جستجوگر رو از لیستی که به وسیله User-agent تعیین کردین خارج کنین و امکان دسترسی به یه ربات خاص بدین. واسه درک بهتر این معنی به مثالی که می خوام بزنم توجه کنین:

User-agent: *
Disallow: /

User-agent: Googlebot-Image
Allow: /images/

بخش بالایی این دستورات باعث میشه که همه رباتا از کراول کردن سایت شما منع گردند و بخش دوم این دستورات موجب می شه که ربات Google Image مطالب موجود در فولدر Image رو ایندکس گذاری کنه.
یکی دیگه از قابلیتای خاص robots.txt امکان تطبیق الگوه. با به کار گیری این امکان شما می تونین فایلا و یا مطالب رو براساس نام اونا بلاک کنین. یعنی مثلا شما دستوری بنویسین که هر فایلی که در نام اون عبارت “lft” وجود داشت بلاک شه. البته این کاربرد در موارد بسیار نادری استفاده میشن و بنده ضرورتی در آموزش اون به شما کاربران عزیز نمی بینم.
پس از اینکه شما دستورا مورد نظر خود رو در فایل robots.txt نوشتید باید اونا رو ذخیره کنین و بعد فایل رو در root دامنه خود آپلود کنین. فایل robots.txt شما باید در نشانی yourwebsite.com/robots.txt قابل رسیدن باشه.
در این بخش ما تنها میخواستیم که دید مختصری درباره ایجاد فایل robots.txt به شما بدیم اما از ارائه توضیحات بیشتر درباره ایجاد و نوشتن دستورات در فایل robots.txt در این مقاله بیخیال شدیم چون مقالات زیادی درباره ایجاد فایلای robots.txt در اینترنت هست که شما می تونین با مراجعه به اونا اطلاعات بسیار کامل و کاملی درباره ایجاد فایل robots.txt به دست بیارین. یکی دیگه از راه های یادگیری ایجاد فایل robots.txt اون هستش که شما فایل robots.txt دیگه وب سایتا رو بررسی کنین. فایل robots.txt همه وب سایتا رو می تونین با سادگی در نشانی “.com/robots.txt نام دامنه سایت مورد نظر.WWW” پیدا کنین. یادتون باشه که بعضی وب سایتا از فایل robots.txt استفاده نمی کنن و شما در صورت جستجو کردن نشانی فوق با ارور ۴۰۴ مواجه میشین.
به کار گیری فایل robots.txt یکی از عادی ترین راه ها واسه متوقف کردن موتورهای جستجوگر از ایندکس گذاری بخشی از وب سایته و شما می تونین هر وقتی که خواستین قوانینی رو که در این فایل تبیین کردین تغییر بدین فایل robots.txt جدیدی بسازین و در سایت خود آپلود کنین. علاوه بر این هروقت که بخواین می تونین با مراجعه به نشانی namedamane.com/robots.txt قوانینی رو که در سایت خود واسه موتورهای جستجوگر تبیین کردین کنترل کنین.
چیجوری محتواهای غیر عمومی رو از دسترس عمومی خارج کنیم
متوقف کردن موتورهای جستجوگر و مانع شدن ایندکس گذاری صفحات سایت به وسیله اونا همیشه بهترین راه نیس. اگه شما بخواین یه صفحه از سایت خود رو از دسترس کاربران اینترنت خارج کنین، ممکنه به روش بهتری واسه این کار نیاز داشته باشین تا به صورت کلی دسترسی به این صفحه رو محدود کنین. واسه این کار شما می تونین از پلاگینای مختلفی که واسه ایجاد این امکان ایجاد شدن استفاده کنین. این نوع پلاگینا با نام WordPress Membership Plugins شناخته می شن. مثلا یکی از پلاگینایی که می تونه واسه محدود کردن دسترسی بخشای جور واجور سایت استفاده بشه Paid Membership Proه. شما می تونین واسه محدود کردن دسترسی عموم به محتواهای خاصی که مثلا به کار گیری اونا نیاز به عضویت در سایت داره و یا باید واسه به کار گیری اونا حق عضویتی پرداخت شه، رو محدود کنین.
چیجوری صفحات ایندکس گذاری شده رو از یافته های جستجوهای موتورهای جستجوگر حذف کنیم؟
بدیش اینه بعضی موتورهای جستجوگر بعضی وقتا در اجرای نقش خود دچار مشکلاتی می شن و در بعضی از مواقع به دستور noindex که از طرف مدیر سایت واسه بعضی صفحات و محتواهای قرار داشدهه توجه نمی کنن. تو یه همچین موقعیتی بعضی از صفحات وب سایتا بر خلاف میل صاحبان اونا ایندکس گذاری می شه و تو یه همچین موقعیتی صاحبان سایت به دنبال راهی واسه حذف این صفحات از یافته های جستجوها می گردن.

مشکلات

اطلاعیه گوگل در باره این موضوع :
“حواستون باشه که موتورهای جستجوگر ما واسه اینکه بتونن متا تگ noindex صفحات شما رو ببینن باید اونا رو کراول کنن و پس احتمال اون هست که در بعضی مواقع موتورهای جستجوگر گوگل تگ noindex شما رو نبییند و یا به اون بی توجه باشن. اگه شما واسه بعضی صفحات خود تگ noindex تعیین کردین ولی صفحات مورد توجه شما بازم در یافته های جستجوها هست و حذف نشده این موضوع ممکنه بدون دلیل باشه که پس از ایجاد این تغییر هنوز موتورهای جستجوگر ما صفحات شما رو کراول ننموده ان.”
تو یه همچین موقعیتی شما نیاز به روشی واسه حذف صفحات خود از یافته های جستجوها دارین. یکی از بهترین و موثرترین راه ها واسه حذف صفحات سایت از یافته های جستجوها به کار گیری وسایل حذف URL ها از یافته های جستجوهای موتورهای جستجوگر (search engine URL removal tool) هستش. شمام اینکه می تونین در وسیله وب مستر تولز گوگل در بخش Google index آپشنی پیدا کنین که با به کار گیری اون می تونی URL های مورد توجه خود رو از یافته های جستجوها خط بزنین. واسه این کار باید اول روی گزینه “Create new removal request” کلیک کنین و بعد URL مورد توجه خود رو در این بخش وارد کنین. واسه این کار باید بخش انتهایی URL که پس از نام دامنه شما اومده رو درون کادر این صفحه بنویسین. مثلا اگه شما بخواهدی صفحه ای که در نشانی www.seorooz.net/news/big-news قرار داره رو خط بزنین باید بخش انتهایی این URL یعنی news/big-news رو در کادر درون این صفحه بنویسین.
با به کار گیری این وسیله شما می تونین یه صفحه مشخص رو از یافته های جستجوهای موتورهای جستجوگر خط بزنین و یا حتی یه دایرکتوری کامل رو از یافته های جستجوها خط بزنین. در واقع این وسیله می تونه بدین منظور استفاده بشه که یه سایت رو کلا از یافته های جستجوها حذف کنه.
حذف یه صفحه از یافته های جستجوهای بینگ هم کاری بسیار ساده س!. شما می تونین با به کار گیری وسیله Bing Webmaster Tools این کار رو انجام بدین. واسه انجام این کار کافیه که وارد بخش Bing Content Removal Tool شید و نشانی محتوای مورد نظر خود رو وارد کنین. وقتی که شما نشانی صفحه مورد نظر خود رو وارد کنین، این وسیله یه لیست از صفحاتی که قبلا اونا رو حذف کردین هم به شما نمایش میده.
بدیش اینه هیچ کدوم از این دو وسیله که نام برده شد توانایی اونو ندارن که اجازه بدن کاربران یه لیست از صفحاتی که میخوان از یافته های جستجوها حذف شن رو وارد کنن، در هر دوی این وسیله ها کاربران مجبور هستن که صفحات مورد توجه خود رو تک به تک وارد کنن.

بدیش اینه بعضی موتورهای جستجوگر در مورد نبود ایندکس گذاری صفحاتی که صاحبان وب سایتا تمایلی به ایندکس گذاری اونا ندارن، کارکرد خوبی ندارن و در بعضی مواقع مشکلاتی در این مورد واسه صاحبان وب سایتا ایجاد می شه. البته نرم افزارها، پلاگینا و وسایل زیادی وجود دارن که می تونه به شما در این مورد کمک کنن. بعضی از این وسیله ها و روشای کار با اونا رو در این مقاله معرفی شدن و ما امید واریم که این مقاله سئو روز به قدر کافی کامل بوده باشه که بتونه سوالات شما رو در این مورد جواب بده.