Хайлтын системээр сайтуудыг индексжүүлэх ажлыг удирдах нэг хэрэгсэл бол robots.txt файл юм. Энэ нь голчлон бүх эсвэл зөвхөн зарим роботыг тодорхой хуудасны бүлгүүдийн агуулгыг татаж авахаас урьдчилан сэргийлэхэд ашиглагддаг. Энэ нь хайлтын системийн үр дүнгээс "хог" -ноос салах боломжийг олгодог бөгөөд зарим тохиолдолд нөөцийн зэрэглэлийг мэдэгдэхүйц сайжруулдаг. Өргөдлийг амжилттай хэрэгжүүлэхийн тулд зөв robots.txt файлтай байх нь чухал юм.
Шаардлагатай
текст засварлагч
Зааварчилгаа
1-р алхам
Тусгай хасах дүрмийг гаргах роботуудын жагсаалтыг гаргах эсвэл өргөтгөсөн robots.txt стандартын удирдамж, түүнчлэн стандарт бус, тодорхой удирдамж (тодорхой хайлтын системийн өргөтгөл) ашиглах болно. Сонгосон роботуудаас сайтын сервер рүү илгээсэн HTTP хүсэлтийн толгойн User-Agent талбаруудын утгыг энэ жагсаалтад оруулна уу. Роботуудын нэрийг хайлтын системийн сайтуудын лавлах хэсгүүдээс олж болно.
Алхам 2
Эхний алхам дээр эмхэтгэсэн жагсаалтад орсон робот тус бүрт хандах эрхээ хасах ёстой сайтын эх үүсвэрүүдийн URL бүлгүүдийг сонгоно уу. Бусад бүх роботуудад ижил үйлдлийг гүйцэтгэнэ (индексжүүлэх ботын хязгааргүй багц). Өөрөөр хэлбэл, индексжүүлэхийг хориглодог сайтын хэсэг, хуудасны бүлгүүд эсвэл медиа агуулгын эх сурвалжуудын холбоосыг агуулсан хэд хэдэн жагсаалт гарах ёстой. Жагсаалт бүр өөр роботтой тохирч байх ёстой. Бусад бүх роботуудад хориглосон URL-уудын жагсаалт бас байх ёстой. Сайтын логик бүтцийг сервер дээрх өгөгдлийн физик байршилтай харьцуулах, түүнчлэн хуудасны URL-уудыг дагуу бүлэглэж жагсаалт гаргах. тэдгээрийн үйл ажиллагааны шинж чанарууд. Жишээлбэл, та үгүйсгэх жагсаалтад аливаа үйлчилгээний каталогийн агуулгыг (байршлаар нь бүлэглэсэн) эсвэл бүх хэрэглэгчийн профайл хуудсыг (зориулалтаар нь бүлэглэсэн) оруулах боломжтой.
Алхам 3
Хоёрдахь алхам дээр эмхэтгэсэн жагсаалтад орсон нөөц бүрийн URL тэмдгийг сонгоно уу. Зөвхөн стандарт robots.txt удирдамж болон тодорхойгүй роботуудыг ашигладаг роботуудын хасах жагсаалтыг боловсруулахдаа хамгийн их урттай өвөрмөц URL хэсгүүдийг тодруулна уу. Үлдсэн хаягуудын хувьд та хайлтын системүүдийн тодорхойлолтын дагуу загвар үүсгэж болно.
Алхам 4
Robots.txt файл үүсгэх. Жагсаалтыг эхний шатанд нэгтгэсэн тодорхой роботын хориглох дүрмүүдтэй тохирч буй бүлгүүдийн удирдамжийг нэмж оруулаарай. Сүүлчийнх нь дараа бусад бүх роботуудад зориулсан удирдамжийн бүлгийг дагаж мөрдөх ёстой. Дүрмийн бүлгүүдийг нэг хоосон мөрөөр тусгаарла. Дүрмийн багц бүр нь роботыг таних User-agent удирдамжаас эхэлж, дараа нь URL бүлгүүдийг индексжүүлэхийг хориглосон Disallow удирдамжаас эхлэх ёстой. Гурав дахь шатанд олж авсан мөрүүдийг Зөвшөөрөхгүй байх удирдамжийн утгуудтай хамт хий. Чиглэл, тэдгээрийн утгыг хоёр цэгээр заана уу. Дараах жишээг авч үзье: User-agent: YandexDisallow: / temp / data / images / User-agent: * Зөвшөөрөхгүй: / temp / data / Энэ зааврын багц нь гол роботыг зааж өгдөг. Yandex хайлтын систем нь дэд индекс / temp / data / images / агуулсан URL-г индексжүүлэхгүй байх. Энэ нь бусад бүх роботыг / temp / data / агуулсан URL-уудыг индексжүүлэхээс сэргийлдэг.
Алхам 5
Robots.txt-ийг өргөтгөсөн стандарт удирдамж эсвэл хайлтын системийн тодорхой удирдамжаар нэмээрэй. Ийм удирдамжийн жишээ нь: Хост, Сайтын зураг, Хүсэлтийн хувь, зочлох цаг, мөлхөж хойшлуулах.