File robots.txt là tập tin đơn giản nhưng lại vô cùng linh hoạt. File robots.txt là công cụ đắc lực dành cho các nhà quản trị web. Tập tin này hiện đang được sử dụng rất phổ biến. Hỗ trợ việc kiểm soát truy cập của con Bots đến các khu vực trên website. Vậy File robots.txt là gì? Nguyên lý hoạt động của File robots.txt như thế nào? Sử dụng file robots.txt cần chú ý điều gì? Bài viết dưới đây của Kensfi sẽ giúp hiểu rõ tường tận mọi thắc mắc.
File robots.txt là gì?
File robots.txt thực chất là một tập tin có dạng .txt. File robots.txt là một phần của REP có chứa nhóm các tiêu chuẩn web. Quy định cách mà robot web hay các công cụ tìm kiếm tiến hành thu thập dữ liệu website. Truy cập và index các nội dung, cung cấp nội dung đến người dùng. Sự có mặt của file robots.txt giúp cho các nhà quản trị web có được sự chủ động, linh hoạt. Cho phép có hay không cho con bot của Google Index một phần nào trong trang của mình.
Cú pháp của file robots.txt là gì?
Cú pháp được biết đến như là ngôn ngữ riêng của file robots.txt. Hiện nay có đến 5 thuật ngữ phổ biến trong tập tin gồm:
- Cú pháp User-agent: Là tên của trình thu thập và truy cập dữ liệu trên website
- Cú pháp Disallow: Có chức năng thông báo đến User-agent không thu thập được dữ liệu nào trên URL. Trên thực tế, mỗi một URL chỉ được sử dụng với 1 dòng Disallow.
- Cú pháp Allow: Là lệnh thực hiện các thông báo đến Googlebot. Chỉ áp dụng đối với bộ tìm kiếm của Googlebot. Allow thông báo sẽ truy cập vào một trang hoặc một thư mục con cho dù không được phép.
- Cú pháp Crawl – delay: Cú pháp này có nhiệm vụ thông báo đến Web Crawler. Giúp họ biết rằng còn phải đợi bao lâu trước khi tải, thu thập nội dung trên trang.
- Cú pháp Sitemap: Cung cấp vị trí của Sitemap XML được liên kết với URL đó. Cú pháp này chỉ được hỗ trợ từ Google, Bing, Ask, Yahoo.
Vai trò của file robots.txt
Đánh giá về vai trò, chức năng của file robots.txt thì tập tin này rất quan trọng. Tạo file robots.txt cho trang web sẽ giúp kiểm soát tốt việc truy cập đến từ các con Bots. Lợi ích khi sử dụng file robots.txt chính là:
- File robots.txt giúp ngăn chặn được các nội dung trùng lặp xuất hiện trên trang web
- Giúp giữ lại một số phần trên website ở chế độ riêng tư
- Giúp giữ những trang kết quả tìm kiếm trong nội bộ không hiển thị ở SERP
- Hỗ trợ tốt trong việc chỉ định vị trí Sitemap
- Góp phần ngăn chặn những công cụ của Google Index ở một số tệp nhất định trên web
- File robots.txt có thể sử dụng lệnh Crawl-delay trong việc cài đặt thời gian. Ngăn máy chủ bị quá tải khi trình thu thập dữ liệu phải làm việc nhiều nội dung cùng lúc.
File robots.txt có hạn chế gì không?
Không thể phủ nhận được lợi ích của tập tin robots.txt đối với website. Tuy nhiên trong quá trình sử dụng không có gì là thực sự hoàn hảo. File robots.txt cũng tồn tại một số hạn chế cơ bản sau:
- Không phải bất cứ công cụ tìm kiếm nào cũng hỗ trợ lệnh trong file robots.txt
- Mỗi trình thu thập các dữ liệu đều phân tích cú pháp bằng những phương pháp riêng
- Google có khả năng lập chỉ mục của một trang bị file robots.txt chặn. Nếu có những trang web có liên kết đến trang đó.
Nguyên lý hoạt động của file robots.txt như thế nào?
Nắm được ưu nhược điểm chưa đủ, chúng ta cần biết được nguyên lý hoạt động của file robots.txt. Nhiệm vụ chính là file robots.txt chính là:
Cú pháp Crawl sẽ có nhiệm vụ cào, phân tích dữ liệu trên website. Khám phá các nội dung và index nội dung đó nhằm đáp ứng yêu cầu của người dùng tìm kiếm. Các công cụ đi theo những liên kết trang này sang trang khác. Thu thập các dữ liệu qua nhiều trang web khác nhau.
Sau khi dữ liệu đến một website, trước khi làm nhiệm vụ spidering. Các con Bot của Google tiến hành tìm đến các file robots.txt. Nếu tìm thấy một tệp robots.txt trước thì nó sẽ đọc tệp này đầu tiên.
Tệp robots.txt lúc này sẽ chứa những thông tin về cách mà Google thu thập dữ liệu website. Tại thời điểm này, con Bots sẽ được hướng dẫn nhiều thông tin cụ thể hơn về quá trình. Nếu file robots.txt không chứa chỉ thị nào cho User-agent. Hoặc nếu file robots.txt không được tạo cho website, các con Bots sẽ thu thập thông tin khác trên web.
Tạo file robots.txt cần đảm bảo những quy tắc nào?
Tạo file robots.txt mang đến sự linh hoạt cao. Tuy nhiên trong quá trình tạo tệp để không bị lỗi cần phải tuân thủ các quy tắc nhất định:
- Thứ nhất, các file robots.txt phải được đặt tại các thư mục cấp cao nhất trong website. Giúp cho các con Bots có thể tìm thấy được.
- Thứ hai, các tệp cần được đặt tên là robots.txt mà không phải là Robots.txt hay robots.TXT. Bởi trong tệp txt có phân biệt chữ hoa với chữ thường.
- Thứ ba, tại mục Disallow, không nên đặt /wp-content/themes/ hoặc /wp-content/plugins/. Nó sẽ làm cản trở những công cụ nhận diện chính xác về giao diện website hay blog.
- Thứ tư, một vài các User-agent thường bỏ qua file robots.txt chuẩn. Phổ biến nhất là với các User-agent bất chính với các đoạn mã độc hại và các trình Scraping.
- Thứ năm, file robots.txt thường có sẵn, được công khai ngay trên website. Chỉ cần thêm / robots.txt ở cuối Root domain và xem chỉ thị của trang đó. Bất kỳ ai cũng có thể thấy trang mà bạn muốn hay không muốn crawl. Do vậy không nên sử dụng những tệp này làm ẩn thông tin cá nhân người dùng.
- Thứ sáu, file robots.txt được sử dụng riêng ở mỗi Subdomain trên Root domain. Nghĩa là cả example.com, example.com đều có file robots.txt riêng. Đây là giải pháp tốt trong việc chỉ ra vị trí sitemaps được liên kết với domain ở cuối tệp.
Cách kiểm tra website có file robots.txt hay không
Khi đã tạo file robots.txt trên website, bạn cần kiểm tra xem trên website đã có file robots.txt chưa. Bạn thực hiện theo các bước như sau:
Nhập Root domain, thêm /robots.txt ở vị trí cuối URL. Nếu không thấy trang .txt xuất hiện thì website vẫn chưa có file robots.txt. Lúc này bạn cần kiểm tra và tạo tạo file có website của mình. Kiểm tra lại theo hướng dẫn trên là biết kết quả ngay thôi nhé.
Sử dụng file robots.txt cần chú ý điều gì?
Quá trình sử dụng file robots.txt mang đến hiệu quả cao và rất linh hoạt. Tuy vậy trong quá trình sử dụng cũng cần lưu ý một số điều sau đây:
- Thứ nhất, những liên kết trang bị chặn do robots.txt không được bots theo dõi. Trừ khi những link đó đã có sự liên kết với các trang khác. Nếu không thi tài nguyên được liên kết chắc chắn không được thu thập và lập các chỉ mục.
- Thứ hai, link juice không được truyền từ trang bị chặn đến trang đích. Do vậy hãy sử dụng phương pháp khác để thay thế cho robots.txt. Như vậy dòng sức mạnh link juice mới truyền sang các trang này.
- Thứ ba, đừng dùng file robots.txt ngăn chặn các dữ liệu nhạy cảm xuất hiện trong SERP. Bởi những web chứa thông tin này vẫn có thể liên kết đến nhiều trang khác. Các con bots cũng sẽ bỏ qua chỉ thị của tệp trên Root Domain hay trên trang chủ.
- Thứ tư, nếu muốn chặn trang web ra khỏi các kết quả tìm kiếm. Thay vì tạo file robots.txt, hãy sử dụng phương pháp khác.
- Thứ năm, các User-agent cùng công cụ đều phải tuân theo quy tắc nhất định. Bạn không cần chỉ định lệnh đến từng User-agent. Nhưng nó vẫn có thể giúp điều chỉnh cách index nội dung trên trang.
- Thứ sáu, công cụ tìm kiếm thường lưu trữ nội dung file robots.txt WordPress. Nhưng vẫn luôn cập nhật nội dung trong cache bộ nhớ ít nhất 1 lần/ ngày. Khi bạn muốn thay đổi và cập nhật tệp nhanh hơn. Bạn cần sử dụng chức năng gửi tại trình kiểm tra file robots.txt.
Kết luận
Hiểu được file robots.txt là gì? Nguyên lý hoạt động và các quy tắc tạo file robots.txt cho website. Chắc chắc quá trình kiểm soát truy cập sẽ không còn gặp bất cứ khó khăn nào. Hãy tận dụng tính năng và vai trò tệp robots.txt để sử dụng đúng mục đích của mình.