Hướng dẫn tối ưu cài đặt file Robots.txt cho blogspot/blogger

Robots.txt luôn là một phần quan trọng của website kể cả đối với blogspot, nó là một trong những điểm đến đầu tiên của bots tìm kiếm khi bước vào trang web của bạn. Đồng thời, nó đánh dấu vai trò quan trọng của mình trong việc index website lên các công cụ tìm kiếm.

Vậy trước tiên chúng ta cần đi tìm hiểu Robot.txt là gì và tại sao nó lại cần thiết và quan trọng tới vậy nhé.

Robots.txt là gì?

Robots.txt là file dạng text chứa các lệnh để chỉ dẫn cho robot của các công cụ tìm kiếm như google, bing, yahoo,... Thu thập thông tin từ website có sử dụng dạng file này. Robots.txt rất quan trọng đối với một blog/website, nó quyết định website đó có được các công cụ tìm kiếm để ý đến hay không.

Vì sao lại sử dụng Robot.txt

Một trang web, blog sinh ra rất nhiều trang đích, tuy nhiên, có khá nhiều trang đích không cần thiết phải xuất hiện trên các công cụ tìm kiếm. Chẳng hạn với blogspot, mục archive (lưu trữ) là gần như không cần thiết phải xuất hiện trên Google, vì chẳng ai tìm cả, robot.txt sẽ giúp chúng ta trong việc ẩn mục này khỏi chỉ mục tìm kiếm.

Cấu trúc robots.txt chuẩn nhất cho blogspot

Khi bạn sử dụng blogspot (blogger) để phát triển website cho riêng mình thì blogspot đã hỗ trợ sẵn robots.txt với nội dung mặc định. Tuy nhiên, nội dung mặc định đó thường chưa chuẩn với định hướng phát triển website theo phong cách blog, trang tin tức,... và theo xu hướng, thủ thuật SEO hiện tại. 
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /
Disallow: *max-results=*
Disallow: *archive.html
Disallow: *?m=0
Sitemap: https://www.truongblogger.com/feeds/posts/default?orderby=UPDATED
Sitemap: https://www.truongblogger.com/atom.xml?redirect=false&start-index=1&max-results=500
Chú thích của từng phần trong cấu trúc robot.txt này 
  • Allow: / : Tức là cho phép bots có thể index nội dung trên trang web.
  • Disallow: *max-results=* : Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
  • Disallow: *archive.html  : Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của blogspot.
  • Disallow: *?m=0 : Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được google index, vì vậy để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
  • 2 mục sitemap : Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner. Bạn cần thay 2 địa chỉ truongblogger.com thành địa chỉ trang blog của bạn là được.

Cách thêm file robot.txt vào blogspot

Blogspot có sẵn vị trí để bạn chèn robots.txt, chỉ cần thêm đoạn robots.txt chuẩn ở trên và lưu lại là xong.
Hướng dẫn tối ưu cài đặt file Robots.txt cho blogspot/blogger
Bước 1: Vào trang quản trị blogger.com

Bước 2: Vào Cài đặt (Setting), chọn phần Tuỳ chọn tìm kiếm (Search Options), chọn tiếp Chỉnh sửa ở Robots.txt tuỳ chỉnh và dán nội dung file robots.txt như ở trên vào.

Bước 3: Lưu lại

Để kiểm tra xem robot đã hoạt động hay chưa bạn sử dụng như sau: https://www.chieustar.ga/robots.txt copy đường dẫn và thay bằng địa chỉ blog của bạn.

Kết luận

Trên đây mình đã chia sẻ về robot.txt là gì và một file robot.txt chuẩn cho blogspot. Bạn có thể theo hướng dẫn và cài đặt phù hợp nhất cho blog của bạn, nếu có thắc mắc hoặc đóng góp hãy bình luận phía dưới nhé.

Subscribe box

Nhập địa chỉ Email và bấm đăng ký, bạn sẽ nhận được bài viết mới nhất từ Ngô Hùng Chiều hoàn toàn miễn phí qua Gmail!