Sunday, January 5, 2020

Tạo robots.txt cho blogspot chuẩn dùng làm vệ tinh

Prove IT chia sẽ cách tạo robots.txt cho blogspot để ẩn blog vệ tinh hoặc bạn có thể thiết lập file cho theo ý thích

Robots.txt là gì ?

File robots.txt của một website được tạo ra để cho phép hoặc ngăn chặn các công cụ tìm kiếm (Google, bing, ahref …) thu thập dữ liệu website. Bạn có thể thể dùng nó để chặn 1 vài trang web con hoặc toàn bộ Website.
Xem thông tin chuẩn xác hơn tại đây.
Ngoài ra, người làm seo Web thường sử dụng File robots.txt để ngăn chặn những công cụ kiểm tra backlink nhằm mục đích là dấu đi những vệ tinh xung quanh trang web kiếm tiền của họ. Phần này mình sẽ trình bài rõ ở phần bên dưới.
Về cơ bản thì một cái blogspot cũng tương tự như website nên phần robots.txt này cũng không có gì khác biệt.

Cách xem File robots.txt của Website

Để xem file robots.txt của một website, bạn chỉ cần thêm robots.txt vào sau tên miền.
Ví dụ: https://www.24h.com.vn/robots.txt
Nếu quí vị truy cập theo cấu trúc bên trên bị lỗi hoặc không thấy các dòng lệnh thì đồng nghĩa với việc website đó không có robots.txt. Vậy, câu hỏi đặt ra là trang web này có bị ảnh hưởng gì không ? Hãy cùng Prove IT tìm hiểu thêm những đề mục bên dưới nhé !

Những lệnh cơ bản

Đầu tiêu bạn cần biết 2 từ tiếng anh là Disallow = không cho phép là allow thì ngược lại.
Các bạn không nhất thiết phải hiểu tất cả các lệnh của nó. Bởi vì, chúng ta sẽ dùng một cách rất hay. Đó là dựa vào mục đích tạo file để tìm kiếm những lệnh có sẳng, sau đó chỉnh sửa tên miền rồi cài đặt vào blog là xong.
Ví dụ như: blog của tôi là vệ tinh cho website chính nên tôi cần một robots.txt ngăn chặn các công cụ check backlink. Việc đơn giản là tìm kiếm một file có sẳng rồi cài vào blogspot là được.
Mặc dù thế, chúng ta cũng nên biết vài dòng lệnh cơ bản. Mình lấy một file của 24h.com.vn để tìm hiểu nhé.
#User-agent: *
#Disallow: /

User-agent: *
Allow: /
Disallow: /ocm/
Disallow: /ad/
Disallow: /tools/
Disallow: /webservices/
Disallow: /crondaemon/
Disallow: /trienkhai/
Disallow: /124557882/
Disallow: /su-kien/
Disallow: /*recommend-video_news
Sitemap: https://www.24h.com.vn/sitemap-index.xml

Theo mình hiểu thì các lệnh phía trên có nghĩa như sau:

  1. #User-agent: * >>> Những dòng có dấu # phía trước chỉ là chú thích và không có tác dụng.
  2. User-agent: * >>> là chỉ định robots, dấu * có nghĩa là file này áp dụng cho tất cả robot.
  3. Allow: / >>> cho phép.
  4. Disallow: /tools/ >>> những dòng lệnh này ngăn cảng robot thu thập dữ liệu ở thư mục đó.
  5. Sitemap: https://www.24h.com.vn/sitemap-index.xml  >>> dòng lệnh dẫn robot truy cập nhanh đến các bài viết trên Web.

OK, chúng ta chỉ tìm hiểu sơ qua thế thôi. Mọi người không cần mất nhiều thời gian để tìm hiểu quá kĩ lưỡng. Vì chúng ta vẫn tạo được một file chuẩn và thực hiện được mục đích như thường.

Tại sao cần tạo robots.txt cho blogspot ?

Đầu tiên, mọi người cần biết được rằng: blogspot không cài đặt robot vẫn hoạt động bình thường. Bạn có thể viết bài và seo các kiểu con đà điểu.
Vậy mục đích của Prove IT là gì ? 
Ở Blog này, mình cố tình cài đặt robot để tránh những công cụ dò tìm backlink. Vì nó là website vệ tinh. Ngoài những chia sẻ về blogspot, tôi còn có ý định seo từ khóa áo thun cá sấu. Nếu bạn đang có ý định giống Prove IT thì xem phần hướng dẫn bên dưới nhé.

File robots.txt của Prove IT

Những dòng lệnh này không phải do mình sáng tạo ra nhé. Nó được lấy từ Website Seo Cộng Hưởng. Bạn xem ở đây. Trường hợp, mọi người chưa biết được thông tin về Seo Cộng Hưởng là ai ? thì lên Google tìm hiểu thêm nhé. Tóm tắt, đây là một công ty làm dịch vụ và đào tạo seo web khá uy tín.
Bạn Click vào link này: https://www.proveit2000.com/robots.txt
Mặc dù, các dòng lệnh khá dài nhưng chung qui là chặn những robot check link và chỉ mở cho robot google thu thập dữ liệu. Còn những lệnh nào có chức năng như vậy thì mọi người tìm hiểu thêm nhé.
Nếu không thể nhận ra lệnh, các bạn xem bài viết thêm 1 lần nữa. Và nên nhớ rằng: bạn cũng không nhất thiết phải hiểu lệnh mà chỉ cần biết chức năng là chặn các công cụ check backlink là được.

Hướng dẫn tạo file robots.txt cho blogspot

Bước 1: tìm một file mẫu
Mọi người cần có 1 file mẫu. Nếu blog dùng làm vệ tinh và muốn ẩn các tool check backlink thì dùng file của Prove IT. Bạn Click vào link rồi copy code nhé https://www.proveit2000.com/robots.txt
Sau khi copy về, mọi người nhớ thay đổi https://www.proveit2000.com thành Blog của các bạn.
Bước 2: Cài vào blogspot
Mọi người tự đăng nhập vào phần admin của blogger. Tiếp đến Click Cài đặt >>> Tùy chỉnh tìm kiếm >>> bật Robots.txt tùy chỉnh.
Bước 3: kiểm tra file robots.txt
Như mình đã chia sẽ ở phần đầu bài viết, các bạn dùng đường link kiểu như thế này https://www.proveit2000.com/robots.txt để xem robots.txt của bất kì một website nào. Và bây giờ, mọi người dùng nó để xem blog của chính mình nhé. Việc đơn giản là thay proveit2000.com bằng đường link của Blog bạn.
Bước 4: test file robots,txt

Công cụ test file robots.txt của Google

Phần kiểm tra này cực kì quan trọng. Bạn bắt buộc phải làm khi có bất kì chỉnh sửa file robot nào. Vì có thể các bạn vô tình ngăn chặn google thu thập dữ liệu của blog đấy. Công cụ thì có rất nhiều nhưng chúng ta sẽ sử dụng chính sản phẩm của google cho chuẩn xác nhé.
Đầu tiên, mọi người cần cài Google wemaster tool, xem thêm bài hướng dẫn cách cài webmaster tool cho blogspot
Bước 1: Bấm vào đây để đến công cụ test.
Nếu có yêu cầu đăng nhập, các bạn dùng chính cái tài khoản gmail đã cài google webmaster tool.
Bước 2: quá trình test
Quý vị bấm vào vui lòng chọn một thuộc tính rồi chọn blog nhé.
Phần này sẽ có 2 nút, ý nghĩa của chúng được chia sẽ bên dưới.

  1. Nút gửi: khi mà bạn tạo file robot trên Blog thì cần khoảng 30 phút để google cập nhật. Nếu bạn cần thời gian ngắn hơn thì sử dụng nút này. Vì chúng ta cần test ngay nên đầu tiên quí vị sẽ bấm vào nút gửi 2 lần.
  2. Nút kiểm tra: mọi người dùng nút này sẽ xác định được lỗi robot Google. (chỉ google thôi nhé). Hãy Click vào nó để kiểm tra.

Bước 3: xem kết quả và xử lý lỗi
  • Như bức ảnh bên trên, File robot của blog Prove IT hoạt động bình thường. Còn của bạn thì sao ?
  • Nếu Blog của bạn bị bất cứ vấn đề gì thì hãy tắt chức năng này trước nhé. Các bạn trở lại phần hướng dẫn cài đặt và làm ngược lại. Sau đó mọi người cố gắng tìm hiểu nguyên nhân rồi cài đặt lại cho blog.

Lời kết

Thực sự, vấn đề tạo robots.txt cho blogspot cũng không phải là bắt buộc. Blog vẫn hoạt động bình thường mà không cần đến file này. Vì thế, mọi người cũng đừng quá lăn tăn phần này.
Tuy nhiên, một khi bạn đã quyết định tạo file robot này thì vấn đề phải xác định là mục đích để làm gì nhé. Bởi vì, nó cũng ảnh hưởng khá nhiều đến việc seo blogspot nếu bạn sử dụng sai.