Bạn đã bao giờ nghe đến “robots.txt” nhưng chưa thực sự hiểu rõ về nó? Bạn muốn website của mình thân thiện hơn với các công cụ tìm kiếm như Google? Nếu câu trả lời là “Có”, thì bài viết này chính xác là dành cho bạn! Hãy cùng InterData khám phá tất tần tật về robots.txt là gì từ cách thức hoạt động đến các hướng dẫn tạo file robots.txt trên website. Tìm hiểu ngay!
Robots.txt là gì?
Robots.txt là một file text (.txt) đơn giản nhưng mang trọng trách quan trọng, nó nằm ngay tại thư mục gốc của website. File Robots.txt có nhiệm vụ như là “người gác cổng” hay “bản hướng dẫn” dành riêng cho các con bọ tìm kiếm (còn gọi là web crawlers hay robots) của các công cụ tìm kiếm như Googlebot của Google, Bingbot của Bing.

Các con bọ tìm kiếm trên sẽ tuân thủ các quy tắc của tệp robots.txt để thu thập dữ liệu phù hợp.
Chúng ta thường hay nhầm lẫn giữa sitemap và robots.txt, tuy nhiên, đây là 2 loại tệp hoàn toàn khác nhau. Sitemap sẽ giúp các con bọ dễ dàng thu thập dữ liệu trên trang web hơn. Còn robots.txt sẽ đưa ra các quy tắc để giới hạn quyền thu thập dữ liệu của chúng.
Mục đích chính của file Robots.txt
Mục đích chính của file robots.txt là kiểm soát hoạt động thu thập dữ liệu của các con bọ tìm kiếm, không cho chúng thu thập dữ liệu ở các thư mục hoặc các liên kết chỉ định. Cụ thể, file robots.txt có các mục đích chính sau:
- Ngăn chặn thu thập dữ liệu: Cho phép bạn chỉ định những phần nào của website mà bạn không muốn các công cụ tìm kiếm thu thập thông tin. Ví dụ: các trang đang trong quá trình phát triển, trang đăng nhập quản trị, hoặc các thư mục chứa thông tin nội bộ.
- Tối ưu hóa “Crawl Budget” (Ngân sách thu thập dữ liệu): Mỗi website có một “ngân sách thu thập dữ liệu” nhất định từ các công cụ tìm kiếm. Bằng cách chặn các trang không quan trọng, bạn giúp bot tập trung thu thập dữ liệu các trang quan trọng hơn, cải thiện hiệu quả SEO.
- Tránh trùng lặp nội dung: Ngăn chặn các phiên bản trùng lặp của trang web (ví dụ: phiên bản in, phiên bản dành cho thiết bị di động) bị thu thập và lập chỉ mục.
- Chỉ định vị trí Sitemap: Giúp các công cụ tìm kiếm dễ dàng tìm thấy sitemap XML của website, từ đó thu thập dữ liệu và lập chỉ mục trang web của bạn đầy đủ và nhanh chóng hơn.
Robots.txt vận hành như thế nào?
Robots.txt hoạt động như thế nào? Các công cụ tìm kiếm đảm nhận hai nhiệm vụ chính:
- Crawl (thu thập/phân tích) dữ liệu trên website nhằm khám phá nội dung.
- Lập chỉ mục nội dung để phục vụ các yêu cầu tìm kiếm từ phía người dùng.
Để thu thập dữ liệu từ website, các công cụ sẽ lần theo các liên kết từ trang này sang trang khác. Cuối cùng, dữ liệu được thu thập từ hàng tỷ trang web khác nhau.
Quá trình thu thập dữ liệu này còn được gọi bằng một tên khác là “Spidering”. Khi tiếp cận một trang web, trước khi tiến hành spidering, các bot của Google sẽ tìm kiếm file robots.txt trong WordPress. Nếu phát hiện file robots.txt, chúng sẽ đọc tệp này trước khi thực hiện các bước tiếp theo.
File robots.txt bao gồm thông tin hướng dẫn cách Google thu thập dữ liệu từ website. Tại đây, các bot sẽ nhận được thêm các chỉ dẫn chi tiết phục vụ quá trình thu thập dữ liệu.
Nếu file robots.txt không có chỉ thị nào dành cho User-agent hoặc bạn không tạo file này cho website, các bot sẽ tự động thu thập những thông tin khác trên trang web.
Công dụng của robots.txt là gì trong SEO
Robots.txt có ảnh hưởng đến seo không? Robots.txt tuy chỉ là một file text đơn thuần, nhưng lại có công dụng đặc biệt trong SEO. Dưới đây là một số công dụng tuyệt vời mà robots.txt mang lại cho website của bạn.
Chặn bot tìm kiếm khi website đang xây dựng
Khi website của bạn còn đang trong giai đoạn “thai nghén”, chưa hoàn thiện, bạn chắc chắn không muốn các công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục, để lộ những thông tin chưa hoàn chỉnh. Lúc này, robots.txt sẽ là “vệ sĩ” đắc lực, giúp bạn tạm thời “đóng cửa” website với các con bọ tìm kiếm.
Khai báo Sitemap với bot tìm kiếm
Sitemap giống như một “bản đồ” chi tiết của website, giúp các công cụ tìm kiếm dễ dàng khám phá và lập chỉ mục toàn bộ các trang. Bằng cách khai báo sitemap trong file robots.txt, bạn đã “dẫn đường chỉ lối” cho các con bọ, giúp chúng thu thập dữ liệu website của bạn một cách nhanh chóng và hiệu quả hơn bao giờ hết.

Ngăn chặn bot quét backlink (ít hiệu quả)
Một số người dùng lợi dụng robots.txt để ngăn chặn bot tìm kiếm truy cập các backlink. Tuy nhiên, các chuyên gia SEO đánh giá cách làm này là ít hiệu quả và khuyên chúng ta không nên làm.
Chặn các thư mục cần bảo mật
Nếu website của bạn có những thư mục chứa thông tin nhạy cảm, cần được bảo mật như trang quản trị, trang thanh toán, trang chứa dữ liệu khách hàng,… thì robots.txt chính là “ổ khóa” an toàn, giúp bạn ngăn chặn các con bọ tìm kiếm “tò mò” ghé thăm.
Chặn các mã độc hại
Robots.txt có thể giúp bạn chặn các con bọ độc hại, ngăn chúng quét và thu thập thông tin từ website của bạn, hạn chế nguy cơ bị tấn công và đánh cắp dữ liệu. Tuy nhiên, cần lưu ý rằng robots.txt không phải là một giải pháp bảo mật toàn diện, bạn nên kết hợp với các biện pháp bảo mật khác để bảo vệ website tốt hơn.
Chặn bọ đối với các trang thương mại điện tử
Đối với các trang thương mại điện tử, robots.txt có thể được sử dụng để chặn các con bọ thu thập dữ liệu từ các trang như giỏ hàng, trang thanh toán, trang tài khoản cá nhân,… Việc này giúp tối ưu hóa “crawl budget”, để các công cụ tìm kiếm tập trung thu thập dữ liệu các trang sản phẩm, danh mục sản phẩm, từ đó cải thiện thứ hạng SEO.
File robots.txt được đặt ở vị trí nào trên một website?
Khi bạn xây dựng website WordPress, hệ thống sẽ tự động tạo file robots.txt và đặt nó ở thư mục gốc của server.
Chẳng hạn, nếu website của bạn nằm trong thư mục gốc tại địa chỉ interdata.vn, bạn có thể truy cập file robots.txt thông qua đường dẫn interdata.vn/robots.txt, với nội dung ban đầu như sau:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
Như đã đề cập, dấu * sau User-agent: biểu thị rằng quy tắc áp dụng cho tất cả các loại bot trên toàn bộ website. Trong tình huống này, file robots.txt sẽ chỉ dẫn các bot không được truy cập vào các thư mục wp-admin và wp-includes. Điều này rất hợp lý, bởi hai thư mục trên lưu trữ nhiều tệp thông tin nhạy cảm.

Lưu ý rằng đây là một file ảo, được WordPress thiết lập tự động trong quá trình cài đặt và không thể chỉnh sửa (dù nó vẫn hoạt động bình thường). Thông thường, file robots.txt chuẩn của WordPress được lưu trong thư mục gốc, thường được gọi là public_html, www, hoặc tên website.
Để thiết lập một file robots.txt riêng, bạn cần tạo một file mới và thay thế file cũ trong thư mục gốc.
Các ví dụ về file Robots.txt thường gặp
Dưới đây là một số ví dụ về file robots.txt phổ biến mà bạn có thể tham khảo:
Cho phép tất cả các bot truy cập toàn bộ website:
User-agent: * Allow: /
Chặn tất cả các bot truy cập toàn bộ website:
User-agent: * Disallow: /
Chặn bot truy cập vào thư mục /admin/ và file /private.html:
User-agent: * Disallow: /admin/ Disallow: /private.html
Chỉ cho phép Googlebot truy cập vào thư mục /public/, còn lại chặn tất cả:
User-agent: Googlebot Allow: /public/ User-agent: * Disallow: /
Khai báo sitemap:
User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml Sitemap: https://www.example.com/sitemap_index.xml
Những hạn chế của robots.txt nên chú ý
Mặc dù robots.txt là một công cụ hữu ích, nhưng nó cũng có một số hạn chế nhất định mà bạn cần lưu ý:
Một vài trình duyệt tìm kiếm không hỗ trợ các lệnh trong tệp robots.txt
Không phải trình duyệt tìm kiếm nào cũng “nghe lời” robots.txt. Một số trình duyệt tìm kiếm, đặc biệt là các trình duyệt nhỏ hoặc các bot độc hại, có thể phớt lờ các chỉ thị trong file robots.txt và vẫn thu thập dữ liệu website của bạn như bình thường.
Các trình dữ liệu có cú pháp phân tích dữ liệu riêng
Mỗi trình thu thập dữ liệu (crawler) có thể diễn giải các lệnh trong robots.txt theo cách riêng của chúng, không hoàn toàn giống nhau. Điều này có thể dẫn đến việc một số bot hiểu sai chỉ thị của bạn, dẫn đến thu thập dữ liệu không như ý muốn.

Bị tệp robots.txt chặn nhưng vẫn có thể index Google
Điều này nghe có vẻ vô lý, nhưng lại hoàn toàn có thể xảy ra. Dù bạn đã chặn một trang bằng robots.txt, Google vẫn có thể lập chỉ mục trang đó nếu nó được liên kết đến từ các trang web khác.
Trong trường hợp robots.txt chặn, Google sẽ không thu thập dữ liệu trang đó, nhưng vẫn có thể hiển thị nó trong kết quả tìm kiếm với tiêu đề và mô tả trống. Để ngăn chặn việc này, bạn nên sử dụng thẻ meta robots “noindex”.
Các lệnh được hỗ trợ bởi Googlebot trong robots.txt
Googlebot, “chiến binh” thu thập dữ liệu của Google, hỗ trợ một số lệnh (hay còn gọi là chỉ thị) trong file robots.txt. Hiểu rõ các lệnh này sẽ giúp bạn “giao tiếp” hiệu quả với Googlebot, tối ưu hóa SEO cho website.
Lệnh User-agent
Lệnh User-agent dùng để chỉ định bot nào sẽ tuân theo các quy tắc được đặt ra. Mỗi bot của các công cụ tìm kiếm khác nhau sẽ có một tên user-agent riêng.
Ví dụ:
- User-agent: * : Áp dụng cho tất cả các bot.
- User-agent: Googlebot: Áp dụng cho Googlebot.
- User-agent: Googlebot-Image: Áp dụng cho Googlebot thu thập hình ảnh.
- User-agent: Bingbot: Áp dụng cho bot của Bing.
Lệnh Disallow
Lệnh Disallow là “biển cấm”, dùng để ngăn chặn bot truy cập vào các thư mục hoặc trang cụ thể trên website của bạn.
Ví dụ:
- Disallow: /admin/: Chặn bot truy cập vào thư mục /admin/.
- Disallow: /private.html: Chặn bot truy cập vào file /private.html.
- Disallow: /*.pdf$: Chặn bot truy cập vào tất cả các file có đuôi .pdf.
Lệnh Allow
Lệnh Allow là “đèn xanh”, cho phép bot truy cập vào các thư mục hoặc trang cụ thể, ngay cả khi chúng nằm trong thư mục đã bị chặn bởi lệnh Disallow. Lệnh Allow thường được dùng để ghi đè (override) lệnh Disallow.
Ví dụ:
- Disallow: /admin/
- * `Allow: /admin/public/`: Chặn tất cả các thư mục, file trong /admin/ ngoại trừ thư mục /admin/public/.
Lệnh Sitemap
Lệnh Sitemap dùng để khai báo vị trí của sitemap XML trên website của bạn. Sitemap giống như một bản đồ chi tiết, giúp các công cụ tìm kiếm dễ dàng khám phá và lập chỉ mục tất cả các trang trên website.
Ví dụ:
- Sitemap: https://www.example.com/sitemap.xml
- Sitemap: https://www.example.com/sitemap_index.xml
Cách kiểm tra website có file robots.txt hay không
Để kiểm tra xem website của bạn có tệp robots.txt hay không, bạn chỉ cần nhập tên miền gốc (Root Domain) của website, sau đó thêm “/robots.txt” vào cuối địa chỉ URL. Nếu trình duyệt không hiển thị nội dung của tệp .txt, điều đó có nghĩa là website của bạn chưa được thiết lập tệp robots.txt. Thao tác này rất đơn giản!
Ví dụ, để kiểm tra xem website interdata.vn có tệp robots.txt hay không, bạn cũng thực hiện tương tự:
Bước 1: Nhập tên miền gốc (ví dụ: interdata.vn).
Bước 2: Thêm “/robots.txt” vào cuối (interdata.vn//robots.txt]).
Bước 3: Nhấn Enter.
Kết quả hiển thị sẽ cho bạn biết website đó có tệp robots.txt hay không.

Hướng dẫn tạo file robots.txt đơn giản
Tạo file robots.txt không hề khó như bạn nghĩ. Việc tạo file robots.txt WordPress mang lại cho quản trị viên sự linh hoạt và chủ động trong việc quyết định cho phép hoặc ngăn cản các bot của Google index những phần cụ thể trên website.
Nếu kiểm tra và phát hiện website của bạn không có file robots.txt, hãy tham khảo 3 cách tạo robots.txt cho WordPress dưới đây.
Cách 1: Sử dụng Yoast SEO
Bước 1: Truy cập vào website của bạn trên WordPress, sau khi đăng nhập, giao diện WordPress Dashboard sẽ hiện ra.
Bước 2: Đi tới mục SEO, sau đó chọn Tools.

Bước 3: Nhấp vào File editor.

Lúc này, bạn sẽ nhìn thấy mục robots.txt và file .htaccess, đây là nơi bạn có thể tạo file robots.txt.

Cách 2: Qua bộ Plugin All in One SEO
Plugin All in One SEO là một công cụ tiện ích đơn giản và dễ dùng, cho phép bạn tạo file robots.txt WordPress một cách nhanh chóng. Dưới đây là các bước để tạo file robots.txt WordPress bằng plugin này:
Bước 1: Mở giao diện chính của plugin All in One SEO Pack. Nếu chưa cài đặt plugin, bạn có thể tải về tại đây.
Bước 2: Vào mục All in One SEO, chọn Feature Manager, sau đó nhấp vào Activate tại mục Robots.txt.

Bước 3: Tạo và chỉnh sửa file robots.txt WordPress.

Lưu ý: Khác với Yoast SEO, plugin All in One SEO làm hạn chế quyền chỉnh sửa trực tiếp file robots.txt. Điều này có thể gây bất tiện, nhưng lại giúp giảm thiểu rủi ro từ các Malware bots làm tổn hại đến website.
Cách 3: Tạo rồi upload file robots.txt qua FTP
Nếu không muốn dùng plugin, bạn có thể tự tay tạo file robots.txt cho WordPress của mình. Để tạo file robots.txt thủ công bằng cách upload qua FTP, hãy làm theo các bước dưới đây:
Bước 1: Sử dụng Notepad hoặc Textedit để soạn thảo file robots.txt mẫu.
Bước 2: Truy cập FTP, điều hướng đến thư mục public_html, chọn file robots.txt và nhấn Upload.
Robots.txt là một file tuy đơn giản nhưng lại đóng vai trò quan trọng trong việc kiểm soát cách các công cụ tìm kiếm thu thập dữ liệu website của bạn. Hy vọng qua bài viết này, bạn đã hiểu rõ robots.txt là gì, cách thức hoạt động, công dụng, cách tạo file robots.txt trên trang web của mình.
Hãy áp dụng những kiến thức này để tối ưu hóa SEO cho website, giúp website của bạn thân thiện hơn với các công cụ tìm kiếm và đạt thứ hạng cao hơn trên bảng xếp hạng kết quả tìm kiếm (SERP). Đừng quên thường xuyên kiểm tra và cập nhật file robots.txt để đảm bảo website của bạn luôn được thu thập dữ liệu một cách hiệu quả nhất.
InterData cung cấp nhiều dịch vụ lưu trữ và máy chủ, đáp ứng nhu cầu đa dạng của khách hàng. Các dịch vụ nổi bật gồm thuê Hosting Việt Nam giá tốt, sử dụng ổ SSD NVMe và đường truyền 1Gbps, phù hợp cho doanh nghiệp nhỏ và cá nhân với chi phí tối ưu. VPS giá rẻ uy tín, phần cứng mạnh mẽ, linh hoạt tùy chỉnh, phù hợp cho website nhiều truy cập hoặc ứng dụng phức tạp.
Dịch vụ Cloud Server tại InterData dễ nâng cấp tài nguyên, sử dụng công nghệ tiên tiến, đảm bảo an toàn và ổn định. Dịch vụ máy chủ riêng mạnh mẽ, IP độc lập, hỗ trợ 24/7, đảm bảo hiệu suất và an toàn dữ liệu cho doanh nghiệp.
Nếu bạn cần hỗ trợ hoặc cần tư vấn về dịch vụ, hãy liên hệ với InterData tại:
INTERDATA
- Website: Interdata.vn
- Hotline 24/24: 1900-636822
- Email: [email protected]
- VPĐD: 240 Nguyễn Đình Chính, P.11. Q. Phú Nhuận, TP. Hồ Chí Minh
- VPGD: Số 211 Đường số 5, KĐT Lakeview City, P. An Phú, TP. Thủ Đức, TP. Hồ Chí Minh