File robots.txt đóng một vai trò quan trọng trong việc quy định cho các trình thu thập dữ liệu của các công cụ tìm kiếm về những phần của trang web mà chúng được phép hoặc không được phép thu thập dữ liệu. Hãy cùng Gofiber tìm hiểu về File robots.txt là gì và cách tạo tệp robots.txt tuân theo chuẩn SEO cho trang web của bạn, đặc biệt là trong ngữ cảnh của WordPress. Điều này sẽ giúp bạn hiểu rõ cách các con bot của Google phân tích dữ liệu trên một trang web để lập chỉ mục.
File robots.txt là gì?
File robots.txt (hay tệp robots.txt) là một tệp văn bản đặc biệt dạng txt mà các trang web sử dụng để hướng dẫn các công cụ tìm kiếm về việc thu thập thông tin từ các trang web mà chúng nên hoặc không nên thu thập thông tin để tạo chỉ mục.
Tệp này thường đặt ở góc của một trang web và kích thước tối đa của file robots.txt là 500 kilobyte (khoảng).
Ví dụ: www.example.com/robots.txt và chứa một số quy tắc về việc truy cập của các trình thu thập dữ liệu.
Tệp robots.txt dùng để làm gì?
Tệp robots.txt dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web và có ảnh hưởng đối với các loại tệp khác nhau:
Trang web: Để quản lý lưu lượng thu thập dữ liệu và tránh thu thập dữ liệu không quan trọng hoặc trang tương tự, bạn có thể sử dụng file robots.txt cho các trang web (HTML, PDF hoặc các định dạng khác). Tuy nhiên, không nên sử dụng nó để ẩn trang web khỏi kết quả tìm kiếm trên Google.
Tệp đa phương tiện: Dùng tệp robots.txt để quản lý lưu lượng thu thập dữ liệu và ngăn hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm trên Google. Tuy nhiên, tệp này không ngăn người khác liên kết đến các tệp đa phương tiện của bạn.
Tệp tài nguyên: Sử dụng tệp robots.txt để chặn các tệp tài nguyên (như hình ảnh hoặc tệp định kiểu) nếu bạn tin rằng việc này không ảnh hưởng quá nhiều đến trang web. Tuy nhiên, nếu trang web của bạn cần tài nguyên này để hiển thị đúng, bạn không nên chặn chúng.
Lưu ý rằng nếu trang web bị chặn bởi file robots.txt, URL của trang vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng nội dung mô tả sẽ bị giới hạn. Để ẩn hoàn toàn trang web khỏi kết quả tìm kiếm, bạn nên sử dụng phương thức khác như bảo vệ bằng mật khẩu hoặc lệnh noindex.
>> Xem thêm về chủ đề SEO:
Hạn chế của tệp robots.txt
Trước khi tạo hoặc chỉnh sửa tệp robots.txt, quan trọng hiểu rõ những hạn chế của phương pháp này. Tùy thuộc vào mục tiêu và tình huống, bạn nên xem xét các cơ chế khác để đảm bảo URL của bạn không xuất hiện trên web.
Không phải tất cả trình thu thập dữ liệu tuân theo tệp robots.txt
Một số công cụ tìm kiếm có thể không hỗ trợ các quy tắc trong tệp robots.txt. Hướng dẫn trong tệp robots.txt không bắt buộc trình thu thập dữ liệu phải tuân theo một cách cụ thể. Một số trình thu thập dữ liệu có thể không tuân theo tệp robots.txt, do đó, bảo mật thông tin của bạn đòi hỏi sử dụng các phương thức chặn khác như bảo mật bằng mật khẩu trên máy chủ.
Cú pháp khác nhau cho từng trình thu thập dữ liệu
Mỗi trình thu thập dữ liệu sử dụng cú pháp riêng để diễn giải tệp robots.txt. Mặc dù các trình thu thập dữ liệu uy tín thường tuân theo tệp này, bạn nên hiểu rằng mỗi trình thu thập có cách thức riêng để đọc và hiểu các quy tắc. Cân nhắc cú pháp phù hợp cho từng trình thu thập dữ liệu để đảm bảo hiệu quả.
Liên kết đến trang có tệp robots.txt chặn
Trang web có tệp robots.txt chặn vẫn có thể được lập chỉ mục nếu có trang khác liên kết đến nó. Mặc dù Google không thu thập dữ liệu hoặc lập chỉ mục nội dung bị chặn, URL vẫn có thể xuất hiện trong kết quả tìm kiếm khi có liên kết đến nó từ trang khác. Để ngăn URL của bạn xuất hiện trong kết quả tìm kiếm, hãy sử dụng các phương thức bảo mật như bảo mật bằng mật khẩu, tiêu đề phản hồi, thẻ meta noindex hoặc xóa trang hoàn toàn.
Cách hoạt động của tệp robots.txt trong công cụ tìm kiếm
Các công cụ tìm kiếm như Google có hai nhiệm vụ chính quan trọng trong việc thu thập và hiển thị thông tin trên trang web:
Crawl (cào/phân tích) dữ liệu
Đầu tiên, để khám phá và thu thập thông tin trên trang web, các công cụ tìm kiếm tiến hành quá trình crawl hoặc cào dữ liệu. Trong quá trình này, chúng tìm kiếm và theo dõi các liên kết từ một trang web đến một trang khác. Điều này giúp họ khám phá nội dung trên web. Quá trình crawl dữ liệu này còn được gọi là "Spidering."
Index (chỉ mục hóa) dữ liệu
Sau khi thu thập dữ liệu, các công cụ tìm kiếm đưa nó vào chỉ mục để sẵn sàng trả lời các yêu cầu tìm kiếm của người dùng. Đây là bước quan trọng để hiển thị kết quả tìm kiếm. Tệp robots.txt đóng một vai trò quan trọng trong quá trình này.
Tệp Robots.txt và quá trình Crawl
Trước khi tiến hành quá trình crawl, các con bot của công cụ tìm kiếm (như Google Bot) tìm kiếm tệp robots.txt trên trang web. Nếu họ tìm thấy một tệp robots.txt, họ đọc nó trước khi tiếp tục với bước tiếp theo. Tệp robots.txt chứa các chỉ thị về cách các công cụ của Google nên thu thập dữ liệu từ trang web cụ thể. Nó cung cấp hướng dẫn chi tiết cho quá trình này.
Nếu không có tệp Robots.txt
Nếu trang web không có tệp robots.txt hoặc tệp này không chứa bất kì chỉ thị nào cho User-agent, các con bot sẽ tiếp tục thu thập thông tin từ trang web bằng cách theo các liên kết và chỉ mục trang web dựa trên quy tắc tự động. Điều này có nghĩa là họ sẽ tiến hành crawl và index nội dung trang web dựa trên các quy định mặc định và thông tin có sẵn trên trang.
Tệp robots.txt là một công cụ quan trọng để kiểm soát quá trình crawl và index của các công cụ tìm kiếm trên trang web của bạn, giúp bạn quản lý việc hiển thị thông tin trên web một cách hiệu quả.
Vị trí của file robots.txt trên một trang web
Khi bạn tạo một trang web bằng WordPress, trang web sẽ tự động tạo một tệp tin robots.txt và đặt nó ngay trong thư mục gốc của máy chủ web.
Ví dụ: Nếu trang web của bạn đặt tại địa chỉ abcdef.com, bạn có thể truy cập tệp tin robots.txt bằng cách đi đến đường dẫn abcdef.com/robots.txt. Kết quả ban đầu sẽ giống như sau:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Trong đó:
User-agent: * có nghĩa là các quy tắc áp dụng cho tất cả loại bots trên trang web. Trong trường hợp này, tệp tin này cho biết cho các bots rằng họ không được phép truy cập vào thư mục wp-admin và wp-includes.
Lưu ý:
Tệp tin robots.txt là một tệp tin ảo được WordPress tự động tạo mặc định khi bạn cài đặt, và bạn không thể chỉnh sửa nó (mặc dù nó vẫn hoạt động).
Vị trí chuẩn của tệp tin robots.txt trong WordPress được đặt trong thư mục gốc, thường được gọi là public_html hoặc www (hoặc tên miền của trang web).
Để tạo một tệp tin robots.txt riêng cho trang web của bạn, bạn cần tạo một tệp tin mới và đặt nó trong thư mục gốc thay thế cho tệp tin cũ."
Kiểm tra sự tồn tại của file robots.txt trên một trang web
Để xác định xem một trang web có sử dụng file robots.txt hay không, bạn có thể thực hiện theo các bước sau:
-
Nhập Root Domain (ví dụ: abcdef.com) vào trình duyệt web của bạn.
-
Sau đó, thêm "/robots.txt" vào địa chỉ web gốc (ví dụ: abcdef.com/robots.txt).
-
Nhấn phím "Enter" để truy cập địa chỉ đã chỉ định.\
Nếu sau khi thực hiện các bước trên và bạn không thấy xuất hiện tệp tin .txt, điều này có nghĩa rằng trang web bạn đang kiểm tra hiện không sử dụng tệp tin robots.txt, đặc biệt trong trường hợp của WordPress.
Cách bổ sung quy tắc vào File robots.txt trong WordPress
Cho đến nay, bạn có thể đã hiểu cách xử lý một quy tắc một cách đơn lẻ trong tệp tin robots.txt. Tuy nhiên, trong một số trường hợp, bạn có thể muốn áp dụng các quy tắc khác nhau cho từng loại bot riêng biệt. Để làm điều này, bạn có thể thêm từng tập quy tắc vào phần khai báo User-agent cho từng bot cụ thể.
Ví dụ: Giả sử bạn muốn thiết lập một quy tắc áp dụng cho tất cả các loại bot và một quy tắc riêng biệt chỉ áp dụng cho Bingbot, bạn có thể thực hiện như sau:
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /
Trong ví dụ này:
User-agent: * áp dụng quy tắc chặn truy cập vào thư mục /wp-admin/ cho tất cả các loại bot.
User-agent: Bingbot áp dụng quy tắc chặn truy cập toàn bộ trang web cho bot Bingbot.
Nhớ rằng bạn có thể tùy chỉnh file robots.txt để điều hướng các bots khác nhau theo cách mà bạn muốn, giúp bạn kiểm soát cách trang web của bạn tương tác với các công cụ tìm kiếm và bots khác.
Hướng dẫn tạo tệp robots.txt đơn giản cho WordPress
Tạo một tệp tin robots.txt cho trang web WordPress của bạn có thể giúp bạn kiểm soát cách các công cụ tìm kiếm quản lý và index trang của bạn. Dưới đây là 3 cách tạo file robots.txt cho WordPress:
Cách 1: Sử dụng Yoast SEO
-
Bước 1: Đăng nhập vào trang web WordPress của bạn và truy cập WordPress Dashboard.
-
Bước 2: Chọn mục "SEO" và sau đó chọn "Tools".
- Bước 3: Chọn "File editor".
Tại đây, bạn sẽ thấy tùy chọn để tạo và chỉnh sửa tệp tin robots.txt.
Cách 2: Sử dụng Plugin All in One SEO
Bạn cũng có thể sử dụng plugin "All in One SEO" để tạo file robots.txt WordPress một cách nhanh chóng. Đây là một plugin đơn giản và tiện ích cho WordPress.
-
Bước 1: Truy cập giao diện chính của plugin "All in One SEO Pack".
-
Nếu bạn chưa có plugin này, bạn có thể tải nó từ trang web chính thức.
-
Bước 2: Chọn "All in One SEO" sau đó chọn "Feature Manager," và nhấp vào "Activate" cho mục "Robots.txt".
-
Bước 3: Tạo và điều chỉnh tệp tin robots.txt của WordPress.
Lưu ý: "All in One SEO" che giấu thông tin của tệp tin robots.txt thay vì cho phép bạn chỉnh sửa tệp như "Yoast SEO". Điều này có thể đòi hỏi một chút kiên nhẫn khi chỉnh sửa tệp tin robots.txt, nhưng nó cũng giúp bảo vệ trang web của bạn khỏi một số bot độc hại.
Cách 3: Tạo và Upload tệp tin robots.txt bằng FTP
Nếu bạn không muốn sử dụng plugin để tạo tệp tin robots.txt cho trang web WordPress của mình, bạn có thể tự tạo tệp tin robots.txt bằng cách thủ công và sau đó tải lên trang web thông qua FTP.
-
Bước 1: Mở Notepad hoặc Textedit để tạo mẫu tệp tin robots.txt cho WordPress.
-
Bước 2: Sử dụng một ứng dụng FTP, truy cập thư mục "public_html" của trang web của bạn và tải lên tệp tin robots.txt mới tạo.
Một số quy tắc khi tạo file robots.txt
Khi tạo tệp tin robots.txt, quan trọng để tuân theo một số quy tắc dưới đây để tránh gặp lỗi:
-
Vị trí của tệp tin robots.txt: Để cho các con bot có thể tìm thấy tệp tin robots.txt của WordPress, nó phải được đặt trong các thư mục cấp cao nhất của trang web.
-
Chú ý đến phân biệt chữ hoa và chữ thường: Tên tệp tin phải viết thường, chẳng hạn như "robots.txt" (không phải "Robots.txt" hay "robots.TXT").
-
Hạn chế Disallow /wp-content/themes/ hoặc /wp-content/plugins/: Không nên chặn các thư mục như /wp-content/themes/ hoặc /wp-content/plugins/ trong tệp tin robots.txt, vì điều này có thể ảnh hưởng đến cách các công cụ tìm kiếm hiển thị giao diện của trang web.
-
Sự bỏ qua của một số User-agent: Một số User-agent, đặc biệt là các bot độc hại như Malware robots hoặc các trình scrap thông tin liên quan đến địa chỉ email, có thể không tuân theo tệp tin robots.txt.
Một số lưu ý khi sử dụng file robots.txt
Khi sử dụng tệp tin robots.txt, cần lưu ý các điểm sau:
-
Các liên kết không được theo dõi: Các liên kết trên trang web bị chặn bởi tệp robots.txt sẽ không được các bot theo dõi, trừ khi chúng liên kết đến các trang khác. Nếu không, các tài nguyên liên kết có thể không được thu thập và lập chỉ mục.
-
Link juice không được truyền đi: Sức mạnh của liên kết sẽ không được truyền từ các trang bị chặn đến các trang đích. Vì vậy, nếu bạn muốn sức mạnh của liên kết được truyền đi qua các trang này, hãy sử dụng một phương pháp khác thay vì sử dụng tệp robots.txt của WordPress.
-
Không ẩn thông tin cá nhân: Không nên sử dụng tệp robots.txt để ẩn dữ liệu nhạy cảm như thông tin cá nhân xuất hiện trong kết quả tìm kiếm (SERP). Điều này vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác và các bot có thể bỏ qua các chỉ thị trong tệp robots.txt trên Root Domain hoặc trang chủ của bạn.
-
Sử dụng phương pháp khác khi chặn trang web khỏi kết quả tìm kiếm: Nếu bạn muốn ngăn trang web xuất hiện trong kết quả tìm kiếm, hãy sử dụng một phương pháp khác, chẳng hạn như mật khẩu bảo vệ hoặc chỉ thị meta Noindex. Việc này sẽ giúp bạn điều khiển trang web của bạn một cách tốt hơn, đặc biệt khi các công cụ tìm kiếm sử dụng nhiều User-agent khác nhau.
Kết luận
Bạn đã tìm hiểu về file robots.txt là gì, tệp robots.txt không chỉ là một phần quan trọng của việc quản lý trang web của bạn mà còn là công cụ quan trọng để tương tác với các công cụ tìm kiếm. Việc hiểu rõ và tạo một tệp robots.txt tuân theo chuẩn SEO cho trang web của bạn sẽ giúp bạn kiểm soát cách con bot của Google thu thập và lập chỉ mục dữ liệu. Điều này có thể ảnh hưởng đáng kể đến việc trang web của bạn xuất hiện trong kết quả tìm kiếm.
Hãy luôn duy trì sự cẩn thận và tuân thủ quy tắc trong việc quản lý tệp robots.txt để đảm bảo trang web của bạn được tối ưu hóa cho hiệu suất tìm kiếm tốt nhất.