Robots.txt là một trong tệp tin văn phiên bản nằm trong thư mục cội của trang web và cung cấp hướng dẫn cho các công cầm tìm kiếm thu thập thông tin về các trang mà lại họ rất có thể thu thập tin tức để lập chỉ mục.

Bạn đang xem: Không có mô tả cho kết quả này do robots.txt của trang web này

Một giữa những điều đầu tiên bạn phải kiểm tra và buổi tối ưu hóa khi thao tác làm việc về SEO kỹ thuật của người tiêu dùng là tệp tin robots.txt. Sự nắm hoặc cấu hình sai vào robots.txt của chúng ta cũng có thể gây ra những vấn đề SEO quan liêu trọng hoàn toàn có thể tác động tiêu cực đến hình trạng và lượt truy vấn của bạn.

Trong bài bác đăng này, các bạn sẽ biết được tệp tin robots.txt là gì, vì sao bạn phải nó, làm thay nào để SEO tối ưu hóa nó và làm cụ nào để kiểm soát rằng những công nỗ lực tìm kiếm hoàn toàn có thể truy cập nó cơ mà không có bất kỳ vấn đề gì.

Nếu bạn đang sử dụng WordPress sinh hoạt cuối bài viết này, các bạn sẽ có thông tin cụ thể về tệp robots.txt mang định của WordPress. Cũng có tương đối nhiều bạn mắc không đúng lầm một trong những lần cài đặt website WordPress lần đầu, tôi sẽ phổ cập kèm nội dung dưới đây.

*

Robots.txt là gì?

Robots.txt là một trong những tệp tin văn phiên bản nằm trong thư mục gốc của website và cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang nhưng họ có thể thu thập thông tin để lập chỉ mục.

Nếu các bạn đã đọc bài xích trước của tớ về cách các công vắt tìm kiếm hoạt động, thì bạn sẽ biết rằng trong giai đoạn tích lũy thông tin với lập chỉ mục, những công gắng tìm kiếm nỗ lực tìm các trang tất cả sẵn công khai minh bạch trên web, nhưng chúng có thể đưa vào vào chỉ mục của chúng.

Khi truy vấn trang web, điều đầu tiên công chũm tìm kiếm có tác dụng là tra cứu kiếm và kiểm soát nội dung của tệp robots.txt. Tùy thuộc vào những quy tắc được hướng đẫn trong tệp, chúng tạo nên một danh sách những URLS có thể thu thập tài liệu và kế tiếp lập chỉ mục rõ ràng cho trang web.

Nội dung của tệp robots.txt được công khai minh bạch trên Internet. Trừ lúc được bảo vệ bằng cách khác (tôi cũng không biết bảo vệ bằng cách nào), bất kỳ ai ai cũng có thể xem ngôn từ tệp robots.txt của khách hàng vì vậy đây chưa phải là khu vực để thêm ngôn từ mà bạn không thích người không giống xem.

Điều gì sẽ xảy ra nếu bạn không có tệp robots.txt? nếu như tệp robots.txt bị thiếu, trình tích lũy thông tin của giải pháp tìm kiếm trả sử rằng toàn bộ các trang bao gồm sẵn bên trên trang web của doanh nghiệp đều ở cơ chế công khai với nó có thể được thu thập dữ liệu -> chế tạo chỉ mục của nó.

Điều gì sẽ xảy ra nếu robots.txt không được định hình tốt? Nó dựa vào vào vấn đề. Nếu những công cố gắng tìm kiếm tất yêu hiểu ngôn từ của tệp tin vì nó bị định cấu hình sai, họ vẫn truy cập vào website và vứt qua bất cứ điều gì trong robots.txt.

Điều gì sẽ xẩy ra nếu tôi vô tình chặn các công vậy tìm kiếm truy cập trang website của tôi? Đó là một trong những vấn đề lớn. Đối với người mới bắt đầu, hiện tượng tìm kiếm đã không tích lũy thông tin cùng lập chỉ mục trang từ bỏ trang web của người tiêu dùng và từ từ họ đã xóa ngẫu nhiên trang nào đã gồm trong chỉ mục của họ.

Bạn tất cả cần tệp Robots.txt không?

Có, chắc chắn rằng bạn cần phải có robots.txt ngay cả khi chúng ta không ý muốn loại trừ ngẫu nhiên trang hoặc thư mục nào của trang web khỏi mở ra trong công dụng của phép tắc tìm kiếm.

Tại sao lại sử dụng robots.txt?

Các trường hợp thực hiện robots.txt thông dụng nhất là như sau:

# 1 – Để chặn những công cụ tìm kiếm truy vấn các trang hoặc thư mục ví dụ của trang web của bạn. Ví dụ: xem robots.txt bên dưới và chú ý đến những quy tắc cấm đoán phép.

*

Ví dụ về Robots.txt

Các câu lệnh này lý giải trình thu thập thông tin của luật pháp tìm kiếm ko lập chỉ mục những thư mục cụ thể. Chú ý rằng chúng ta có thể sử dụng cam kết tự * làm ký kết tự thẻ từ bỏ do. Lấy ví dụ như trên chúng ta nhìn loại Disallow: /followerwonk/bio* thì tất cả những tệp, trang trên thư mục /followerwonk/bio phần nhiều bị chặn, ví dụ: Disallow: /followerwonk/biovietnet.html hoặc Disallow: /followerwonk/biovietnet.

# 2 – khi bạn có một website lớn, thu thập thông tin và lập chỉ mục hoàn toàn có thể là một tiến trình rất tốn tài nguyên. Trình tích lũy thông tin từ những công cố kỉnh tìm kiếm khác nhau sẽ cố gắng thu thập tài liệu và lập chỉ mục toàn thể trang web của bạn và điều này hoàn toàn có thể gây ra những vấn đề về hiệu năng nghiêm trọng.

Trong trường hòa hợp này, chúng ta có thể sử dụng robots.txt để tránh quyền truy cập vào một số trong những phần nhất quyết của website mà không quan trọng đặc biệt đối cùng với SEO hoặc sản phẩm hạng. Bằng phương pháp này, bạn không chỉ là làm giảm tải trên vật dụng chủ của khách hàng mà nó có tác dụng cho toàn thể quá trình lập chỉ mục cấp tốc hơn.

# 3 – khi bạn quyết định áp dụng URL rút gọn cho links liên kết của mình. Không y hệt như che cất nội dung hoặc bịt giấu URLS nhằm lừa người dùng hoặc qui định tìm tìm thì kia là quy trình hợp lệ để gia công cho những liên liên minh kết của doanh nghiệp dễ quản lý hơn.

Hai điều quan liêu trọng nên biết về robots.txt

Điều trước tiên là ngẫu nhiên quy tắc nào bạn thêm vào robots.txt thì sẽ là chỉ thị. Điều này tức là công thay tìm kiếm nên tuân theo cùng tuân theo các quy tắc chúng ta đã đưa vào.

Trong số đông các trường hợp pháp luật tìm kiếm phần đông mò vào công việc thu thâp -> lập chỉ mục, nhưng nếu bạn có nội dung mà bạn không thích nằm trong chỉ mục của họ thì cách rất tốt là để mật khẩu bảo vệ thư mục hoặc trang rứa thể.

Điều thứ hai là tức thì cả khi chúng ta chặn trang hoặc folder trong robots.txt, nó vẫn rất có thể xuất hiện nay trong hiệu quả tìm kiếm nếu nó có links từ những trang khác đã có được lập chỉ mục. Nói bí quyết khác, thêm trang bạn có nhu cầu chặn vào robots.txt không bảo vệ rằng nó sẽ bị xóa hoặc không xuất hiện trên web. Trước đây tôi có liên tục nhìn thấy các hiệu quả với biểu đạt “Không tất cả mô tả cho kết quả tìm tìm hoặc bị chặn”.

Ngoài mật khẩu bảo vệ trang hoặc thư mục, một cách khác là sử dụng chỉ thị của trang bằng phương pháp thêm vào vào của từng trang một thẻ meta như dưới đây thì sẽ ngăn được vấn đề lập chỉ mục:

Robots.txt vận động như núm nào?

Tệp robot có một cấu tạo rất đơn giản. Gồm một số phối kết hợp từ khóa / giá trị được xác minh trước mà chúng ta có thể sử dụng.

Phổ phát triển thành nhất là: User-agent, Disallow, Allow, Crawl-delay, Sitemap.

User-agent: chỉ định trình tích lũy dữ liệu như thế nào được chuyển vào những chỉ thị. Chúng ta có thể sử dụng một * để cho tất cả những trình tích lũy thông tin hoặc còn nếu không thích thì bạn có thể chỉ định tên của trình thu thập thông tin, xem ví dụ dưới đây.

Bạn hoàn toàn có thể xem tất cả các tên cùng giá trị bao gồm sẵn cho chỉ thị user-agent, trên đây.

User-agent: * – bao hàm tất cả trình tích lũy thông tin.User-agent: Googlebot – chỉ dành riêng cho Google bot.

Disallow: thông tư hướng dẫn những bot (được chỉ định ở trên) không tích lũy dữ liệu URL hoặc một trong những phần của trang web.

Giá trị của disallow có thể là một tệp, URL hoặc thư mục cầm cố thể. Xem ví dụ dưới đây được triển khai từ phần tử hỗ trợ chuyên môn của Google.

*

Allow: Chỉ thị cho thấy rõ những trang hoặc thư mục con nào rất có thể được tróc nã cập. Điều này chỉ vận dụng cho Googlebot.

Bạn hoàn toàn có thể sử dụng Allow để chất nhận được truy cập vào trong 1 thư mục con ví dụ trên website của bạn, tuy vậy thư mục cội là ko được phép.

Ở ví dụ tiếp sau đây tôi ngăn thư mục photo cơ mà tôi tại được cho phép lập chỉ mục vào photos/khansar.net

User-agent: *Disallow: /photosAllow: /photos/khansar.net/

Crawl-delay: Bạn rất có thể để rõ ràng một cực hiếm để buộc trình thu thập dữ liệu tích lũy thông tin của phép tắc tìm kiếm đợi một khoảng chừng thời gian ví dụ trước khi thu thập thông tin trang tiếp theo sau từ website của bạn. Giá bán trị chúng ta nhập đơn vị là mili giây.

Cần chú ý rằng Googlebot ngoài đến độ Crawl-delay này.

Bạn hoàn toàn có thể sử dụng Google tìm kiếm Console để điều hành và kiểm soát tốc độ thu thập thông tin mang lại Google (tùy chọn này ngơi nghỉ trong thiết đặt trang web) tôi chụp ảnh màn hình bên dưới đây.

*

Bạn hoàn toàn có thể sử dụng Crawl-delay trong trường hợp các bạn có trang web với hàng vạn trang với bạn không muốn quá thiết lập máy chủ của chính mình với các yêu ước liên tục.

Trong đa phần các ngôi trường hợp, bạn không nên sử dụng chỉ thị thu thập dữ liệu trễ này làm cho gì.

Sitemap: thông tư sitemap được cung ứng bởi những công cố tìm tìm chính bao gồm Google và nó được thực hiện để chỉ xác định trí của Sơ đồ trang web XML của bạn. (Nếu ý muốn xem bài xích sơ đồ dùng trang XML thì nhấp vào link bên cạnh đó nhé)

Ngay cả khi bạn không chỉ xác định trí của sơ đồ vật trang XML vào robot.txt, các công gắng tìm tìm vẫn có thể tìm thấy nó.

Một điều xem xét quan trọng cho chính mình đó là robots gồm phân biệt chữ hoa với chữ thường. Ví dụ: Disallow: /File.html thì sẽ không còn khóa được file.html

Cách tạo file robots.txt

Tạo tệp robots.txt rất đơn giản dàng. Tất cả bạn cần là một trong những trình soạn thảo văn phiên bản (tôi thường xùng notepad) và truy cập các tệp của trang web của công ty (qua FTP hoặc bảng điều khiển cai quản hosting).

Trước khi tham gia quy trình tạo tệp tin robot, điều thứ nhất cần làm là khám nghiệm xem nó đã có chưa.

Cách dễ nhất để gia công việc này là mở một hành lang cửa số trình duyệt new và truy vấn đến https://www.tênmiền.com/robots.txt

Nếu bạn thấy một thứ tương tự như như bên dưới đây, gồm nghĩa là bạn đã có tệp robots.txt và chúng ta có thể chỉnh sửa tệp lúc này thay do tạo tệp mới.

User-agent: *

Allow: /

Cách sửa đổi robots.txt

Sử dụng áp dụng khách FTP và kết nối với thư mục cội của website của bạn.

Robots.txt luôn luôn nằm vào thư mục nơi bắt đầu (www hoặc public_html, tùy thuộc vào máy chủ của bạn).

Tải tập tin về sản phẩm tính của khách hàng và mở nó bởi một trình soạn thảo văn bản.

Thực hiện các chuyển đổi cần thiết và cài đặt tệp lên sever của bạn.

Ví dụ về tệp tin robots.txt

User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml

Điều này chất nhận được tất cả các chương trình truy vấn trang web của người tiêu dùng mà ko chặn bất kỳ thư mục, url nào. Nó cũng xác xác định trí sơ thiết bị trang web để gia công cho các công ráng tìm kiếm dễ dàng tìm nó hơn.

Cách đánh giá và chứng thực hợp lệ cho robots.txt?

Mặc dù chúng ta có thể xem câu chữ robots.txt của mình bằng cách điều hướng đến robots.txt URL tuy nhiên cách tốt nhất có thể để soát sổ và chứng thực nó là thông qua tùy chọn robots.txt Tester của Google tìm kiếm Console.

Đăng nhập vào thông tin tài khoản Google search Console của bạn.

Nhấp vào robots.txt Tester, được tìm thấy trong Tùy lựa chọn Crawl.

Nhấp vào nút TEST.

Nếu gần như thứ phần lớn ổn, nút kiểm tra sẽ gửi sang màu xanh và nhãn sẽ đổi khác ALLOWED. Nếu xẩy ra sự cố, con đường kẻ tạo ra lỗi sẽ tiến hành đánh dấu.

*

Một đôi điều nữa cần biết về robots.txt Tester:

Bạn rất có thể sử dụng URL Tester (dưới cùng của công cụ) nhằm nhập URL từ bỏ trang web của chúng ta và bình chọn xem nó bao gồm bị ngăn hay không.

Bạn hoàn toàn có thể thực hiện ngẫu nhiên thay thay đổi nào đối với trình soạn thảo cùng kiểm tra các quy tắc new nhưng để các ứng dụng này được vận dụng cho robots.txt thẳng của bạn, bạn cần EDIT tệp của bản thân mình bằng trình chỉnh sửa văn bạn dạng và sở hữu tệp lên thư mục nơi bắt đầu của trang web của khách hàng (như đã lý giải ở bên trên ).

Để thông báo cho Google rằng các bạn đã thực hiện chuyển đổi robots.txt, hãy nhấp vào nút SUBMIT (từ ảnh màn hình sống trên) và nhấp vào nút SUBMIT một lần tiếp nữa từ hành lang cửa số bật lên (tùy chọn 3 như được hiển thị bên dưới).

*

Robots.txt cùng với WordPress?

Tất cả những gì bạn đọc cho đến bây giờ về robots.txt cũng áp dụng cho các trang web WordPress.

Những điều bạn nên biết về robots.txt và WordPress là như sau:

WordPress khoác định áp dụng tệp robots.txt ảo. Điều này có nghĩa là bạn cần yếu trực tiếp chỉnh sửa tập tin hoặc tìm nó vào thư mục gốc của thư mục của bạn.

Cách duy nhất nhằm xem văn bản của tệp là gõ https://www.tênmiền.com/robots.txt vào trình chăm sóc của bạn.

Các giá trị mặc định của WordPress robots.txt là:

User-agent: *Disallow: / wp-admin /Allow: /wp-admin/admin-ajax.php

Sử dụng Plugins Yoast SEO thì đều thứ dễ dãi hơi với việc sửa đổi file robots.txt bằng thao tác bạn vào SEO -> Tools -> File editor cùng chỉnh ngôn từ robots.txt tiếp đến lưu lại.

Thêm một điều nữa chú ý mà khi chúng ta cài đặt WordPress thường gặp đó là việc chúng ta lựa lựa chọn chặn tất cả các phương tiện tìm kiếm cho trang web. Điều này tôi cũng thường có tác dụng khi mới bước đầu xây dựng 1 website WordPress, nhưng sau khi hoàn thiện thì tôi sẽ lộ diện cho những công gắng tìm tìm vào.

*

Nếu chúng ta tích vào ô đó thì mọi dụng cụ tìm kiếm sẽ không vào trang web của bạn

Robots.txt thực tế rất tốt cho SEO

Kiểm tra robots.txt của bạn và đảm bảo an toàn rằng chúng ta không chặn ngẫu nhiên phần như thế nào của trang web mà bạn có nhu cầu xuất hiện trong các công núm tìm kiếm.

Không ngăn thư mục CSS hoặc JS. Google trong quy trình thu thập tin tức và lập chỉ mục có thể xem một trang web như một người tiêu dùng thực cùng nếu những trang của người tiêu dùng cần JS với CSS hoạt động đúng cách, chúng sẽ không xẩy ra chặn.

Nếu ai đang sử dụng WordPress, bạn không cần thiết phải chặn truy cập vào các thư mục wp-admin và wp-include. WordPress thực hiện các bước tuyệt vời bằng thẻ meta robots. Tuy nhiên, làm cho thì cũng ko sao.

Không nên nỗ lực chỉ định các quy tắc khác nhau cho từng bot của biện pháp tìm kiếm, nó có thể gây nhầm lẫn và khó để cập nhật. Thực hiện user-agent rất tốt là: * và hỗ trợ một cỗ quy tắc cho tất cả các chương trình.

KẾT LUẬN

Bạn không phải mất quá nhiều thời gian để thông số kỹ thuật hoặc thể nghiệm robots.txt của mình. Điều đặc trưng là phải tất cả và thử nghiệm trải qua Công nắm Quản trị website của Google để chắc hẳn rằng rằng các bạn không chặn trình thu thập thông tin của công cụ tìm kiếm truy cập vào website của bạn.

Xem thêm: Top 19 Show Là Gì Trên Facebook, Show Nghĩa Là Gì Trong Tiếng Anh

Đó là một các bước bạn cần làm một lần khi bạn lần đầu tiên tạo trang web của khách hàng hoặc như một trong những phần kỹ thuật trước tiên khi các bạn kiểm tra SEO một trang web.