Bootstrap

Vũ Thành Lâm

Content - Code - SEO - MMO
17/10/1979
Tây Mỗ - Nam Từ Liêm - Hà Nội
thanhlam19792003

Lamvt – Vũ Thành Lâm – bắt đầu Code 2005 Freelancer từ 2006 với hàng ngàn dự án lớn nhỏ cho nước ngoài và hàng trăm dự án web cho Việt Nam.

SEO thành công rất nhiều dự án lớn, độ khó cao.
MOD (Moderator) và Admin (Administraror) của nhiều diễn đàn về SEO và CODE web MMO tại Việt Nam
Dạy Lập trình Thiết kế Web và SEO Miễn phí 15++ Năm (Từ 2006 đến Nay)

5 cách để tránh các vấn đề về lập chỉ mục và nội dung trùng lặp

5/5 - (1 bình chọn)

Trước khi một trang web có thể được xếp hạng tốt, nó cần phải được thu thập thông tin và lập chỉ mục. Cộng tác viên Manish Dudharejia chia sẻ năm mẹo cung cấp cho các trang của bạn cơ hội tốt nhất để được lập chỉ mục trong kết quả tìm kiếm.

Đọc ngay những cập nhật mới nhất của Google trong năm nay: Google Cập nhật 2018 Nguyên tắc Xếp hạng Chất lượng Tìm kiếm

Hơn bất kỳ loại trang web nào khác, các trang web thương mại điện tử nổi tiếng với việc phát triển các cấu trúc URL tạo ra các vấn đề về lập chỉ mục và thu thập thông tin với các công cụ tìm kiếm. Điều quan trọng là bạn cần giữ quyền kiểm soát này để tránh nội dung trùng lặp và ngân hàng dữ liệu được thu thập.

Dưới đây là 5 cách để tối ưu hóa chỉ mục trang web thương mại điện tử của bạn.

  1. Biết những trang nào được Google lập chỉ mục

Để bắt đầu, điều quan trọng là thường xuyên kiểm tra xem có bao nhiêu trang của bạn mà Google báo cáo là đã lập chỉ mục. Bạn có thể thực hiện việc này bằng cách chạy tìm kiếm “site: example.com” trên Google để xem có bao nhiêu trang mà Google biết trên web.

Trong khi nhà phân tích xu hướng webmaster của Google là Gary Illyes nói rằng con số này chỉ là một ước tính, thì đây vẫn là cách dễ nhất để xác định xem có vấn đề gì xảy ra với việc lập chỉ mục trang web của bạn hay không.

Liên quan đến số trang trong chỉ mục của họ, Stefan Weitz của Bing cũng đã thừa nhận rằng mối quan hệ giữa hệ thống quản lý nội dung (Content Management System – CMS) và nền tảng thương mại điện tử, sơ đồ trang web và tệp máy chủ của bạn phải khớp gần như hoàn hảo hoặc ít nhất nếu có bất kỳ sự khác biệt nào thì cũng cần được được giải quyết và giải thích. Những con số này, lần lượt, nên gần đúng với những gì trả về trong một tìm kiếm trang web của Google. SEO thông minh trên trang web giúp ích cho bạn; một trang web được phát triển với kế hoạch SEO rõ ràng giúp tránh nội dung trùng lặp và các vấn đề về cấu trúc có thể tạo ra các vấn đề lập chỉ mục.

Nếu khi tìm kiếm trên Google với câu lệnh trên kết quả trả về quá ít làm bạn lo lắng thì thực tế nếu kết quả trả về quá nhiều cũng sẽ khiến bạn đau đầu. Vì điều này có nghĩa là bạn đã có nội dung trùng lặp trong kết quả tìm kiếm. Mặc dù Ilyes đã xác nhận rằng không có “hình phạt cho nội dung trùng lặp”, nhưng nội dung trùng lặp vẫn làm tổn hại đến ngân hàng thu thập thông tin của bạn và cũng có thể làm giảm quyền hạn về vấn đề bản quyền của bạn đối với các trang bản sao.

Nếu Google trả về quá ít kết quả:

  • Xác định các trang từ sitemap của bạn đang không hiển thị trong Google Analytics khi tìm kiếm tự nhiên. (Sử dụng phạm vi ngày dài.)
  • Tìm kiếm một mẫu đại diện của các trang này trong Google để xác định những trang nào thực sự bị thiếu trong chỉ mục. (Bạn không cần phải làm điều này cho mỗi trang.)
  • Xác định các mẫu trong các trang không lập chỉ mục và xử lý những trang có vấn đề của bạn để tăng khả năng các trang đó được lập chỉ mục. Các mẫu tìm kiếm bao gồm các vấn đề về nội dung trùng lặp, thiếu liên kết nội bộ, không có sơ đồ trang web XML, ngăn chặn không chủ định và HTML có lỗi xác thực nghiêm trọng.

Nếu Google trả về quá nhiều kết quả:

  • Chạy thu thập dữ liệu trang web bằng ScreamingFrog, DeepCrawl, SiteBulb hoặc một công cụ tương tự và xác định các trang có tiêu đề trùng lặp, vì chúng thường có nội dung trùng lặp.
  • Xác định các bản sao và loại bỏ chúng. Có nhiều nguyên nhân và giải pháp khác nhau, chúng ta sẽ đi sâu vào chúng ở phần còn lại của bài viết này.

SEO Google sẽ trở nên dễ dàng hơn khi bạn đọc bài viết GOOGLE MEDIC là gì? Hướng dẫn đầy đủ về Cập nhật Thuật toán ngày 1 tháng 8  cho biết về những cập nhật mới nhất của ông lớn này.

  1. Tối ưu hóa sơ đồ trang web, robots.txt và liên kết điều hướng

Ba yếu tố này là nền tảng cho việc lập chỉ mục và đã được đề cập trong các bài viết sau: Quy trình thiết kế một trang Web chuẩn SEO

Bạn có thể tham khảo chi tiết tại các bài viết trên.

5 cách để tránh các vấn đề về lập chỉ mục và nội dung trùng lặp 5-cach-de-tranh-cac-van-de-ve-lap-chi-muc-va-noi-dung-trung-lap

Không thể mô tả hết được tầm quan trọng của một sơ đồ trang web toàn diện. Nhưng tôi cần nói rằng nó thậm chí còn quan trọng hơn rất nhiều so với liên kết nội bộ. Gary Ilyes gần đây đã xác nhận rằng ngay cả những từ khóa ngắn cũng cho kết quả bất ngờ, nhiều trang đơn độc không có liên kết. Kể cả liên kết đến và đi. Cách duy nhất mà Google có thể biết về các trang này là thông qua sơ đồ trang web.

Điều quan trọng cần lưu ý là nguyên tắc của Google và Bing vẫn cho biết các trang có thể truy cập được từ ít nhất một liên kết. Dù sơ đồ trang web rất quan trọng nhưng không có nghĩa là loại bỏ tầm quan trọng của các liên kết trên trang.

Điều quan trọng không kém là đảm bảo tệp robots.txt của bạn hoạt động, nó không được chặn Google từ bất kỳ phần nào trên trang web của bạn mà bạn muốn được lập chỉ mục. Và nó sẽ thống báo về vị trí của (các) sơ đồ trang web của bạn. Tệp robots.txt có chức năng rất quan trọng vì nếu chúng bị hỏng, điều này có thể khiến Google ngừng lập chỉ mục trang web của bạn hoàn toàn, thông tin từ Ilyes.

Cuối cùng, một cấu trúc liên kết điều hướng trực quan và logic là một điều cần thiết cho việc lập chỉ mục tốt. Thực tế là mọi trang bạn hy vọng sẽ được lập chỉ mục phải có thể truy cập từ ít nhất một liên kết trên trang web của bạn, các thực hành UX tốt là điều cần thiết. Phân loại là trung tâm của điều này.

Ví dụ, nghiên cứu của George Miller về Cách tổ chức thiết kế tương tác (Interaction Design Foundation) cho thấy não bộ con người chỉ có thể nắm giữ khoảng bảy khối thông tin trong bộ nhớ ngắn hạn tại một thời điểm.

Tôi khuyên bạn nên để cấu trúc điều hướng của mình được thiết kế xung quanh giới hạn này và trên thực tế, thậm chí có thể giới hạn menu của bạn không quá năm danh mục để giúp mọi người dễ sử dụng hơn nữa. Năm danh mục cho mỗi phần menu và năm danh mục con cho mỗi menu thả xuống có thể dễ dàng điều hướng hơn.

Dưới đây là một số điểm quan trọng mà đại diện của Google đã thực hiện về việc điều hướng và lập chỉ mục:

  • Các tab và tab ẩn chứa các yếu tố điều hướng sẽ được bao gồm nếu chúng tốt nhất cho trải nghiệm người dùng. Trong giao diện di động đầu tiên, việc ẩn các phần tử theo cách này không làm tổn hại đến chỉ mục.
  • Sử dụng điều hướng đường dẫn, chúng có trong phép tính toán PageRank.
  • Nhà phân tích xu hướng Google Webmaster – John Mueller đã nói rằng bất kỳ kiểu menu tiêu chuẩn nào như menu hoặc trình đơn thả xuống đều là tốt, nhưng cấu trúc URL nghèo nàn tạo ra quá nhiều URL cho một trang là một vấn đề.
  • Gary Illyes cũng đã nói rằng bạn nên tránh sử dụng thuộc tính nofollow trên nội dung của riêng bạn hoặc các liên kết nội bộ.
  • Nhân viên Google đã tuyên bố nhiều lần rằng văn bản liên kết nội bộ là một yếu tố, vì vậy hãy đảm bảo các liên kết điều hướng của bạn mang tính mô tả và hữu ích và tránh nhồi nhét từ khóa.
  • Tránh không gian vô hạn hoặc bẫy nhện. Chúng thường được tạo khi các chức năng trang web tương tác được thực hiện bằng cách sử dụng các liên kết.
  • Chạy trình thu thập thông tin trên trang web của bạn để xác định liệu bạn có thu thập dữ liệu nhiều trang hơn bạn mong đợi không, vì điều này có thể giúp bạn xác định các liên kết điều hướng tạo bản sao, không gian vô hạn và các vấn đề khác.
  • Giữ các URL của bạn càng gần gốc càng tốt từ góc độ trải nghiệm người dùng (UX). Gary Illyes đã nói rằng các trang xa hơn từ gốc sẽ được thu thập dữ liệu và phát hiện ít thường xuyên hơn.
  • Đảm bảo điều hướng trang web hoàn chỉnh của bạn có thể truy cập được từ thiết bị di động vì lập chỉ mục đầu tiên trên thiết bị di động có nghĩa rằng đây là phiên bản mà Google đang sử dụng để lập chỉ mục trang web của bạn.

Bing đề xuất những điều sau:

  • URL giàu từ khóa tránh biến phiên và docID.
  • Cấu trúc trang web có chức năng cao khuyến khích liên kết nội bộ.
  • Phân cấp nội dung có tổ chức.

Đọc bài viết 101 Điều cần chú ý trong xây dựng liên kết (links) SEO 2017 để biết thêm về cách xây dựng các liên kết điều hướng trên trang.

  1. Xử lý thông số URL

Tham số URL là nguyên nhân rất phổ biến của “khoảng trắng vô hạn” và nội dung trùng lặp, làm hạn chế nghiêm trọng ngân sách thu thập dữ liệu và có thể làm loãng tín hiệu. Chúng là các biến được thêm vào cấu trúc URL để hướng dẫn máy chủ được thực hiện những việc như:

  • Sắp xếp các mục.
  • Lưu trữ thông tin phiên người dùng.
  • Lọc các mục.
  • Tùy chỉnh giao diện trang.
  • Trả về kết quả tìm kiếm tại chỗ.
  • Theo dõi chiến dịch quảng cáo hoặc thông tin tín hiệu cho Google Analytics.

Nếu bạn sử dụng Screaming Frog, bạn có thể xác định tham số URL trong tab URI bằng cách chọn “Parameters” từ trình đơn thả xuống “Filter”.

5 cách để tránh các vấn đề về lập chỉ mục và nội dung trùng lặp 5-cach-de-tranh-cac-van-de-ve-lap-chi-muc-va-noi-dung-trung-lap-1

Kiểm tra các loại thông số URL khác nhau. Bất kỳ thông số URL nào không tác động đáng kể đến nội dung, chẳng hạn như thẻ chiến dịch quảng cáo, phân loại, lọc và cá nhân hóa, phải được xử lý bằng cách sử dụng chỉ thị noindex hoặc canonicalization (và không bao giờ dùng cả hai cùng lúc).

Bing cũng cung cấp một công cụ hữu ích để bỏ qua các thông số URL được chọn trong phần “Cấu hình trang web của tôi” trong “Công cụ quản trị trang web Bing”.

Nếu các tham số tác động đáng kể đến nội dung theo cách tạo ra các trang không trùng lặp, dưới đây là một số đề xuất của Google về việc triển khai phù hợp:

  • Sử dụng mã hóa URL chuẩn, ở định dạng “? Key = value &”. Không sử dụng các mã hóa không chuẩn như dấu ngoặc đơn hoặc dấu phẩy.
  • Bạn nên sử dụng các tham số, không bao giờ dùng đường dẫn tệp để liệt kê các giá trị không có tác động đáng kể đến nội dung trang.
  • Các giá trị do người dùng tạo không tác động đáng kể đến nội dung phải được đặt trong thư mục lọc có thể bị ẩn với robots.txt hoặc bị xử lý bằng cách sử dụng một số hình thức no-indexing hoặc canonicalization.
  • Sử dụng cookie thay vì tham số không liên quan nếu một số lượng lớn trong số đó là cần thiết cho phiên người dùng để loại bỏ trùng lặp nội dung mà trình thu thập dữ liệu web yêu cầu.
  • Không tạo thông số cho bộ lọc người dùng nào mà không tạo ra kết quả, khi đó các trang trống không được lập chỉ mục hoặc không được thu thập dữ liệu web.
  • Chỉ cho phép các trang được thu thập dữ liệu nếu chúng tạo nội dung mới cho các công cụ tìm kiếm.
  • Không cho phép các liên kết được nhấp vào cho các danh mục hoặc bộ lọc không có sản phẩm.

Tham khảo: Làm thế nào để tối ưu hóa URL trong SEO?

  1. Bộ lọc tốt và xấu

Khi nào bộ lọc tìm kiếm có thể thu thập dữ liệu bộ lọc và khi nào bộ lọc sẽ không được lập chỉ mục hoặc được chuẩn hóa? Quy tắc chung của tôi đó là khi bộ lọc bị ảnh hưởng bởi các đề xuất của Google ở ​​trên đó sẽ là bộ lọc “tốt”:

  • Bộ lọc tốt là bộ lọc nên hoạt động như một phần mở rộng có ý nghĩa của các loại sản phẩm, nó giúp sản xuất các trang khác nhau nhưng vững chắc.
  • Bộ lọc tốt là bộ lọc nên giúp chỉ định một sản phẩm.

Khi đó nó nên được lập chỉ mục. Còn bộ lọc “xấu” theo ý kiến ​​của tôi:

  • Sắp xếp lại nội dung mà không cần thay đổi nội dung, chẳng hạn như sắp xếp theo giá hoặc mức độ phổ biến.
  • Giữ tùy chọn người dùng thay đổi bố cục hoặc thiết kế nhưng không ảnh hưởng đến nội dung.

Các loại bộ lọc này sẽ không được lập chỉ mục và thay vào đó nên được giải quyết bằng AJAX , chỉ thị noindex hoặc canonicalization.

Bing cảnh báo quản trị viên web sử dụng chức năng AJAX pushState để tạo URL có nội dung trùng lặp.

Xem thêm: Ajax trong Woocommerce Thêm AddtoCart load tự động

  1. Sử dụng đúng cách noindex và canonicalization

Noindexing yêu cầu các công cụ tìm kiếm không lập chỉ mục một trang, trong khi quá trình chuẩn hóa “canonicalization” cho các công cụ tìm kiếm biết rằng hai hoặc nhiều URL thực sự chỉ cùng một trang, nhưng đó là một trang “chính thức”.

5 cách để tránh các vấn đề về lập chỉ mục và nội dung trùng lặp 5-cach-de-tranh-cac-van-de-ve-lap-chi-muc-va-noi-dung-trung-lap-3

Đối với các bản sao hoặc gần trùng lặp, canonicalization được ưu tiên trong hầu hết các trường hợp vì nó giữ quyền SEO, nhưng không phải lúc nào cũng có thể. Trong một số trường hợp, bạn không muốn bất kỳ phiên bản nào của trang được lập chỉ mục, trong trường hợp đó, bạn nên sử dụng noindex.

Không sử dụng noindex và canonicalization cùng một lúc.

John Mueller đã cảnh báo chống lại điều này bởi vì nó có khả năng nói cho các công cụ tìm kiếm để ngăn chặn các trang canonical cũng như các bản sao, mặc dù ông nói rằng Google rất có thể sẽ coi thẻ canonical là một sai lầm.

Dưới đây là những thứ cần được chuẩn hóa:

  • Các bản sao được tạo bởi các điều hướng trên trang và các tham số URL phải hợp chuẩn hóa với phiên bản tiêu chuẩn của trang.
  • Chuẩn hóa nội dung sẽ phân trang thành trang “xem tất cả” hợp nhất.
  • Chuẩn hóa bất kỳ thử nghiệm phân tách A/B hoặc đa biến nào cho URL chính thức.

Dưới đây là những điều mà tôi khuyên bạn nên noindexed:

  • Bất kỳ khu vực thành viên hoặc trang đăng nhập nhân viên nào.
  • Bất kỳ giỏ mua hàng và trang cảm ơn nào.
  • Trang kết quả tìm kiếm nội bộ. Illyes đã nói rằng: “Nói chung, chúng không hữu ích cho người dùng và chúng tôi có một số thuật toán cố gắng loại bỏ chúng…”
  • Bất kỳ trang trùng lặp nào không thể được chuẩn hóa.
  • Danh mục sản phẩm hẹp không đủ độc đáo từ danh mục mẹ của chúng.
  • Để thay thế cho chuẩn hóa, Bing khuyến nghị sử dụng tính năng chuẩn hóa URL của họ, được tìm thấy trong Công cụ quản trị trang web Bing. Điều này giới hạn số lượng thu thập dữ liệu cần thiết và cho phép dễ dàng lập chỉ mục nội dung mới nhất của bạn.

Xem thêm những cách giúp bạn lên top Google nhanh nhất: 3 Cách tăng lượng truy cập Website giúp SEO lên Top Google

Tin mới nhất

VR PLUS (https://vrplus.vn/ ) Là một trong những dự án do Lamvt thực hiện trong thời gian gần đây. Như...

Trong một năm qua, chúng tôi đã xuất bản khoảng 79 bài viết SEO trên blog Ahrefs. Các bài viết...

Khám phá kĩ thuật viết nội dung SEO Nếu không có SEO, nội dung của bạn có thể bị chìm...

Các website về lĩnh vực làm đẹp cần phải có một thiết kế (design) hấp dẫn và bắt mắt. Điều...

Core Web Vitals được đo lường như thế nào? Làm thế nào để bạn biết các bản sửa lỗi đã...

Tin được yêu thích

Như đã nói, phần mềm chỉnh sửa video đang ngày càng chứng tỏ được tầm quan trọng của mình, nhất...

Nhiều bạn thắc mắc là sau khi cài đặt Plugin cho Google AMP thì làm thế nào để kiểm tra,...

Các trang web giáo dục và các trang web của chính phủ có một lợi thế hơn trong bảng xếp...

Nội dung là một trong 3 tiêu chí quan trọng để google đánh giá thứ hạng tìm kiếm cho website...

Thẻ <span> </span> Thẻ <span> là thẻ khá đặc biệt trong HTML, theo mặc định thì thẻ <span> được thêm...

Khách đang xem

  1. Bạn đang gặp khó khăn trong việc lên thẻ tiêu đề mô tả? Bạn đang loay hoay không biết làm...
    24 giây trước
  2. Mách nước để tối ưu hóa nội dung cho việc tìm kiếm bằng giọng nói, trợ lý ảo Tìm kiếm...
    5 giây trước
  3. Một bài viết dù nội dung hay, sâu sắc nhưng cách đặt tiêu đề không thu hút cũng khó thu...
    27 giây trước
  4. Khi làm Blog bạn nên đặt ra mục tiêu đầu tiên cần tăng xếp hạng tìm kiếm không phải trả...
    4 giây trước
  5. Google vừa thay đổi thuật toán khiến anh em SEOer khó có thể lạm dụng việc submit link trong Google webmaster...
    18 giây trước
  6. Website là phương tiện rất hữu ích; giúp cho doanh nghiệp và khách hàng có thể trao đổi liên lạc...
    1 giây trước
  7. Hôm nay là đúng vào dịp nghỉ lễ, người người vui vẻ, nô nức đi mua sắm, vui chơi khiến...
    6 giây trước
  8. TuArts Nguyen hay TuArts Wedding Studio là một thương hiệu chụp ảnh cưới nổi tiếng trong giới chụp ảnh gần...
    13 giây trước
  9. Nếu bạn là một người viết văn hay, bạn có nghĩ sẽ trở thành một Blogger không? Viết Blog là...
    19 giây trước
  10. Chúng ta đều yêu thích ý tưởng kiếm thêm tiền từ trực tuyến. Đó là lý do tại sao chúng...
    21 giây trước