Khái niệm Duplicate Content là nội dung trùng lặp có trên nhiều nơi trong hoặc ngoài website của bạn. Nó thường tồn tại trên các URL khác nhau và đôi khi ngay cả trên một tên miền khác. Hầu hết các nội dung trùng lặp xảy ra vô tình hoặc là kết quả của việc lỗ do kỹ thuật thực hiện.
Mục Lục
Khái niệm Duplicate Content là gì?
Hiểu theo nghĩa hẹp thì Duplicate Content chính là những nội dung trên một hoặc nhiều website khác nhau nhưng lại tương tự hoặc hoàn toàn giống nhau.

Hiểu theo nghĩa rộng hơn thì Duplicate Content là gì? Nó là nội dung mang lại ít hoặc không có giá trị đối với khách truy cập. Vì thế, các trang có ít hoặc không có nội dung hữu ích cũng được xem là Duplicate Content.
Tại sao Duplicate Content có hại cho SEO?
Duplicate Content có thể làm ảnh hưởng xấu đến SEO vì hai lý do dưới đây:
- Khi có nhiều phiên bản nội dung thì rất khó để công cụ tìm kiếm xác định được nên index phiên bản nào. Cũng như hiển thị phiên bản nào trong trang kết quả. Điều này làm giảm hiệu suất của tất cả các phiên bản nội dung bởi chúng đang cạnh tranh lẫn nhau.
- Các công cụ tìm kiếm sẽ gặp khó khăn khi hợp nhất số liệu liên kết. Ví dụ như mức độ liên quan, mức độ ảnh hưởng và mức độ tin cậy cho nội dung. Đặc biệt là khi các website khác liên kết với nhiều phiên bản nội dung đó.
Google có phạt Duplicate Content không?
Duplicate Content sẽ gây ảnh hưởng xấu đến hiệu suất SEO của website của bạn. Nhưng nó sẽ không khiến cho website của bạn bị Google phạt nếu bạn không cố tình sao chép nội dung của những website khác.
Nếu bạn sử dụng một vài kỹ thuật trong website của mình nhưng không cố tình lừa Google thì không cần lo lắng về việc bị Google phạt.
Nếu bạn đã sao chép một lượng lớn nội dung website khác. Thì chắc chắn bạn đang đứng ở ranh giới mỏng manh. Bởi Google đã từng lên tiếng về vấn đề Duplicate Content như sau:
“Duplicate content trên một website không phải là cơ sở để áp dụng hình phạt. Google chỉ phạt khi website sử dụng Duplicate Content để đánh lừa và thao túng kết quả của công cụ tìm kiếm. Nếu website của bạn đang gặp vấn đề về Duplicate content và bạn không tuân theo các khuyến cáo của Google. Thì chúng tôi sẽ lựa chọn phiên bản nội dung tốt nhất để hiển thị trong kết quả tìm kiếm”
Nguyên nhân phổ biến dẫn đến Duplicate Content và Cách khắc phục
Có rất nhiều nguyên nhân dẫn đến lỗi Technical SEO – Duplicate Content. Tuy nhiên, tôi đã tổng hợp lại 15 nguyên nhân thường gặp dẫn đến vấn đề này và cách để giải quyết chúng.

Khái niệm Duplicate Content Faceted/Filtered Navigation
Khái niệm Duplicate Content Faceted Navigation – Hay còn gọi là điều hướng nhiều chiều. Là nơi mà người dùng có thể lọc và sắp xếp các mục trên trang. Các website thương mại điện tử thường sử dụng nó rất nhiều.
Loại điều hướng này gắn các tham số vào cuối URL. Ví dụ:
Bởi vì thường có nhiều sự kết hợp của các bộ lọc. Điều hướng nhiều chiều dẫn đến Duplicate Content hoặc gần trùng lặp.
Cùng xem xét 2 ví dụ dưới đây để hiểu rõ hơn về nguyên nhân này nhé:
- bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked
- bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked
Các URL này là duy nhất, nhưng nội dung lại gần như giống hệt nhau.
Ngoài ra, thứ tự của các tham số thường không quan trọng. Ví dụ: bạn có thể truy cập cùng một trang khi sử dụng 1 trong 2 URL sau:
- bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL
- bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked
Cách sửa chữa:
Faceted navigation là một vấn đề rất phức tạp. Nếu bạn nghi ngờ đây chính là nguyên nhân dẫn đến Duplicate Content. Hãy quyết định xem bạn muốn Google index những trang nào. Sau đó, hãy tăng số lượng trang hữu ích được index và bỏ đi những trang không cần thiết.
Tracking Parameters
Các URL được tham số hóa cũng được sử dụng để theo dõi. Ví dụ, ta có thể sử dụng thông số UMT để theo dõi lượt truy cập trong phần chiến dịch bản tin của Google Analytics:
Ví dụ: example.com/page?utm_source=newsletter
Cách sửa chữa:
Chuẩn hóa các URL được tham số hóa của bạn để có được các phiên bản thân thiện với SEO mà không cần có các thông số theo dõi.
Session IDs
Session IDs lưu trữ thông tin về khách truy cập vào website. Chúng thường nối một chuỗi dài vào URL như sau:
Ví dụ: example.com?sessionId=jow8082345hnfn9234
Cách khắc phục:
Chuẩn hóa các URL để có được các phiên bản thân thiện với SEO.
HTTPS với HTTP và non-www với www

Khái niệm Duplicate Content bạn có thể truy cập vào website bằng một trong 4 biến thể dưới đây:
- https://www.example.com (HTTPS, www)
- https://example.com (HTTPS, non-www)
- http://www.example.com (HTTP, www)
- http://example.com (HTTP, non-www)
Phiên bản sử dụng HTTPS chính là hai URL đầu tiên. Dù là dùng phiên bản có www hay không có www thì bạn vẫn có thể truy cập website được.
Qua bài viết trên đã cho các bạn biết về khái niệm Duplicate Content và cách khắc phục lỗi hiệu quả. Hy vọng những thông tin trên sẽ hữu ích đối với các bạn.
Lộc Đạt-tổng hợp
Tham khảo ( tranngocthuy, vietbaixuyenviet, … )
Discussion about this post