據說網絡上25%–30% 的內容是重複的,這意味著內容與另一段現有內容非常相似。對於像穀歌這樣的搜索引擎,提供所有重複的內容對用戶來說並不是特別有用。
這就是為什麼搜索引擎會選擇兩個(或更多)版本之一顯示在搜索結果中。規範化可以幫助您告訴搜索引擎哪個版本是原始版本,這可以幫助您最重要的頁面獲得更好的排名並提高抓取預算。
什麼是規範化?
在管理網站時,規範化是您將網頁或 URL 聲明為內容的原始(或規範)版本的過程。
它允許您告訴搜索引擎哪個版本的內容是最權威的,任何規範化的內容都隻是該內容的另一個版本。這使得規範化成為您網站管理和內容策略的重要組成部分。
如果沒有規範化,您將無法控製搜索引擎選擇在相關搜索結果中顯示哪個 URL。將規範標簽添加到 URL 後,實際上是在告訴搜索引擎這是內容的原始版本,應該出現在搜索結果中。搜索引擎可以選擇忽略這個規範標簽,但一般來說,規範化被認為是管理重複內容的有效方式。
讓我們用一個工作示例來解釋這一點:您正在瀏覽一個電子商務網站,希望購買一些鞋子。要在您想要的價格範圍內找到鞋子,您可以使用排序選項首先顯示最昂貴的鞋子。當您這樣做時,您會注意到頁面的 URL 發生了變化。之前是 https://example.com/shoes,但現在是 https://example.com/shoes?price=high。
是和以前一樣的頁面,還是不同的頁面?你可能會說這是同一個頁面——頂部關於鞋子的文本塊保持不變,頁眉和頁腳相同,頁面側面的過濾選項相同。該頁面甚至可能顯示相同的鞋子,隻是順序不同。
但是,對於 Google 和其他搜索引擎來說,這是一個不同的頁面,因為 URL 不同。因此,該網站現在有兩個內容相同的不同頁面——或者,正如 SEO 中所說的那樣,“重複 內容”。
這給網站所有者帶來了問題。穀歌不想在其搜索結果中同時顯示這兩個頁面,因為它對搜索者來說價值不大,所以它隻會選擇一個。但是,如果網站所有者想要“price=high”頁面而 Google 選擇了另一個頁面,或者反之亦然?

這是來自同一商業網站的兩個不同類別頁面。兩者都是按價格排序的,隻是一個是從低到高,一個是從高到低。規範化是一種告訴 Google 選擇每個頁面的哪個版本的方法。
輸入規範化,這是一個非常簡單的概念的宏大詞。如果您有重複內容,這是一種告訴搜索引擎哪個頁面是您的主要或“規範”版本的方式。穀歌還使用了“最具代表性”這個詞。網站可能具有重複內容的原因有很多,我們將在本文後面介紹最常見的原因。
重複的內容並不一定意味著相同的頁面:“列表頁面的排序或過濾的微小變化不會使頁面獨一無二,”穀歌說- 就像我們的鞋子搜索結果示例一樣。這是穀歌用來描述重複的一些其他短語內容:
· “非常相似”
· “大緻相同”
· “相似的內容”
你可能會問,“‘非常相似’有多相似?” 好吧,這在 SEO 圈子裏有爭議,所以請使用你最好的判斷。但是,如果您將規範標簽應用於搜索引擎認為不相似的 URL(更多內容見下文),它們可能會忽略該標簽。
如何規範化 URL?
指定規範頁面有幾種不同的方法,但最常見的方法是添加一塊稱為“規範標簽”的元數據。規範標簽如下所示:
規範標簽可以指向同一網站或不同網站上的任何 URL。如果它指向不同的網站,則稱為“跨域規範標簽”。但是,在大多數情況下,它將指向當前 URL,表明當前 URL 是——你猜對了——是規範的。這被稱為自引用規範標簽,因為頁面引用自身。
無論標記指向何處,Google 都表示 URL 應包含域名。換句話說,它應該類似於https://mysite.com/page而不僅僅是/page。
盡管 Google 對規範標簽有強烈的意見,但有時仍會忽略它們。例如,如果規範標記指向內容明顯不同的頁面,或者如果頁面加載速度太慢以緻於 Google 無法對其編製索引,則可能會發生這種情況。
雖然從技術角度來看規範化很簡單,但並不總是很清楚為什麼或何時應該這樣做。讓我們看看這兩個考慮因素。
為什麼需要規範化?
現在,我們知道規範 URL 對像 Google 這樣的搜索引擎很重要。但是,搜索引擎不僅僅使用它們來決定將哪些頁面編入索引並顯示在搜索結果中——它們還使用它們來決定抓取(訪問)頁面的頻率。
這意味著規範化可以幫助您優化抓取預算(搜索引擎機器人在給定時間段內在給定網站上抓取和索引的頁面數量)。如果您的網站有數千個頁面(例如電子商務網站),Google 可能需要很長時間才能抓取所有頁面。您當然不希望 Google 將您的抓取預算浪費在許多具有相同內容的頁面上,並可能遺漏其他重要頁面。
通過使用 canonical 標簽,您可以告訴搜索引擎哪些頁面是重複的,這樣它就不會經常抓取這些頁面。這意味著規範化可以讓 Googlebot 騰出時間來抓取您的其他頁面,從而更快地查找新內容並將其編入索引。
這還不是全部:規範化實際上可以幫助您的網頁在 Google 搜索中排名更高。雖然穀歌使用的確切算法是一個秘密,但我們知道它受到許多不同因素的影響。這些因素包括(但不限於)您網頁的內容、您的網頁是否對用戶友好,以及它在移動設備上的加載速度。鏈接尤為重要:來自信譽良好的網站的所謂“入站”鏈接(也稱為反向鏈接)告訴 Google 您的網頁也是高質量的。
但是,如果您有重複的內容,則頁面的不同版本可能具有不同的入站鏈接。例如,第一個版本可能有五個來自不同站點的鏈接,而另一個版本可能隻有兩個。如果您運行使用特殊 URL 來幫助跟蹤的營銷活動,有時會發生這種情況。例如,您可以使用如下所示的 URL 運行電子郵件通訊活動:
https://www.mysite.com?utm_source=newsletter&utm_medium=email&utm_campaign=christmas
問號後的 URL 部分稱為“URL 參數”,在這種情況下,它們隻是用來幫助進行活動跟蹤和報告。但是,其他網站可能會鏈接到這個特殊的活動 URL,而不僅僅是鏈接到https://www.mysite.com。因此,好處會在頁面的不同版本中被稀釋。
規範化通過整合這些鏈接的優勢來幫助您解決這個問題。通過適當的規範化,您希望出現在搜索結果中的版本受益於指向該頁面所有版本的所有鏈接。這可能會提高該頁面在搜索引擎中的排名。
什麼時候需要規範化?
規範化在許多不同的情況下都很有用,但並非所有情況都是顯而易見的。下面是一些常見的場景。
01.跨站點重新發布內容
首先,每當您在多個站點上發布相同的內容時,請考慮規範化。雖然這似乎隻有大型出版商才會這樣做,但令人驚訝的是,小型和本地企業也經常發生這種情況。
例如,一位整骨醫生寫了一篇關於背痛常見原因的有用文章,並將其發布在他們診所的網站上。然後,他們在城鎮另一邊開設了一家新診所,並專門為第二個地點建立了一個企業站。這篇文章也與這裏相關,因此他們也在第二個站點上發布了它。
在這種情況下,最好建議整骨醫生將他們選擇的一個版本規範化,而不是依賴穀歌為他們做出選擇。(當然,在理想情況下,每個站點都應該有自己獨特的內容。)
02.聯合
另一個類似的場景是聯合。如果您經營博客,您可能已選擇在第三方網站上聯合發布您的內容。這通常是使用RSS 提要完成的,並且是接觸新的或更多受眾的有效方式。
您可能希望要求您的聯合合作夥伴為任何重新發布的帖子添加規範標簽,將您的原始博客文章指定為規範版本。您肯定希望在原件上包含一個自我引用的規範標簽。否則,您可能會發現聯合版本是 Google 決定編入索引的版本,而您的原始博客文章根本不會出現在搜索結果中。
聯合副本的規範化也有助於穀歌新聞中的原始內容:“允許其他人重新發布內容的出版商可以通過要求重新發布的人阻止或使用規範來幫助確保他們的原始版本在穀歌新聞中表現更好。”
但是,即使有規範標簽,聯合副本在搜索結果中的排名也可能超過您的原件。根據 Google 的 John Mueller 的說法,如果“該頁面周圍有很多其他完全不同的內容”,則更有可能發生這種情況。
03.參數化URL
隻要網站具有參數化 URL,規範化也很重要。許多網站將參數用於:
· 營銷活動,例如我們上面的聖誕節電子郵件示例
· 搜索過濾器,正如我們在鞋子結果頁面示例中看到的
· 對博客等內容進行關鍵字搜索
不管是什麼原因,參數都會創建一個新的 URL。這些版本應該有一個指向原始版本的規範標簽(並且原始版本應該有一個自我引用的規範標簽)。
04. URL變體
您可能已經注意到,有些網址包含“www”,有些則不包含。同樣,有些以斜杠 (/) 結尾,有些則沒有。而且,有些是安全的(從 https 開始),有些則不是(從 http 開始)。在最壞的情況下,這三個因素會為我們提供相同 URL 的八個不同版本:
· https://www.mysite.com
· https://www.mysite.com/
· https://mysite.com
· https://mysite.com/
· http://www.mysite.com
· http://www.mysite.com/
· http://mysite.com
· http://mysite.com/
在理想情況下,其中七個變體應自動將用戶重定向到第八個。(有許多不同類型的重定向,但這裏最合適的一種是永久性301 重定向。)但是,如果重定向沒有到位,規範標記可以減輕這些不同 URL 變體引起的問題。
使用規範標簽來管理重複項
如果使用得當,規範標簽可以讓您向 Google 和其他搜索引擎展示每個頁面的一個規範版本。確保將它們與上述最佳實踐一起使用,以便搜索引擎和最終用戶登陸正確的頁面。






