提升文章原創度技巧 如何避免被頭條號“消除重復”?

抖音業務廣告圖

頭條號發布的內容,在通過審核和進入推薦系統之間,還有一道「難關」,那就是「消重機制」,數據表明,被「消重」是頭條號所發布內容無推薦量的最常見的原因。

如何避免文章被頭條號“消除重復”?

一.什么是消重?

我們都知道,在互聯網上,同樣的文章、圖片、視頻被多個媒體刊登,是很常見的情況。無論是網站,還是各種媒體平臺上,原創內容除了原創來源之外,往往還會被很多其他媒體轉載或復制。

如果我們用搜索引擎搜索一篇內容,經常會得到多個網址。在過去,我們只要自己篩選和判斷,哪個網址更權威,更有價值,再點擊去訪問就可以了。但是想象一下,如果這樣的景象是出現在你今日頭條的信息流里——系統連續給你推薦了幾篇相似的內容,會怎么樣呢?

你可能會覺得:為什么要給我推薦一樣的內容呢?系統應該選擇最好的那個來源,給我推薦一次就夠了——如果我想看,看一篇就夠了,如果我不想看,那么重復推薦也沒有意義啊!

沒錯,所以今日頭條在推薦某篇內容之前,必須確定這篇內容:

  • 在系統里是否存在相同或者高度相似的內容?
  • 如果存在,那么這篇內容的來源是否是最權威、最有價值、最有可能是原創的來源呢?

消重就是指對重復、相似、相關的文章進行分類和比對,使其不會同時或重復出現在用戶信息流中的過程。頭條號平臺首先會通過消重機制來決定同樣主題或內容的文章是否有機會被推薦給更多用戶。

二.消重的種種好處

你可能會覺得,消重對原創發布者有利,但對于那些善于發現和再加工優質內容的媒體不太有利,但是綜合看來,我們覺得消重的好處是很多的,尤其對于用戶來說:

  • 優化用戶的體驗。對用戶來說,同樣主題的文章看一篇就夠了;
  • 鼓勵原創!在文章相似的情況下,申明「原創」文章是后續獲得推薦的重要指標;
  • 給更多內容以曝光機會。因為用戶的興趣是確定的,如果每次刷新都反復推薦類似的內容,你發布的其他內容不就沒有曝光機會了嗎?

當然,總體來說,這是一個有利于原創者的機制,這也和頭條號平臺鼓勵原創內容生產的目標一致。

三.頭條號算法中的消重過程

如何判斷兩個內容是否相同呢?

如果讓人來判斷,可能就要逐字逐句地把文章讀完才能判斷得出來。通過計算機這樣去判斷當然也是可以的,不過,當每天需要處理的內容達到十多萬篇次的時候,這么做即使對于計算機來也太麻煩了。

有沒有更簡單的方法呢?

有的,通過系統的計算,一篇文章的文本、標題、圖片等都是可以轉換成一串數字代碼,這就像我們每個人的身份證,如果兩個人的身份證號碼一模一樣,那么就可以肯定這是兩個一樣的人了,并不一定要仔細去看他們的長相。文字信息的「身份證」也能起到類似的作用,對于圖片、視頻等信息形式,原理也是類似的。

延伸閱讀:

注意:此處介紹的只是計算原理,并非實際發生的計算過程。

信息的「身份證」,一種更常見的稱呼是「信息指紋」,是計算機應用領域里經常用以判斷信息重復性的方法。「信息指紋」的計算方法有很多種,但原理是相似的:

你可能知道,不管是中文、外文還是數字,在計算機系統里,實際上都是以0或1的代碼形式存儲的,例如大寫字母A的ASCII編碼就是01000001,而小寫字母z的ASCII編碼是01111010(實際上也存在很多種編碼標準,ASCII是一種常見的英語編碼標準,采用8位二進制數字編碼)。這實際上就相當于,每個字符都有一個自己專屬的信息指紋。

簡單來說,計算會對文本中出現的不同字符的信息指紋,結合它們各自在內容中出現的次數,反復進行算術運算,最終得到一篇內容的信息指紋。理論上說,如果運算足夠多的次數,就會產生足夠獨一無二的數字結果。

信息指紋的重復概率有多低呢?假設我們通過上面的計算,得到一串128位的二進制數字,這在計算機系統里只需要占用很小的空間,但是根據「抽屜原理」,這樣的數字重復一千八百億次才能重復一次!這對于一般的信息消重來說,已經非常足夠了。

總而言之,相同文章具有不同信息指紋,或者不同文章具有相同信息指紋的概率都幾乎是0,對于“消重”機制,不必擔心誤判,也不能心存僥幸!

原理上說,不同內容的身份證是不一樣的,而相同內容的身份證是一樣的。并且,相似的內容會具有相似的身份證。這是頭條號的系統對內容進行消重的基礎。

每一篇文章都有屬于自己的「身份證」,用來與平臺中的其他文章進行比對。通常有以下幾種不同的消重機制:

1. 內容消重與「關鍵項」

在計算一篇內容的「身份證」之后,基本上有兩種情況。

其一,這是一個系統中獨一無二的身份證,換言之,同樣的內容在系統里只有這樣一篇。對于內容發布者來說,這恐怕是最理想的情況了,這種情況下,在向讀者推薦相同內容時,系統除了推薦這一篇外,別無選擇。

第二種就要復雜得多了,同時也是非常常見的情況:

系統里存在多篇不同內容,都具有同一張身份證。這時,系統就需要從這些相同內容中選擇一篇“關鍵項”向用戶推薦。進行選擇的最終目的是保證向用戶推薦的內容來自更權威、更有可能是原創來源的頭條號。

如何判斷哪個頭條號更權威、更有可能是原創呢?兩篇相同的內容,在內容本身之外可能存在很多的差異,這些差異就是判斷的關鍵,具體的計算標準是非常多的,其中最重要的一些包括:

  • 來源頭條號是否開通「原創」標記;
  • 發布時間;
  • 來源的權威性和在網絡上被引用的次數。

舉例來說,假如「央視新聞」通過頭條號平臺在5月19日上午發布了一篇內容,「門頭溝新聞」的頭條號在5月20日上午轉發了同樣一篇內容,兩者都沒有標記原創,那么:

  • 首先,根據文本分析,這兩篇內容會被計算出一個相同的「信息指紋」;
  • 接著,「央視新聞」是比較權威的新聞報道媒體,而且,「央視新聞」的內容發布時間更早,因此,是權威、原創來源的可能性就遠遠大于「門頭溝新聞」;
  • 那么,「央視新聞」所發布的同一篇內容,就會被認定是這兩篇內容中的關鍵項( 官方英文名叫Keyitem),繼而向用戶推薦。

那么,假如說,同樣的內容,5月19日先由「門頭溝新聞」的頭條號發布,5月20日再出現在「央視新聞」的頭條號上,系統會如何判定呢?這就比較復雜了,但是綜合看來,系統選擇最佳內容來源的可能性非常大。

有一種例外的情況是,某篇內容被頭條號利用「原創」功能,標記了「原創」,那么在這種情況下,系統會有很大的幾率把這篇內容選擇為「關鍵項」,無論其他因素的比較結果如何(盡管如此,「原創」頭條號應該盡量謹慎地使用這個功能,一旦被舉報濫用原創,查實后會被永久取消申明原創的資格)。

一旦系統發現了可能對某篇內容感興趣的用戶正在刷新今日頭條客戶端,那么系統會自動把具有同樣「信息指紋」的內容中,經過挑選最優的一篇推薦到用戶的信息流。剩下具有相同「信息指紋」的內容,就幾乎不可能獲得推薦了。

這就是基于內容的消重規則,這解釋了為什么許多非原創的內容無法在今日頭條獲得推薦量的原因。

2.其他一些「消重」的規則

除了內容消重的規則外,頭條號平臺上實際上還存在這一些針對內容之外的消重規則。

  • 標題和預覽圖片的消重。原理與內容消重相似,只不過是只比較標題以及預覽圖片的「信息指紋」。

    之所以要對具有相同的標題或者預覽圖片的內容進行消重(哪怕它們的內容并不相同),這是因為,假如用戶沒有點擊內容詳情頁,這看上去就是系統把兩篇一樣的內容重復推薦給了用戶!可想而知這樣的瀏覽體驗是很糟糕的,況且,很少有人愿意連續點擊幾篇看上去一模一樣的內容,因此這樣的推薦也很少起效果。

  • 針對相似主題的消重。你肯定對這樣的景象不陌生:每當有某個社會熱點事件或者話題出現的時候,媒體、自媒體、KOL們一擁而上,競相報道事件細節或者發表觀點,讓你的微博、朋友圈被有關這件事的種種內容“刷屏”。

    追逐熱點,是媒體、自媒體很本能的一種行為模式,但是對于用戶來說,需要的其實并不是反復看到相同的信息,如果有足夠優質的報道或者觀點的話,其實看有限的幾條就夠了。

    機器為避免在同一時間段用戶看到太多同一事件的文章,就會啟動對「相似主題」的消重。

    不難想到,對于主題的消重原理和對內容的消重其實原理是一樣的,如果能對文章中全部的關鍵詞進行統計并計算信息指紋,當然也可以對其中部分與話題相關的關鍵詞進行統計并計算信息指紋。

在所有消重規則中,對內容的消重是最嚴格的,其他類型的消重則更加靈活一些,因為在信息流里看到重復的內容對用戶是最不好的體驗。

四.應如何避免被消重?

不管是自己原創,還是轉載了網絡上的優質內容,如果出現了被系統消重而無法獲得推薦的情況,總是讓人感到遺憾的。那么要如何才能避免這樣的情況呢?

  • 堅持原創!如果內容完全是你原創的,那么,可以想見這樣的內容基本上都是獨一無二的,自然就不用擔心消重的問題了。

    當然這是最理想的情況,不可諱言,對于「原創」這件事,有時計算機的判斷和人的判斷是不一致的。原因是,計算機只能觀察到互聯網上發生的事,卻對沒有在網絡上留下痕跡的事情一無所知!

    一種比較常見的情況是,原創作者把自己的原創內容授權給了多家媒體,甚至有些媒體有首發權。而這些媒體可能都有自己的頭條號,因此就把作者的原創內容先發到頭條號上來了。

    因此,當作者自己在頭條號上更新時,也許因為發得比較晚,也許因為不如媒體有知名度,導致自己發布的內容沒能成為「關鍵項」。因此,建議原創作者在給予其他媒體內容授權時,盡可能約定清晰。同時,如果可能的話,盡量把自己原創的內容,在自己的頭條號上首發。

    有些作者傾向于使用微信同步功能將自己的內容從微信公眾號上同步到頭條號上。但是有時這個策略會導致一些意料之外的「消重」問題。

    因為這個功能需要調用微信公眾平臺的一些技術接口,因此頭條號是無法保證它始終良好運行的。如果同步生效的時間比較晚,甚至同步失敗。那么在這個過程中很容易發生其他頭條號把原創內容先轉載到自己的頭條號上,并且成為「關鍵項」的情況。因此建議頭條號運營者一定要謹慎使用微信同步功能,盡可能在頭條號手動發布、首先發布。

  • 面對「熱點」要謹慎追逐。別忘了「話題消重」這個規則,盡管這不如「內容消重」那么嚴格,但是一件事再熱,讀者的興趣也是有限的。因此,如果不能確定自己創作的角度足夠獨特,自己的內容足夠優質,那么就不要隨意地追逐熱點,免得做了無用功。
  • 少用常見標題套路。最后,起標題時,盡量挖掘自己的創意,起出一些別出心裁又有吸引力的標題,盡量少用網絡上常見的標題套路,以免「撞款」了!要記得,標題也是會被消重的。

更多今日頭條頭條運營規范與技巧,請訪問鏈接:http://www.skdfgt.live/yingxiao/1084.html

About 狂明小妖

代明,網名“狂明小妖”,代明博客博主。

發表評論

電子郵件地址不會被公開。 必填項已用*標注