站長,在做網站的時候,時有發生網站內容被采集的情況,特別是現在這種采集成本極低的環境,只要稍微會一點代碼,就可以制作采集模塊。即便不會代碼,也可以花費低廉的價格去找人代寫。
新站上線,勤勤懇懇的做著原創內容,卻被突如其來的采集工具采集了整站。換誰也受不了。
并且,新站開始是沒有權重的,即使你發布的是你的原創,權重高的網站采集了你的文章并發布,蜘蛛爬取網頁,也優先收錄了權重高的網頁,并且認為這是他的原創文章。
這就是典型的為他人做嫁衣。
雖然現在文章也有版權保護,但是在面對采集站點而言,又有什么用呢,既然他敢采集,就不怕你去維權,而且當下維權的成本又高。
以前熊掌號有一個原創保護功能,但是因為百度業務原因,給下線了?,F在的原創真的無法保護。
所以今天五車二為大家分享幾方法,最大限度的保證自己的創作不被采集。
內容優化篇
1,寫作的時候,在你的作品中插入相關的品牌詞。如:“XXX網小編”,“XXX提醒大家”……或者使用替代詞,百度知道替代為Baidu知道,擺渡知道,百度了解等。為文章打上標記,以便在后期的時候反饋作為證據使用。
當然采集軟件也有過濾功能,所以可以每篇文章都用不同的詞匯。雖然累一點,不過有些采集者比較不傷心,總會漏掉一些細節。
2,圖片水印處理,采集工具是無法識別圖片并過濾的。原創文章的用圖,可以使用水印。即便采集了,他如果要處理,也要重新編輯。
更新技巧(技術層)篇
采集者,會讓工具通過網站的URL來識別最新文章。只要我不把最新的文章發布出去,采集工具就無法獲取到相關代碼。只要我的文章先行收錄,他在做采集,也會被搜索引擎判定是復制轉載,而非原創。
1,隱藏式更新(延時) ,自己站內的蜘蛛會爬取站內的所有URL連接,采集工具不能。所以只要我們將一個頁面隱藏而不放進某一個分類,等待收錄之后在移入分類。就可以避免第一時間被采集。
2,程序限制頁面訪問(多少時間只能訪問多少個) ,機器的速度比人快,一個人不可能在3分鐘內訪問每一個分類的每一篇文章,并且每個文章都打開。(注意:某些采集工具是可以做到延時采集的,因為他也可以設定幾分鐘訪問一篇。但這需要成本。 )
3,限制面向用戶的頁面展示 ,比如,我只給你展示1頁,第二頁進行驗證。
4,驗證機制 ,其實有些網站,是可以做到當用戶不正常訪問的時候就彈出驗證碼框來進行人機校驗,也可以規避采集工具的采集。
5,鏈接盡量不要有序化 ,采集工具的原來,是通過源碼來進行URL識別,一些有序的URL鏈接對于采集者非常喜歡,因為不麻煩,可以采集整站數據。
百度站長工具篇
百度站長工具可以手動提交鏈接。
結合上面的【技術層】篇章中的第1點,我們先延時更新,把頁面隱藏起來。
然后利用百度的站長工具,收錄提交,提交了我們原創文章的URL,然后靜待百度收錄之后。
再將文章更新到首頁或分類。