百度如何識別網站內容是轉載還是原創(chuàng)或是偽原創(chuàng)?
發(fā)布時間: 瀏覽: 2163
淮南企業(yè)網站的好多負責人或者個人網站站長都在問原創(chuàng)是如何被搜索引擎識別的?
在談論之前,我們首先應該明確三個基本概念:原創(chuàng)與偽原創(chuàng)以及轉載
先說轉載:顧名思義就是原原本本的從網絡媒體上照抄照搬過來的文章。
原創(chuàng):很好理解,就是第一次在網絡上發(fā)表的文章內容。
偽原創(chuàng):就是對網絡上收集到的一些原創(chuàng)內容進行N次修改,轉而進行發(fā)表的文章。比如修改文章的標題,增加文章摘要,轉載不完整的文章內容等等。
搜索引擎對于原創(chuàng)的識別判斷是如何進行的呢?
一般來講,有以下幾個方面的因素決定:
1、快照生成的日期。
2、蜘蛛抓取的日期。
3、網站頁面外鏈的多少。
4、文章內容雷同相似的程度。
舉例:如果一篇標題為《蜘蛛如何辨別原創(chuàng)內容》的文章在今天早上8:00首次發(fā)表在一個BBS、BLOG或者網站上。會有什么樣的結果呢?
蜘蛛來到這個BBS、BLOG或者網站,發(fā)現(xiàn)了這個頁面,分析頁面上《蜘蛛如何辨別原創(chuàng)內容》的的文章內容,放入搜索引擎數據庫,并經識別判斷被認定為首次發(fā)現(xiàn),那么《蜘蛛如何辨別原創(chuàng)內容》的這篇文章肯定就是原創(chuàng)了!
當然,在蜘蛛爬過來識別文章時,收錄與判斷的過程中間有幾個細節(jié)問題,需要大家參考:
1、認定為原創(chuàng)文章的必要條件
假如這個網站沒有被收錄,這篇文章會認為是原創(chuàng)嗎? 當然不會!因為它根本不可能出現(xiàn)在搜索引擎的數據庫里!
那么,如何讓它被認定成為原創(chuàng)內容呢?
第一個條件,網站必須有被搜索引擎收錄。假如這個網站被收錄了,但是不經常更新呢? 很簡單,如果不經常更新,發(fā)表的文章到被蜘蛛搜索到并收錄的時候也會認為是原創(chuàng)的。
2、轉載與采集后原創(chuàng)的認定
如果這篇文章被轉載了呢? 如果文章被轉載,那么看轉載這篇文章的站更新周期與首次發(fā)表這篇文章的站的更新周期哪個更快。
不太明白更新周期?舉個例子說明:比如在A站發(fā)表,B站轉載,如果蜘蛛先訪問了A站,發(fā)現(xiàn)了文章,再來到B站發(fā)現(xiàn)了文章,很明顯的,原創(chuàng)權重歸A站。
那么采集的情況是否符合這種情況? 當然,采集的情況一樣。如果B采集A,但B收錄比A早,B就可能變成原創(chuàng)!
3、蜘蛛的訪問時間
如果蜘蛛先訪問了B站呢? 當然權重給B站,一般的情況下都會這樣!
如果B站轉載的文章帶了A站的原文章頁面鏈接呢? 這就很明白了,剛收錄的時候,如果排名,兩條結果一起出現(xiàn),有可能還是B站的排名好一點。 當然,文章轉載次數多了以后,A站的鏈接越多,對A站的文章越有好處,排名會慢慢變成A站在前面。
如果另外轉載的文章帶的是B站頁面的鏈接呢? 這種情況就搞笑了,給搜索引擎開了個玩笑,但它們如果判斷不好,就變成了一個鏈接流行度的比賽了。不過,如果都有很多外部鏈接,并且相差不大,那么判斷的規(guī)則應該回到原點,誰先被收錄誰就是原創(chuàng)。
4、網頁快照生成的日期
搜索結果中網頁快照日期顯示時間最早的,一般就是原創(chuàng)了吧! 不一定,這個說法要在一個更新周期之內,比如說文章發(fā)表后一周內,快照時間越早的地址將越有被認可為原創(chuàng)的可能。 但如果文章都發(fā)表了幾個月了,說不定搜索引擎已經重新獲取過快照了,快照的日期就變了!
還有其它的可能嗎? 有,比如百度收錄,他可能會有一個收錄的數據庫,經過過濾后,收錄的內容才會到搜索結果里來。在這個期間就有一些問題了,比如A站首次發(fā)表,B站轉載。蜘蛛先訪問A站再訪問B站。而后可能先把B站的結果放出來了,而A站還在數據庫里。
所以說搜索引擎沒有收錄并不表示搜索引擎蜘蛛沒有訪問過這些內容,也許在搜索引擎的庫存里已經有記錄了,只是你查的時間沒有放出來而已,就像25號才放出來的內容,但是快照是20號的,這就是搜索引擎的庫存內容,同時這也是檢驗原創(chuàng)的核心時間點。
這種情況一般出現(xiàn)在新站與老站之間,A站發(fā)表,B站轉載,但A站在搜索引擎的信任度并不高的時候。不過只要是A站先被訪問到的,原創(chuàng)權還是A站的,這是最難分出來的情況,因為我們不知道蜘蛛先訪問哪個站,除非你知道兩個站的網站空間日志內容,能看到搜索引擎對兩個頁面的訪問時間。
5、文章的偽原創(chuàng)
偽原創(chuàng)也會被認為是原創(chuàng)?大多數時候是這樣的,搜索引擎蜘蛛智力,你不要給予很高的期望,它就相當于三歲的小孩子,不能明確辨別這些內容是否一樣,因為它的思維太程式化了。如果你把文章的標題修改過,把文章的段落、結構、順序等修改過,甚至是兩篇或多篇內容差不多的文章混合在一起加工過,那么搜索引擎的蜘蛛就很難判斷這篇文章是否被收錄,或許它可以判斷出有部分內容是相似或重復的,但是它不能因為這些細微的相似,而將這篇經過“深加工”的偽原創(chuàng)文章判斷為是轉載!當然,搜索引擎程式設計中有一個相似度的東西,比如文字內容相似度超過百分之幾就會被認為是轉載。
至此淮南訊網公司給出以下幾點建議:
1、如果你的網站是一個新站,當前網站的權重不高,如何讓搜索引擎的蜘蛛首頁找到你的網站頁面并放入搜索引擎的數據庫?其實有一個簡單有效、省時省力的方法:充分利用網摘、百度收藏等工具,讓蜘蛛更快的爬到你的頁面上來!
2、就是使用代碼把網站加上自己的版權及內容頁面的地址,別人采集的時候自動添加你的網站鏈接或者文章來源的具體鏈接地址,這樣做收錄雖然不會快,但最后鏈接多了,你依然是原創(chuàng)內容。
3、在自己的網站上發(fā)表“原創(chuàng)”文章,等到自己收錄以后,再去其它的站點進行發(fā)表,同時加上自己的原文地址,這種辦法很有很有效果,一些規(guī)模較大、影響較廣的網站被采的機率很大,發(fā)到這些大的網站上,帶來的流量非�?捎^!