对于创作者来说，最头疼的莫过于自己辛辛苦苦几个小时完成的一篇文章，刚发布完成就被抄袭走了，甚至别人网站立马被收录和有排名，而自己的文章却既没有收录也没有排名，自己写的文章页完全给别人做了嫁衣，今天我们就以搜索引擎算法角度来谈谈，算法是如何去判断一篇文章是否是原创，我们又该如何规避被别人抄袭采集走呢？

一、算法判断原创度

说到原创，百度算法是这样定义的，用户花费大量精力和时间成本去撰写或整理出的一篇文章，文章内容丰富详实、这样的文章在百度算法才算原创，但是我个人觉得，百度定义的原创并不能让人信服，因为行业内90%以上都是采集或伪原创，所以我个人理解的原创，也就是我们通过自己经验看法总结出来的一篇文章，文章可以跟其他文章有相似观点或者看法，不完全雷同，这才算原创，但在百度算法中，这个过程又是怎样的呢？我们来还原一下一篇文章从生产出来到后面到后面排名，究竟经历了什么？

我们可以列举工作中最常见的场景，小王写了10篇文章后，通过一系列排版和配图后，发布到官网，隔几天后，他发现这10篇文章中，有6篇被收录了，搜索全标题都有排名。针对这个场景，百度算法是如何运算的？

小王在发布文章后，对应生成的链接是www.nmghlhltmy.com/123.html，假设百度蜘蛛爬取该url后，分析url里的页面内容，同时，对照数据库中未有该页内容，然后收录保存到数据库中，然后进行相关算法进行索引排名，注意的是，该url信息是在百度数据库中不存在才给予抓取，如果123.html存在，则跳过不抓取。

百度蜘蛛把url抓取到库中，有两个算法决定了是否收录，这两个算法是把内容切割，对照数据库中是否有重复内容，如果有，则不收录，如果没有则收录，注意的是，百度抓取的是页面，而并不是文章，所以这也是很多人有疑惑，为什么同样一篇文章，有的站点收录，有的站点不收录，在算法中，百度只考察页面。

在这其中，百度算法会依据抓取时间因子、内容来进行内容判断，来判断该篇文章是否是原创，比如123.html在2022年6月18日14:50被百度抓取后，如果有其他站点采集了该文章，那么百度是可以识别出123.html是原创文章，反过来，如果123.html发布后并没有被百度蜘蛛抓取前，就被人家采集走了，那么采集走的站点恰巧做了推送，那么百度会认可采集走的文章是原创，而真正原创并不是原创，所以，你可能就看明白了百度算法判断文章是否是原创的基本逻辑：