原创和伪原创成为现在互联网后时代一个重要的话题,即就是如何保“证内容为王”的问题,对于门户型的大互联网公司来说,也许他们有专业的编辑和写手,但是据我所了解的,甚然逃不了要去转载别人的文章。如何在原创与非原创之间取得平衡点,是做网站运营人员和编辑必须进行把控的一个点。
搜索引擎如何辩别原创和伪原创?
以目前的计算机来看,是不可能做到真正的人工智能识别内容的,也许对英文系还好一些,毕竟英文系的字库有限,每个独立的英语的意思是独立的或者相关的。并且英文中有默认的习惯用“-”来进行区分。
而中文则就明显不同。同一个意思,可以用无数个词来形容,千变万化。比如说:“人面桃花”这个词的涵义就多了。所以计算机是不可能辩识的。那么搜索引擎如何去判定原创和伪原创呢?下面是思路实现。
首先,搜索引擎把两篇文章进行有机的筛选,作为比对对象,那如何知道这比对的文章是有关的呢?当然就是关键字,根据文章的关键字决定的,这也就是为什么文章中要内置一定比例的关键字的原因所在,至少如何区分文章中那一个是关键字,搜索引擎自有算法解决的,不再多述。
取出两篇文章以后,计算机就进行分析:
1、 设定一个比例,比如定义为M,标注是0.5的系数。
2、 把A篇文章,根据字数,段落为分三段。B篇文章段落分为三段,然后进行算法编译,也可以理解成为加密之类的,也就是说把文字变成符号。比如说一段话进行编译之后变成了aaacbdfbcdfsdafefasdfasd 这样的字符串。当然不一定是用ABCD这种字符,这样做的好处是因为方便计算机比对和处理。
3、 然后把A,B两篇文章经过第二步的处理,再通过算法得到,两篇文章之间的相似度有多少,(估计这个对比算法很复杂,我也只能猜测。)会得到一个值,也就是类似上述1中提到的这个M的系数,根据标准,比如是高于0.5就表示是雷同,低于就表示是不雷同,如果雷同就利用搜索引擎爬行得到的其他的参数来决定谁是原创,或者是非原创。
我们如何应对搜索引擎的原创判定呢?
道高一尺,魔高一丈,互联网上永远没有绝对的矛与盾,在现在计算机还不可能真正实现人工智能,所以,原创和伪原创是一个暂且永恒的话题。做最强的伪原创可以如下三步走:
1、标题一定要改,并且要改得出神入化。中国的文字很复杂,同样的一个意思可以用很多的方法来体现,如果你真的不能改,那么我告诉你一个方法,就是把标题写长到20-25个字,你一定很特别的。
2、如果你有不错的文字功功底,你看了人家的文章之后,你就马上可以在腹稿里形成一定的框架,然后用你的语言进行描述,再加上图片等富文本进行修饰,那绝对是一篇难得的伪原创文章。
3、内容错乱。网上有很多垃圾站。为什么人家可以得到关键字的排名和流量,原因就是,采集到信息进行伪原创之后,就完全可以变得原创,这里面最重要的一个原因就是中国的汉字太复杂了。程序建立一个词库,通过匹配同义字情况,可以基本上实现语句的通顺,而减少大量的雷同。至于文章的内容究竟要表达作者什么真正的意象,计算机根本是读不懂的。
原创和伪原创是一对天使和魔鬼,你不必憎恨人家把你的文章进行伪原创,你最多谴责人家人品不好。所谓文章一大抄。真正的高手当然是高端。那就让伪原创来得更疯狂吧!
感谢 深圳车展 的投稿