百度给网站排名的规则是什么
对百度收录有益的几条内部因素1、URL中出现关键词url链接中包含页面的关键字可以使搜索引擎增加对链接页面以及本页面的关注度,有利于在百度的收录;2、网页Title中出现关键词毫无疑问,所有的SEO们都认可Title中出现关键词对于网页排名的好处;3、常规内容中出现关键词适当的关键词密度有利于页面在搜索引擎索引中获得好的名次。4、在页面的第一段中出现关键词搜索引擎似乎特别关注页面的开头以及页面的底部,似乎在文章开头或者结尾出现关键词有强调关键词的作用,尤其是在文章的第一段,似乎搜索引擎还在沿用截取的方法获得文章的描述,如果页面没有设定描述的话;5、在页面的最后一段中出现关键词页面的最后一段明显有助于搜索引擎的索引spider索引,毕竟大部分的站点友情链接是在那个地方,况且copyright范围也能够加深搜索引擎的影响;6、Heading标签比如h1,h2中出现关键词不用多余的解释,h1、h2标签似乎专为搜索引擎设计;7、站内的链接中出现关键词和站外的链接中出现关键词没有任何区别。8、导向相关内容的导出链接不要怀疑,页面中的任何链接都会得到搜索引擎的关注;9、导出链接中出现关键词带链接的关键词由于链接的存在而被加强10、图片文件名中出现关键词文件名是浏览网址的一部分,这似乎和域名中包含关键词有异曲同工之妙;11、Alt标签中出现关键词一般情况下图片链接对于搜索引擎的友好程度比不上文字链接,所以html语言才设计了Alt标签;12、comment中出现关键词虽然作用在不断的减低,但始终是搜索引擎排名的依据之一;13、合理的频率更新内容似乎没有什么合理的说法,搜索引擎喜欢更新更快的网站,但是请不要更新的速度剧烈的波动;14、内容对搜索引擎的展示位置这一点要说的是,请把内容的主体部分放在页面的靠前位置15、网站结构循环PR,而非散发PR不要仅仅关注pr,这么做同样有助于提高百度的网页权重16、关键词进行适当的修饰(加粗、斜体、strong、下划线等)这些方法无疑会吸引搜索引擎的目光。对百度收录有益的几条外部因素1、大量的导入链接大量的导入链接是对任何搜索引擎都友好的一种做法;2、从高PR值得网页获得导入链接这一点不用细说,获得pr值得传递,同样会获得百度权重的传递;3、从相关内容网站获得导入链接一定要是相关内容的网站获得导入链接,否则被k了是无法挽救的;4、导入链接指向的网页有具体内容自然是对搜索引擎及用户都友好的网页才会最终在搜索引擎获得好的排名;5、锚文字中有关键词不用多说了,这绝对是最常规,认同度最广泛的结论6、锚文字周围有相关词有助于机器识别链接的相关性,特别是现在搜索引擎反对链接出售的关键性时期;7、锚文字存在于文章或句子中重复、强调关键文字;8、导入链接的时间长度,一般导入链接的存在时间有3-6个月当你获得的导入链接很快都被删除,是得不到pr以及百度网页权重的传递的,尽量使它们保留的时间长一些更有好处;9、单向链接的价值高于交换链接链接只进不出好过链接只出不进,无论如何,一个单向的导入链接更能够传递pr和权重10、导入链接的页面的导出链接小于100个,流出链接越少越好导入链接的页面的导出链接越少,您能够获得的pr传递的比例越高,被搜索引擎抓取的比例自然也越高;11、链接来自不同IP不同ip的链接,更能够说明你文章页面内容的权威度;12、合理的导入链接增长频率影响百度收录,甚至会导致百度k站的原因1、关键词堆积:在标题中堆积与正文无关的关键词,强调了标题和网站内容的相互呼应,如果标题中涉及到某一关键词,而实际网站内容中与该关键词无关的话,那么可能会百度删除.这一条款反映了百度的严格.但值得思考的是,百度是用什么方法去判断网站的内容与标题关键词的相关性呢?2、在同一个页面上,不要有过多链接。在那些站点地图类型的页面上,请把重要的内容给出链接,而不是所有细枝末节。链接太多,也可能会导致无法被百度收录.3、所有的锚文字都相同,如果真哥哥网页的锚文字都相同,搜索引擎是不是会感觉烦呢?尽管他不是人。4、使用CSS或背景色隐藏内容,这是十恶不赦的大恶,如果你不希望自己的站被k掉,赶紧去掉这种不明智的做法。5、如果您的站点做了很多针对百度的优化,但却给用户带来大量负面体验,那么,您的站点最终可能还是会受到百度的冷落。如果您的站点中的网页,做了很多针对搜索引擎而非用户的处理,使得:用户从搜索结果中看到的内容与页面实际内容完全不同,或者站点质量与站点在搜索结果中的排名极不相称,从而导致用户产生受欺骗感觉,那么,您的网站就有可能被百度丢弃。6、使用JavaScript跳转这一条不需多评论,主要针对一些作弊行为采用的跳转.大多数搜索引擎都会有类似的条款。7、相同ip之下的网页直接进行大量交换链接合理的链接无所谓,关键是不要简单的交换链接,万一百度以为你是在忽悠他的爬虫,嘿嘿,后果不用说你也知道。8、桥页和Cloaking,诱导搜索引擎的爬虫,这是十恶不赦的大恶9、成人内容,违禁药品,赌博相关内容百度这家伙反感,尽量少掺活,就算收录了也一定会被人工删除,只是时间的问题;10、内容重复对于已经被重复了千百遍的内容,百度可能会不予收录。如果您的站点上的网页,大量都是复制自互联网上的高度重复性的内容,那么,您的站点也有可能被百度丢弃。11、连向作弊的网站与一些垃圾站点做友情链接,很可能会使您的网站受到负面影响。因此,当有人很热情的要求您为他的站点提供友情链接时,请审视以下两点:a,对方的站点在他那个领域是否是高质量的?站长间所谓的流量以及排名,很多都是用欺骗手段获取的,无法保持长久。b,对方要求的链接名称是否和对方网站地位相称?用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称,很可能会使您的网站受到负面影响。12、站内的绝大部分网页有相同的网页title每个网页有特定的title是对搜索引擎起码的尊重,如果一个班的学生都叫王小丫,老师如何点名呢?又如何排名呢?13、加入到Link交换类网站,交换链接已经广泛的被搜索引擎反感;14、使用被惩罚过的域名,百度没有声称会对惩罚过的域名重新收录;15、网站建立在被惩罚的IP上,百度没有声称会对惩罚过的ip重新抓取;16、非法内容,如果您的网站内容有不符合中国法律的地方,则无法被百度收录17、如果您的站点页面结构复杂,则可能无法被百度收录,这一点我始终是不大明白,究竟百度的复杂是什么程度上的复杂呢?不懂!尽量避免的问题1、地址中存在动态变量地址中存在动态变量直接影响搜索引擎的抓取和收录,如果会,为什么不把这些动态变量变成静态的链接呢?2、单一图片和Flash的网站这个不好收录,地球人都知道3、用Javascript制作的网站导航条或目录怪只怪spider不认识Javascript代码,而且也看不到你的效果4、用图片做网站导航而不加ALT标签5、〈head〉〈/head〉之间有太多的代码这个部分的代码太多,正文部分关键字的密度会被动减低;6、存在太多与网站主题无关的内容会被搜索引擎人工整理收录的时候删掉,如果你有,赶紧删掉吧!7、导入链接中购买链接占多数不用说了,百度和Google都在反对链接买卖的风口上;8、和作弊的网站在同一服务器上要是ip被搜索引擎k,那死定了。
搜索引擎中网页排序算法最有效的是哪一种
2.1基于词频统计——词位置加权的搜索引擎
利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。
1)词频统计
文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF(Term Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。IDF(Inverse Document Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大,此关键词的权重越小,反之亦然。当关键词为常用词时,其权重极小,从而解决词频统计的缺陷。
2)词位置加权
在搜索引擎中,主要针对网页进行词位置加权。所以,页面版式信息的分析至关重要。通过对检索关键词在Web页面中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗等等。同时,锚文本的信息也是非常重要的,它一般能精确的描述所指向的页面的内容。
2.2基于链接分析排序的第二代搜索引擎
链接分析排序的思想起源于文献引文索引机制,即论文被引用的次数越多或被越权威的论文引用,其论文就越有价值。链接分析排序的思路与其相似,网页被别的网页引用的次数越多或被越权威的网页引用,其价值就越大。被别的网页引用的次数越多,说明该网页越受欢迎,被越权威的网页引用,说明该网页质量越高。链接分析排序算法大体可以分为以下几类:基于随机漫游模型的,比如PageRank和Repution算法;基于概率模型的,如SALSA、PHITS;基于Hub和Authority相互加强模型的,如HITS及其变种;基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。本文主要介绍以下几种经典排序算法:
1)PageRank算法
PageRank算法由斯坦福大学博士研究生Sergey Brin和Lwraence Page等提出的。PageRank算法是Google搜索引擎的核心排序算法,是Google成为全球最成功的搜索引擎的重要因素之一,同时开启了链接分析研究的热潮。
PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其计算公式为:
PR(A):页面A的PageRank值;
d:阻尼系数,由于某些页面没有入链接或者出链接,无法计算PageRank值,为避免这个问题(即LinkSink问题),而提出的。阻尼系数常指定为0.85。
R(Pi):页面Pi的PageRank值;
C(Pi):页面链出的链接数量;
PageRank值的计算初始值相同,为了不忽视被重要网页链接的网页也是重要的这一重要因素,需要反复迭代运算,据张映海撰文的计算结果,需要进行10次以上的迭代后链接评价值趋于稳定,如此经过多次迭代,系统的PR值达到收敛。
PageRank是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样,减少了用户检索时需要的排序时间,极大地降低了查询响应时间。但是PageRank存在两个缺陷:首先PageRank算法严重歧视新加入的网页,因为新的网页的出链接和入链接通常都很少,PageRank值非常低。另外PageRank算法仅仅依靠外部链接数量和重要度来进行排名,而忽略了页面的主题相关性,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。为此,各种主题相关算法纷纷涌现,其中以以下几种算法最为典型。
2)Topic-Sensitive PageRank算法
由于最初PageRank算法中是没有考虑主题相关因素的,斯坦福大学计算机科学系Taher Haveli-wala提出了一种主题敏感(Topic-Sensitive)的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的,但并不表示它在其它领域也是重要的。
网页A链接网页B,可以看作网页A对网页B的评分,如果网页A与网页B属于相同主题,则可认为A对B的评分更可靠。因为A与B可形象的看作是同行,同行对同行的了解往往比不是同行的要多,所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。
3)HillTop算法
HillTop是Google的一个工程师Bharat在2001年获得的专利。HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。HillTop算法认为具有相同主题的相关文档链接对于搜索者会有更大的价值。在Hilltop中仅考虑那些用于引导人们浏览资源的专家页面(Export Sources)。Hilltop在收到一个查询请求时,首先根据查询的主题计算出一列相关性最强的专家页面,然后根据指向目标页面的非从属专家页面的数量和相关性来对目标页面进行排序。
HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法,避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。
但是,专家页面的搜索和确定对算法起关键作用,专家页面的质量对算法的准确性起着决定性作用,也就忽略了大多数非专家页面的影响。专家页面在互联网中占的比例非常低(1.79%),无法代表互联网全部网页,所以HillTop存在一定的局限性。同时,不同于PageRank算法,HillTop算法的运算是在线运行的,对系统的响应时间产生极大的压力。
4)HITS
HITS(Hyperlink Induced Topic Search)算法是Kleinberg在1998年提出的,是基于超链接分析排序算法中另一个最著名的算法之一。该算法按照超链接的方向,将网页分成两种类型的页面:Authority页面和Hub页面。Authority页面又称权威页面,是指与某个查询关键词和组合最相近的页面,Hub页面又称目录页,该页面的内容主要是大量指向Authority页面的链接,它的主要功能就是把这些Authority页面联合在一起。对于Authority页面P,当指向P的Hub页面越多,质量越高,P的Authority值就越大;而对于Hub页面H,当H指向的Authority的页面越多,Authority页面质量越高,H的Hub值就越大。对整个Web集合而言,Authority和Hub是相互依赖、相互促进,相互加强的关系。Authority和Hub之间相互优化的关系,即为HITS算法的基础。
HITS基本思想是:算法根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
实验数据表明,HITS的排名准确性要比PageRank高,HITS算法的设计符合网络用户评价网络资源质量的普遍标准,因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。
但却存在以下缺陷:首先,HITS算法只计算主特征向量,处理不好主题漂移问题;其次,进行窄主题查询时,可能产生主题泛化问题;第三,HITS算法可以说一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。尽管有人尝试通过算法改进和专门设立链接结构计算服务器(Connectivity Server)等操作,可以实现一定程度的在线实时计算,但其计算代价仍然是不可接受的。
2.3基于智能化排序的第三代搜索引擎
排序算法在搜索引擎中具有特别重要的地位,目前许多搜索引擎都在进一步研究新的排序方法,来提升用户的满意度。但目前第二代搜索引擎有着两个不足之处,在此背景下,基于智能化排序的第三代搜索引擎也就应运而生。
1)相关性问题
相关性是指检索词和页面的相关程度。由于语言复杂,仅仅通过链接分析及网页的表面特征来判断检索词与页面的相关性是片面的。例如:检索“稻瘟病”,有网页是介绍水稻病虫害信息的,但文中没有“稻瘟病”这个词,搜索引擎根本无法检索到。正是以上原因,造成大量的搜索引擎作弊现象无法解决。解决相关性的的方法应该是增加语意理解,分析检索关键词与网页的相关程度,相关性分析越精准,用户的搜索效果就会越好。同时,相关性低的网页可以剔除,有效地防止搜索引擎作弊现象。检索关键词和网页的相关性是在线运行的,会给系统相应时间很大的压力,可以采用分布式体系结构可以提高系统规模和性能。
2)搜索结果的单一化问题
在搜索引擎上,任何人搜索同一个词的结果都是一样。这并不能满足用户的需求。不同的用户对检索的结果要求是不一样的。例如:普通的农民检索“稻瘟病”,只是想得到稻瘟病的相关信息以及防治方法,但农业专家或科技工作者可能会想得到稻瘟病相关的论文。
解决搜索结果单一的方法是提供个性化服务,实现智能搜索。通过Web数据挖掘,建立用户模型(如用户背景、兴趣、行为、风格),提供个性化服务。
百度排名规则
我们做SEO的目的就是要将网站的排名做的最靠前,以此来获取到更多免费的流量。这就需要我们熟知搜索引擎的排名规则是什么,只有搞懂了这个问题,网站排名才能做上去。一、百度排名规则1、百度和淘宝的区别在了解百度排名规则之前,我们来看看百度和淘宝之间的区别,简单来说,百度满足的是问答需求,淘宝满足的是产品购买的需求。为什么要做百度排名呢?用户有问题的时候,一般都会到百度去搜索寻找答案,而网站需要做的是满足用户的搜索答案。比如说,用户想要知道2016年T恤那个品牌好的时候,用户会用百度去搜索,而不是使用淘宝,因为百度满足的是用户的问答需求,而在百度下拉框出现的词语也是满足用户问答方面的需求的。这也就告诉我们,只有不断满足用户去百度的搜索需求,才能持续排在这个行业的最前面,只有我们顺应用户需求,才能在百度中有好的排名,只有你去满足用户需求,成为用户最关心、最好的搜索答案的时候,才能保证页面排上来,这和你做多少词,和你做多少内容,和你怎样写板块、写标题完全没有关系。淘宝是以用户需求的产品为主的,要买衣服一般都会去淘宝购买,因为淘宝满足的是购物的需求,而在淘宝的搜索下拉框出现的也会是产品。用户去淘宝就是为了购买产品的,产品就是用户在淘宝的需求。因此在百度和淘宝搜索同样的一个关键词,所对应的下拉框肯定是不一样的。百度排名的规则总结起来就是:满足每一个去百度搜索关键词的用户,让他们能够找到最佳答案,这就是百度排名的一个规则。那么百度会把什么样的页面排上来呢?2、排名的核心点(1)搜索当前关键词用户最关心的话题排上来,只有这样才算是满足用户需求的。排在前20的网站就会有用户投票,你的用户点击量越高,越容易让用户停留下来,排名就越容易上去。但是这个点击必须是真实的点击,因为作弊是很难模仿真实用户的轨迹,用户一般先看的是首页前三,当找不到合适的答案的时候,才会翻到第二页来看,若靠作弊的方式是行不通的,试想一下,排在首页的才获得了200的流量,排在第二页反而获得了1000多流量,如此就很容易被识别。除此之外,网站还需要做一些基础方面的优化。(2)要学会依据用户的需求来定制关键词排名方案。只有这样页面才能更加满足用户,才能更加容易排上来。用户群体不同的时候要采取不同的方式。二、百度排名核心之用户需求1、用户需求不同,优化的方法就不同。2、我的客户是谁。3、我的客户会怎样去搜索关键词。4、如何依据行业的竞争环境来定制关键词排名策略。