seo常见问题之五:抓取(12-16)

百度是否跟踪JavaScript链接?
官方回复:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。
 
百度是否能抓取CSS样式表并识别分析?
官方回复:百度是能够抓取并分析CSS的。
 
对较多图片和flash的页面,搜索引擎会如何处理?
问题补充:目前很多页面可能会没有很多的文字,比较多图片和flash,对没有很多文字的页面,搜索引擎能很好的将这个页面中的资源识别出来吗?
官方回复:目前在推一个工具,将spider抓取日志展示出,去看下是否符合站长的抓取意愿,且对某些js较多的网站,假设目前收录不好,可先尽量减少js的使用。
 
百度蜘蛛现在可以抓取HTML5的标签吗?
官方回复:百度可以解析HTML5的标签。
 
百度蜘蛛如何爬取不存在的路径?
官方回复:Baiduspider只抓取能从互联网上找到的url,如果Baiduspider大量抓取你网站上不存在的url,可能有两个原因:
1) 内链:你网站内有部分网页指向其他网页的url格式不正确。
2) 外链:互联网上有其他网站指向了你网站内不存在的网页。另外,Baiduspider抓取到不存在的网页,服务器应该返回404错误。

seo常见问题之四:蜘蛛(9-11)

百度蜘蛛的IP,是否有降权蜘蛛IP,考核蜘蛛IP,高权重蜘蛛IP这么一说?
问题补充:例如123.125.71.* 都说这个是降权蜘蛛;220.181.108.* 这个是高权重蜘蛛
官方回复:没有
 
如何判断是否冒充Baiduspider的抓取?
问题补充:220.181.51.* 这个ip段是百度蜘蛛吗?
官方回复:如何判断是否冒充Baiduspider的抓取?百度帮助中有详细的描述http://www.baidu.com/search/spider.html
 
服务器加了硬防之后会不会影响蜘蛛抓取?如果有影响,那么该如何解决为好?
官方回复:不会,只要是不封禁百度的抓取,以及不写robots,就不会影响

网站被黑导致K站该如何处理

问题补充:网站在9.19被恶意攻击,被加入了大量不良信息,之后被百度收录。网站工作人员及时清理了那些信息,但是百度在10.17把本站给K了。本站为工业类正规站,并且无任何作弊记录。该如何处理?
官方回复:黑客恶意攻击网站以后,会在网站中插入大量的作弊内容。建议尽快清理黑客插入的不良信息并在Baiduspider抓取这些内容时返回404代码,这样我们才能迅速的发现网站已经恢复正常。

seo常见问题之三:运维

4. 关于使用多域名实现资源并行下载对网站有没有影响?
问题补充:很多网站为了提高网站访问速度,网站对静态资源文件使用了独立的无cookie域名。虽然提升了网站的性能,但同时也在网站页面上产生了大量的不属于该网站域名的资源调用链接。例如:abc.com网站将abcimg.com域名做为其图片资源调用的域名来使用,这时在abc.com的页面上调用的图片HTML代码为<imgsrc=”http://pic1.abcimg.com/123.jpg”>请问Lee对于这类的URL是如何判断的呢?是否会将其做为该页面的一个出站链接来判断?如果页面上这类的链接过多,是否会对网站的SEO效果产生影响呢?
官方回答:这是一种非常正当的做法,从网页搜索的角度来看,没有任何直接的影响,和调用本站的资源是一样的。

怎么看关键词优化效果

 一般情况下,我们看一个站点关键词优化得怎么样,主要通过以下几点:
 
站点的规模,以及由此决定的词关键定位。
关键词在站点的分布情况。
关键词扩展的挖掘和利用。
首页、目录页、内容页的标题标签是否书写规范。
Description Tag-描述标签、关键词标签、ALT-代替属性 等是否合理利用。
关键词密度以及关键词在网页上的位置。
关键词的字体、特殊性。
是否存在关键词叠加、隐藏文本和链接等作弊行为。

如何增加导入链接?

如何增加导入链接?
 
向目录网站(如DMOZ-开放目录)提交你的网址。
与相关、相似内容的网站交换友情链接。
书写“宣传软文”,并发表在合适的站点上。软文上带着站点的链接。
站点上的文章写明版权声明。
高质量的文章,将获得转载和导入链接。
在人气旺的论坛上发表文章和留言,并带着签名指向你的站点。
在博客上留言,名称指向你的站点。(适当)
参与百度知道、百度贴吧、Google论坛等,留着站点链接。
SEO“公理”:增加导入链接,可以让网站排名提高!

如何解决页面相似度过高的问题?

页面相似度过高怎么解决呢?
1,获取词相关的内容集合,可以把id聚合在列表,进行倒排序。
2.对id集合进行去重,或相似度高的去重处理。
3. 根据剩下的id集合,进行关键词的筛选,取出合适的做
 
剩下的一些相似度高的词或重复结果的词如果要做,就看id集合的数量了,假设结果有100个,每页显示20个 你可以把其中5个词只显示1页的数据,确保不重复。当然如果进行适当的混淆,还可以再多点的词。
如果有分页,nofollow掉分页。
4、增加页面的评论功能
5,增加随机文章页面
6,TAG标签
7,“热门文章”、“本周热门文章”、“统计热门排行”等 

对于搜索引擎来说什么样的页面是高质量的页面?

对于SEO人员强调的高质量的页面,那么什么样的页面才是高质量的页面呢?
一、内容互异性
包括与本站和其他网站页面的互异性;
 
二、内容丰富性
1、文字丰富:字数不要太少;
2、文档类型丰富:文章图文并茂,配有视频等。
 
三、用户表现
1、停留时间长;
2、跳出率低。
 
四、服务器表现
页面打开速度快
 
五,互动性比较强
1.回复比较多
2.被真实用户浏览次数多
3.被真实用户推荐转载次数多
4.真实用户评论次数多
5.真实用户重复浏览
6.真实用户点击页面内容多  

如何把动态链接静态化?

这是SEO过程中最经常碰到的问题,也是必须解决的问题。因为搜索引擎喜欢静态页面。从Web服务器的角度,这个问题转变为:如何将静态化的文件名称转化成参数。
 
需要两步来处理:
 
1、把网页上带链接的地方,都换上新的静态化链接。搜索引擎和浏览器将通过该链接来发生请求。(有些人做修改不是在网页上,而是进行动态链接向静态链接的转向,这是严重错误的)
 
2、在httpd.conf或.htaccess中使用RewriteRule:
 
RewriteRule "^/dir/ ([^./]*) \.html" "/dir/script.cgi?doc=$1"  [PT]
 
[PT]标记告诉Apache执行后续的所有操作。
 
通过这个功能,使动态页面以静态链接的形式展示给搜索引擎,从而达到URL优化的目的。如SEO十万个为什么整站都是通过该方式实现。 

同时做好百度优化和Google优化

 很多SEOer在做搜索引擎优化时,都不得其解,要么百度的排名上去了,google的排名上不去,要么就是google的排名上去了,百度的排名又掉了,那么有没有办法把排名同时做上去呢,答案是肯定的,首先我们来看一下google与百度的一些区别,
google看重链接,相对轻标题等等一些内部因素,而百度相反,所以想在google作弊很容易被发现,百度则通过几个简单的“黑色手段”达到目的。这个缺点也注定百度采取人工干预的手段,其实从这方面,我还是比较同情百度的!
google很看重门当户对,也许是西方人自身的价值取向,google还比较看重官方、公益、科研等等有益公共事业的网站,它认为非商业网站对社会贡献比较大,百度则不同,它认为网站类型就网站本身而言是一样的,我给它简单归纳与统一公平的原则下。
google注重时间观念,它认为经营时间越长的网站信誉就会更好,甚至对于少数网站,它竟然无条件的去相信,这在我们“聪明的中国人”看来是有点不可思议,所以有不少人(大部分为SEOER)提出抗议,百度则不同,有点“王侯将相宁有种乎”的味道,所以在google排名不好的网站,也许百度会青睐,但是如果百度的排名也不理想的网站,在google面前更抬不起头来。
google比较执着,专一,google认为互联网是人们必不可少的工具与生活方式,对于新事物接受程度有点笨拙,当然,也和它在全球战略有关,google中国员工也埋怨:我们在工作的一些方面老是需要总部的同意……。百度对新事物接受程度非常快,而且吸收自我利用,在搜索引擎方面,排名的经常更新,从另一方面使得更多的信息传达到用户。所以百度认为:互联网在中国现阶段就是娱乐的工具,调节生活的味精(最起码是现阶段是这样认为的)。google的失败在很大程度上没有看到这一事实,毕竟中国不是美国……
在我看来google象个学者,不问时世,不看自己的股票,只专注于自己的研究,“google的成功源于google的性格,在中国失败亦然”,百度是个纯粹的商人形象,不择手段、计较得失,开拓市场又准又狠,甚至违反自己搜索引擎的公平原则,把自己的产品,如:百度知道、百度贴吧、空间等等排名非正常性的提高,普通人不知道,我为之汗颜!
看待百度与google的不同,只要认识2种人就OK了,商人和学者。天天搞算法与优化,往往让我们忘记了对象是谁……是搜索引擎?NO!是google和百度。它们绝不同!
不难看出,做优化前,可以先针对百度做排名,然后再来做google的排名,相对来说比较容易了。