Web服务常见的问题

要通过XML和HTTP解决显示应用程序逻辑或细节信息的问题并不困难。过去,我们使用诸如ASP、JAVA或Perl这样的语言编写一个简单的应用程序,此程序可以通过XML显示数据。例如,可以使用ASP编写简单的应用程序,接受查询字符串的值,并生成代表具体数据库表的XML返回文档。应用程序可以简单地调用终点(比如,显示数据库表的URL),并从文档中获取、分析和派生值。

但是这种设计方式是与其他因素紧密联系的。客户机希望得到高度结构化的XML文档,如果提供这种文档的应用程序发生了变化,则客户机实现就很有可能中断。在大多数情况下,可以通过使用公共XML模式解决这个问题,但是为不同的应用程序分别维护和管理不同的模式国语麻烦。而且,XML文档还依赖于服务器的实现方式。

seo常见问题之六:收录

网站上线一个月,百度为何只抓取首页?
问题补充:网站离上线到现在已经一个月左右了,百度只抓取首页,也不见放出来,这是为何?
官方回复:建议参考《百度搜索引擎优化指南2.0》中“子域名与目录选择”部分。
 
为什么蜘蛛每天爬n次,而收录网页只有一两篇?
官方回答:网页抓取和建立索引是不等同的。这些网页会经过一些必要的chk过程之后才会被建入索引。
 
页面收录到一定值后,收录量就增加很缓慢怎么办?
问题补充1:比如:人人日志,上千万的数据,用了一年多的时间目前收录了几百万,且大部分内容都是很高质量的,但收录量到一个值之后,就没有增加,这个是什么原因?
问题补充2:姓名类的产品,通过sitemap提交之后,上千万的数据还是收录了700w+,会不会被认为这些页面是相似的页面。
 
官方回复:
回复1:人人之前有一些页面比较封闭,这两年才开始开放,但是spider根据之前的日志分析,对人人网的改动反应偏慢,所以推出了sitemap,希望大家通过sitemap将大家想进行索引的数据进行主动推送。
回复2:互联网资源很多,相似的产品很多,由于资源有限,会尽可能优先选取有价值的页面去抓取。一次提交的页面量很大,搜索引擎需要一定的时间去收录,搜索引擎可能会每天设置一定的压力上线去抓取,避免对站长产生太大的压力,可以尝试使用百度站长平台的抓取压力调节工具调试自己网站的抓取压力,增加压力,我们这边可以适当提高自己的压力加快抓取。

seo常见问题之五:抓取(12-16)

百度是否跟踪JavaScript链接?
官方回复:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。
 
百度是否能抓取CSS样式表并识别分析?
官方回复:百度是能够抓取并分析CSS的。
 
对较多图片和flash的页面,搜索引擎会如何处理?
问题补充:目前很多页面可能会没有很多的文字,比较多图片和flash,对没有很多文字的页面,搜索引擎能很好的将这个页面中的资源识别出来吗?
官方回复:目前在推一个工具,将spider抓取日志展示出,去看下是否符合站长的抓取意愿,且对某些js较多的网站,假设目前收录不好,可先尽量减少js的使用。
 
百度蜘蛛现在可以抓取HTML5的标签吗?
官方回复:百度可以解析HTML5的标签。
 
百度蜘蛛如何爬取不存在的路径?
官方回复:Baiduspider只抓取能从互联网上找到的url,如果Baiduspider大量抓取你网站上不存在的url,可能有两个原因:
1) 内链:你网站内有部分网页指向其他网页的url格式不正确。
2) 外链:互联网上有其他网站指向了你网站内不存在的网页。另外,Baiduspider抓取到不存在的网页,服务器应该返回404错误。

seo常见问题之四:蜘蛛(9-11)

百度蜘蛛的IP,是否有降权蜘蛛IP,考核蜘蛛IP,高权重蜘蛛IP这么一说?
问题补充:例如123.125.71.* 都说这个是降权蜘蛛;220.181.108.* 这个是高权重蜘蛛
官方回复:没有
 
如何判断是否冒充Baiduspider的抓取?
问题补充:220.181.51.* 这个ip段是百度蜘蛛吗?
官方回复:如何判断是否冒充Baiduspider的抓取?百度帮助中有详细的描述http://www.baidu.com/search/spider.html
 
服务器加了硬防之后会不会影响蜘蛛抓取?如果有影响,那么该如何解决为好?
官方回复:不会,只要是不封禁百度的抓取,以及不写robots,就不会影响

seo常见问题之三:运维

4. 关于使用多域名实现资源并行下载对网站有没有影响?
问题补充:很多网站为了提高网站访问速度,网站对静态资源文件使用了独立的无cookie域名。虽然提升了网站的性能,但同时也在网站页面上产生了大量的不属于该网站域名的资源调用链接。例如:abc.com网站将abcimg.com域名做为其图片资源调用的域名来使用,这时在abc.com的页面上调用的图片HTML代码为<imgsrc=”http://pic1.abcimg.com/123.jpg”>请问Lee对于这类的URL是如何判断的呢?是否会将其做为该页面的一个出站链接来判断?如果页面上这类的链接过多,是否会对网站的SEO效果产生影响呢?
官方回答:这是一种非常正当的做法,从网页搜索的角度来看,没有任何直接的影响,和调用本站的资源是一样的。

«1»