在网上浏览过一些页面,心细的朋友会发现一些奇怪的东西。
像百度文库这种东西,页面明明是一个PDF文件,居然里面的内容可以被搜索引擎收录,并且一字不差。仔细一想,蜘蛛只喜欢文字,怎么能得到pdf中的文字,有些不解。
最近工作中,我遇到一个函数,用来检测来访者是用户还是蜘蛛的函数,终于解决了这个问题。原来页面打开的时候,判断了是客户还是蜘蛛,分别显示不同的页面了。客户显示的是pdf文件,而蜘蛛显示的是文字页面。这个函数如下:
{page} '检查当前用户是否是蜘蛛人
Function check(user_agent)
allow_agent=split(""Baiduspider,Scooter,ia_archiver,Googlebot,FAST-WebCrawler,MSNBOT,Slurp"","","")
check_agent=false
For agenti=lbound(allow_agent) to ubound(allow_agent)
If instr(user_agent,allow_agent(agenti))>0 then
check_agent=true
exit for
end if
Next
check=check_agent
End function
user_agent=Request.ServerVariables(""HTTP_USER_AGENT"")
'check(user_agent)=true则判定访问为蜘蛛人
if check(user_agent)=true then
response.write ""蜘蛛人""
else
response.write ""客户""
end if
{page} 有了这个函数,我现在为了防止信息被采集,让用户访问的时候,前台用图片展示;当蜘蛛访问的时候,我使用文字显示,有利于信息被收录。
原创文章,转载请注明来自www.aspprogram.cn,谢谢