2006-10-16 作者:佚名 来源:艺术迷收集(fansart.com) 点击:1393
(一)原理
小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页。比如新闻小偷程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤。用小偷程序的优点有:无须维护网站,因为小偷程序中的数据来自其他网站,它将随着该网站的更新而更新;可以节省服务器资源,一般小偷程序就几个文件,所有网页内容都是来自其他网站。缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么小偷程序也要进行相应修改;速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些。
(二)事例 下面就XMLHTTP在ASP中的应用做个简单说明
个人认为小偷只是一个很通俗的说法,也给很多人带来了误解,认为小偷是什么不好的东西,其实不然,用数据采集程序来形容应该更准确些。
这里是我昨天刚完成的新浪娱乐入库小偷程序::http://www.saynew.com/news/Class/popjb/popjb02.html
在这里我根据该程序的制作简单介绍一下:
入库小偷的原理也很简单:就是用XMLHTTP远程读取网页的内容,然后根据需要,对读到的内容进行加工(过滤,替换,分类),最后得到自己需要的数据,加入到数据库中。
首先:我们先用XMLHTTP读取远程网页(我的另一片文章中有介绍)。
其次:对内容进行过滤,这个是比较关键的步骤,比如说,我要从远程网页上提取出所有url连接,我应该怎么做呢?
'这里用的是正则式
Set objRegExp = New Regexp '建立对象
objRegExp.IgnoreCase = True '大小写忽略
objRegExp.Global = True '全局为真
objRegExp.Pattern = "http://.+?"; '匹配字段
set mm=objRegExp.Execute(str) '执行查找,str为输入参数
For Each Match in mm '进入循环
Response.write(Match.Value) '输出url地址
next
然后,我们需要根据需要做一些替换功能,把不必要的数据替换掉,这个比较简单,用Replace函数即可。
最后,进行数据库操作,这个我想大家应该都会,就不做介绍了。
例子
<%
On Error Resume Next
Server.ScriptTimeOut=9999999
Function getHTTPPage(Path)
t = GetBody(Path)
getHTTPPage=BytesToBstr(t,"GB2312")
End function
Function GetBody(url)
on error resume next
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", url, False, "", ""
.Send
GetBody = .ResponseBody
End With
Set Retrieval = Nothing
End Function
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
Function Newstring(wstr,strng)
Newstring=Instr(lcase(wstr),lcase(strng))
if Newstring<=0 then Newstring=Len(wstr)
End Function
%>
<%
Dim wstr,str,url,start,over,city
city = Request.QueryString("id")
url="http://appnews.qq.com/cgi-bin/news_qq_search?city="&city&""
wstr=getHTTPPage(url)
start=Newstring(wstr,"<html>")
over=Newstring(wstr,"</HTML>")
body=mid(wstr,start,over-start)
body = replace(body,"skin1","天气预报 - 斯克网络")
body = replace(body,"http://appnews.qq.com/cgi-bin/news_qq_search?city","tianqi.asp?id")
response.write body
%>
小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页。比如新闻小偷程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤。用小偷程序的优点有:无须维护网站,因为小偷程序中的数据来自其他网站,它将随着该网站的更新而更新;可以节省服务器资源,一般小偷程序就几个文件,所有网页内容都是来自其他网站。缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么小偷程序也要进行相应修改;速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些。
(二)事例 下面就XMLHTTP在ASP中的应用做个简单说明
<%
'常用函数
'1、输入url目标网页地址,返回值getHTTPPage是目标网页的html代码
function getHTTPPage(url)
dim Http
set Http=server.createobject("MSXML2.XMLHTTP")
Http.open "GET",url,false
Http.send()
if Http.readystate<>4 then
exit function
end if
getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
set http=nothing
if err.number<>0 then err.Clear
end function
'2、转换乱玛,直接用xmlhttp调用有中文字符的网页得到的将是乱玛,可以通过adodb.stream组件进行转换
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
'下面试着调用http://www.3doing.com/earticle/的html内容
Dim Url,Html
Url="http://www.3doing.com/earticle/"
Html = getHTTPPage(Url)
Response.write Html
%>
'常用函数
'1、输入url目标网页地址,返回值getHTTPPage是目标网页的html代码
function getHTTPPage(url)
dim Http
set Http=server.createobject("MSXML2.XMLHTTP")
Http.open "GET",url,false
Http.send()
if Http.readystate<>4 then
exit function
end if
getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
set http=nothing
if err.number<>0 then err.Clear
end function
'2、转换乱玛,直接用xmlhttp调用有中文字符的网页得到的将是乱玛,可以通过adodb.stream组件进行转换
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
'下面试着调用http://www.3doing.com/earticle/的html内容
Dim Url,Html
Url="http://www.3doing.com/earticle/"
Html = getHTTPPage(Url)
Response.write Html
%>
个人认为小偷只是一个很通俗的说法,也给很多人带来了误解,认为小偷是什么不好的东西,其实不然,用数据采集程序来形容应该更准确些。
这里是我昨天刚完成的新浪娱乐入库小偷程序::http://www.saynew.com/news/Class/popjb/popjb02.html
在这里我根据该程序的制作简单介绍一下:
入库小偷的原理也很简单:就是用XMLHTTP远程读取网页的内容,然后根据需要,对读到的内容进行加工(过滤,替换,分类),最后得到自己需要的数据,加入到数据库中。
首先:我们先用XMLHTTP读取远程网页(我的另一片文章中有介绍)。
其次:对内容进行过滤,这个是比较关键的步骤,比如说,我要从远程网页上提取出所有url连接,我应该怎么做呢?
'这里用的是正则式
Set objRegExp = New Regexp '建立对象
objRegExp.IgnoreCase = True '大小写忽略
objRegExp.Global = True '全局为真
objRegExp.Pattern = "http://.+?"; '匹配字段
set mm=objRegExp.Execute(str) '执行查找,str为输入参数
For Each Match in mm '进入循环
Response.write(Match.Value) '输出url地址
next
然后,我们需要根据需要做一些替换功能,把不必要的数据替换掉,这个比较简单,用Replace函数即可。
最后,进行数据库操作,这个我想大家应该都会,就不做介绍了。
例子
<%
On Error Resume Next
Server.ScriptTimeOut=9999999
Function getHTTPPage(Path)
t = GetBody(Path)
getHTTPPage=BytesToBstr(t,"GB2312")
End function
Function GetBody(url)
on error resume next
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", url, False, "", ""
.Send
GetBody = .ResponseBody
End With
Set Retrieval = Nothing
End Function
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
Function Newstring(wstr,strng)
Newstring=Instr(lcase(wstr),lcase(strng))
if Newstring<=0 then Newstring=Len(wstr)
End Function
%>
<%
Dim wstr,str,url,start,over,city
city = Request.QueryString("id")
url="http://appnews.qq.com/cgi-bin/news_qq_search?city="&city&""
wstr=getHTTPPage(url)
start=Newstring(wstr,"<html>")
over=Newstring(wstr,"</HTML>")
body=mid(wstr,start,over-start)
body = replace(body,"skin1","天气预报 - 斯克网络")
body = replace(body,"http://appnews.qq.com/cgi-bin/news_qq_search?city","tianqi.asp?id")
response.write body
%>
google搜索:XML与ASP
声明:本站刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。如有疑问请与站长联系。
相关链接更多...
- 小偷&小偷入库&采集入库2006-10-16
- XMLHTTP 对象及其方法2006-10-16
- XML与ASP结合使用的小偷程序2006-10-16
- 数据分页方法新思路,速度非常快!2006-10-16
- 新浪新闻小偷2006-10-16
- 小偷程序原理和简单示例2006-10-16
- 小偷程序大揭秘2006-10-16
网友评论
目前没有评论!
全站精华
图文精彩
![韩国CG天后李素雅作品[图]--CG插画](http://www.fansart.com/uploadfile/200682543923453.jpg)
【2006-8-25 12:09:00】
韩国CG天后李素雅作品
韩国CG天后李素雅作品
![2006夏装搭配的美丽之最,美女+靓衣[图]--时装魅影](http://www.fansart.com/uploadfile/200672243703881.jpg)
【2006-7-22 11:21:40】
2006夏装搭配的美丽之最,美女+靓衣
2006夏装搭配的美丽之最,美女+靓衣
![韩国室内设计效果图欣赏[图]--环境艺术](http://www.fansart.com/uploadfile/200671964096361.jpg)
【2006-7-19 15:11:59】
韩国室内设计效果图欣赏
韩国室内设计效果图欣赏
![2006夏装搭配的美丽之最,美女+靓衣[图]--时装魅影](http://www.fansart.com/uploadfile/200671463233205.jpg)
【2006-7-14 17:09:53】
2006夏装搭配的美丽之最,美女+靓衣
2006夏装搭配的美丽之最,美女+靓衣
![瓷砖画册设计[图]--平面广告](http://www.fansart.com/uploadfile/200662167119201.gif)
【2006-6-21 18:36:45】
瓷砖画册设计
瓷砖画册设计
![韩国知名三维制作者李素雅cg作品欣赏[图]--CG插画](http://www.fansart.com/uploadfile/20066967597489.gif)
【2006-6-9 18:40:03】
韩国知名三维制作者李素雅cg作品欣赏
韩国知名三维制作者李素雅cg作品欣赏
![王开立的象素画-"华容点翠"系列1[图]--网页设计](http://www.fansart.com/uploadfile/20066967740609.gif)
【2006-6-8 17:40:50】
王开立的象素画-"华容点翠"系列1
王开立的象素画-"华容点翠"系列1

【2006-5-10 18:31:05】
风景摄影欣赏molnies 1
风景摄影欣赏molnies 1
![人像摄影:《炫影》(1)[图]--摄影艺术](http://www.fansart.com/uploadfile/20065966294533.gif)
【2006-5-9 18:18:49】
人像摄影:《炫影》(1)
人像摄影:《炫影》(1)

【2006-5-8 11:37:48】
韩国品牌YSB夏装 冷艳美人异国风情(3)
韩国品牌YSB夏装 冷艳美人异国风情(3)

【2006-5-8 9:52:42】
MIKE H的CG插画作品欣赏(1)
MIKE H的CG插画作品欣赏(1)
![经典样本设计欣赏(国人作品)1[图]--平面广告](http://www.fansart.com/uploadfile/200642664631465.jpg)
【2006-4-26 17:57:18】
经典样本设计欣赏(国人作品)1
经典样本设计欣赏(国人作品)1

【2006-4-26 14:27:13】
新锐CG插画 Monday to Friday
新锐CG插画 Monday to Friday

【2006-4-26 13:34:46】
Natascha Roeoesli的人物CG插画作品欣赏(1)
Natascha Roeoesli的人物CG插画作品欣赏(1)
![水木清华地产广告欣赏[图]--平面广告](http://www.fansart.com/uploadfile/200642634295921.jpg)
【2006-4-26 9:31:54】
水木清华地产广告欣赏
水木清华地产广告欣赏
![2006夏日流行时尚,创意无限街头华丽[图]--时装魅影](http://www.fansart.com/uploadfile/200642261089093.jpg)
【2006-4-22 16:46:51】
2006夏日流行时尚,创意无限街头华丽
2006夏日流行时尚,创意无限街头华丽
![万科西山庭院.格.沉.尊[图]--平面广告](http://www.fansart.com/uploadfile/200642133015939.jpg)
【2006-4-21 9:08:35】
万科西山庭院.格.沉.尊
万科西山庭院.格.沉.尊
![泊林花园推广故事绘本(2)[图]--CG插画](http://www.fansart.com/uploadfile/200642042197577.jpg)
【2006-4-20 11:43:23】
泊林花园推广故事绘本(2)
泊林花园推广故事绘本(2)
![泊林花园推广故事绘本(1)[图]--CG插画](http://www.fansart.com/uploadfile/200642041664949.jpg)
【2006-4-20 11:34:33】
泊林花园推广故事绘本(1)
泊林花园推广故事绘本(1)
![房地产广告设计-之水墨风格1[图]--平面广告](http://www.fansart.com/uploadfile/200641457308753.jpg)
【2006-4-14 15:56:06】
房地产广告设计-之水墨风格1
房地产广告设计-之水墨风格1
