选择显示字体大小

浅谈自动采集程序及入库

最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些asp,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.
原理及优点:通过xml中的xmlhttp组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中。其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的。与其单纯的asp小偷程序不同的是:它已经不再依赖其目标网站。
简单事例:

 1<%
 2'声明取得目标信息的函数,通过xml组件进行实现。
 3function geturl(url) 
 4set retrieval = createobject("microsoft.xmlhttp"
 5with retrieval 
 6.open "get", url, false
 7.send 
 8geturl = bytes2bstr(.responsebody)
 9'对取得信息进行验证,如果信息长度小于100则说明截取失败
10if len(.responsebody)<100 then
11response.write "获取远程文件 <a href="&url&" target=_blank>"&url&"</a> 失败。"
12response.end
13end if
14
15end with 
16set retrieval = nothing 
17end function
18' 二进制转字符串,否则会出现乱码的!
19function bytes2bstr(vin) 
20strreturn = "" 
21for i = 1 to lenb(vin) 
22thischarcode = ascb(midb(vin,i,1)) 
23if thischarcode < &h80 then 
24strreturn = strreturn & chr(thischarcode) 
25else 
26nextcharcode = ascb(midb(vin,i+1,1)) 
27strreturn = strreturn & chr(clng(thischarcode) * &h100 + cint(nextcharcode)) 
28= i + 1 
29end if 
30next 
31bytes2bstr = strreturn 
32end function 
33'声明截取的格式,从start开始截取,到last为结束
34function getkey(html,start,last)
35filearray=split(html,start)
36filearray2=split(filearray(1),last)
37getkey=filearray2(0)
38end function
39
40dim softid,url,html,title 
41
42'获取要取页面的id
43
44softid=request("id")
45
46  url="http://www3.skycn.com/soft/"&softid&".html" 
47
48  html = geturl(url) 
49
50'以截取天空软件的软件名为例子
51
52  title = getkey(html,"<font color='#004fc6' size='3'>","</font></b></td></tr>")
53
54'打开数据库,准备入库
55
56dim connstr,conn,rs,sql
57
58connstr="dbq="+server.mappath("db1.mdb")+";defaultdir=;driver={microsoft access driver (*.mdb)};"
59
60set conn=server.createobject("adodb.connection")
61
62conn.open connstr
63
64set rs=server.createobject("adodb.recordset")
65
66sql="select [列名] from [表名] where [列名]='"&title&"'"
67
68rs.open sql,conn,3,3
69
70if rs.eof and rs.bof then 
71
72rs("列名")=title
73
74rs.update 
75
76set rs=nothing
77
78end if
79
80set rs=nothing
81
82response.write"采集完毕!"
83
84%>


 


关键字 本文所属关键字

相关 与本文相关文章

分类 所有文章关键字导航

源码编程相关

Java   Asp   PHP   .Net   XML   C/C++   CGI   VB   Jsp   J2ee   J2se   J2me   EJB   Servlet   Tomcat   Resin   Struts   Weblogic   Eclipse   ANT   GUI   JMS   Web servise   IDEA   Webphere   Hibernate   Spring   Jboss   Applet   Swing   Socket   Javamail   Perl   Ajax   P2P   安全   模式   框架   测试   开源   游戏

SQL数据库相关

My-SQL   Ms-SQL   Access   DB2   Oracle   Sybase   SQLserver   索引   存储过程   加密   数据库   分页   视图  

手机无线相关

3G   Wap   CDMA   GRPS   GSM   IVR   彩信   短信   无线   增值业务

网页设计制作相关

HTML   CSS   网页配色   网页特效   Javascript   VBscript   Dreamweaver   Frontpage   JS   Web   网站设计

网站建设推广相关

建站经验   网站优化   网站排名   推广   Alexa

操作系统/服务器相关

Windows XP   Windows 2000   Windows 2003   Windows Me   Windows 9.x   Linux   UNIX   注册表   操作系统   服务器   应用服务器

图形图像多媒体相关

Photoshop   Fireworks   Flash   Coreldraw   Illustrator   Freehand   Photoimpact   多媒体   图形图像

标准 网站致力的规范

Valid CSS!

无不良内容,无不良广告,无恶意代码

Valid XHTML 1.0 Transitional

creativecommons