http 协议的简介
http协议是一种超文本传输协议(hypertext transfer protocol),工作于网络应用层,自1990年起广泛应用于www 的全球信息服务,http协议的详细说明可以在网上查阅rfc2518、rfc2616等文档。
http 协议老的标准是http/1.0,目前最通用的标准是http/1.1。http/1.1是在http/1.0基础上的升级,增加了一些功能,全面兼容http/1.0。http/1.0不支持文件断点续传,如果服务器使用http/1.0,“网络蚂蚁”的任何多线程下载程序都只能按单线程下载;好在目前的web服务器绝大多数都采用了http/1.1,所以,下面将基于http/1.1进行介绍。
http协议的相关重要命令
基于http的浏览器浏览网页、下载文件时,工作原理类似客户机/服务器模式:浏览器向web服务器发出一个http请求行;web服务器在收到有效的请求后,返回一个状态行或多个响应标题、一个空白行和相关文档。根据这一工作原理,下载程序必须实现向服务器发送请求和获取服务器响应状态的功能。
1.向服务器发送 get请求命令
一个http请求由一个请求行、可选数目的请求标题、一个空白行,以及在post情况下的一些额外的数据组成。请求行的格式是:
请求方法 uri http/版本号
get 命令是浏览器常用的文档请求方法,在程序中间使用
get uri http/1.1
向web服务器发送请求行(行号3),java 代码如下:
....
clientsocket = new socket(host, port);//打开要下载文件服务器的socket
outstream = new printstream(clientsocket.getoutputstream());
....
outstream.println(“get”+uri+“ http/1.1”);
outstream.println(“host:”+host);
outstream.println(“accept:*/* ”);
outstream.println(“referer:”);
outstream.println();
....
注:第4行给出url中的主机名和端口号,第5行说明客户端接收所有mime类型,第7行方送一个空白行,表明请求行结束。
2.获取服务器响应状态
在发送http请求行以后,程序就可以读取服务器的响应状态了。http响应状态行包括:http 状态码和一些http响应标题。
1) http状态码
http状态码格式是 http/版本信息的数字表示。状态码例子如下:
http/1.0 200 ok // 表示服务器支持http/1.0 协议,成功
http/1.1 200 ok // 表示服务器支持http/1.1 协议,成功
http/1.0 404 not found // 表示服务器支持http/1.0 协议,访问文件没有找到
在程序中间,如果读到“http/1.1 200 ok”这样的字符串,表明欲下载文件存在、该服务器支持断点续传,可以使用多线程下载。如果读到“http/1.0 200 ok”这样的字符串,表明欲下载文件存在、但该服务器不支持断点续传,只可以使用单线程下载。
.....
while ((line=instream.readline()) != null) //将服务器响应状态读到line
........
if(line.substring(0,7).equals(“http/1.”) ) //判断是否支持http/1.1
{ if(line.charat(7)==‘0’)
{
system.out.println(“server use http/1.0”);
threadcount=1;
}
if(!(line.substring(9,12)).equals(“200”)) //判断请求是否成功
{ system.out.println(“error:”+line);
return false;
}
}
2) 读取重要的响应标题,获得要下载文档的文件长度
如果http状态码表明访问成功,服务器会回送一些标题行,我们最关注的是content-length 这一行,比如,如果服务器回送“content-length:1000”,表明请求文件的长度是1000字节,所以读取这一行信息,可以得到文件的长度信息:
....
if(line.substring(0,15).equals(“content-length:”) )
{ filelength=long.parselong(line.substring(15).trim());
system.out.println(“file length:” +filelength);
}
......
向服务器发送断点续传请求
如上所述,如果服务器支持http/1.1,再次向服务器发送get请求:
.....
outstream.println(“get ”+uri+“http/1.1 ”);
outstream.println(“host:”+host);
outstream.println(“accept:*/* ”);
outstream.println(“range:bytes=”+(fileblocklength)*thisthreadid+“-”);
outstream.println();
.....
第4行是关键,“range:bytes=”是http/1.1新增内容,http/1.0每次传送文件都是从文件头开始,即0字节处开始,“range:bytes=xxxx”表示要求服务器从文件xxxx字节处开始传送,这就是我们平时所说的断点续传!
分割文件,多线程下载
使用多线程编程技术,同时启动多个线程,根据线程个数,计算文件分割位置,向服务器发送几个不同的下载断点,同时接受数据并写入文件,就可以实现多线程下载了。
.....
raf=new randomaccessfile(file,“rw”);//以随机存取方式打开文件
.....
synchronized(raf) //按同步方式把各个线程得到数据分别写入文件
{ raf.seek(thisthreadid*(filelength/threadcount)+k*buflength);
raf.write(readbytes);
......
}
......
Java Asp PHP .Net XML C/C++ CGI VB Jsp J2ee J2se J2me EJB Servlet Tomcat Resin Struts Weblogic Eclipse ANT GUI JMS Web servise IDEA Webphere Hibernate Spring Jboss Applet Swing Socket Javamail Perl Ajax P2P 安全 模式 框架 测试 开源 游戏
Windows XP Windows 2000 Windows 2003 Windows Me Windows 9.x Linux UNIX 注册表 操作系统 服务器 应用服务器