首页 > Web开发 > 详细

简单获取网页源代码

时间:2015-11-16 06:11:48      阅读:297      评论:0      收藏:0      [点我收藏+]
#include <stdio.h>
#include <winsock2.h>
#include <string.h>
#pragma comment(lib, "ws2_32.lib")

void geturl(char *url)
{
    WSADATA WSAData={0};
    SOCKET sockfd;
    struct sockaddr_in addr;
    struct hostent *pURL;
    char myurl[BUFSIZ];
    char *pHost = 0, *pGET = 0;
    char host[BUFSIZ], GET[BUFSIZ];
    char header[BUFSIZ] = "";
    static char text[BUFSIZ];
    int i;

/*
 * windows下使用socket必须用WSAStartup初始化,否则不能调用
 */
if(WSAStartup(MAKEWORD(2,2), &WSAData))
{
printf("WSA failed/n");
return;
}

/*
 * 分离url中的主机地址和相对路径
 */
strcpy(myurl, url);
for (pHost = myurl; *pHost != ‘/‘ && *pHost != ‘\0‘; ++pHost);

if ( (int)(pHost - myurl) == strlen(myurl) )
strcpy(GET, "/");
else
strcpy(GET, pHost);

*pHost = ‘\0‘;
strcpy(host, myurl);
printf("%s\n%s\n", host, GET);

/*
 * 设定socket参数,并未真正初始化
 */
sockfd = socket(PF_INET, SOCK_STREAM, IPPROTO_TCP);
pURL = gethostbyname(host);
addr.sin_family = AF_INET;
addr.sin_addr.s_addr = *((unsigned long*)pURL->h_addr);
addr.sin_port = htons(80);

/*
 * 组织发送到web服务器的信息
 * 为何要发送下面的信息请参考HTTP协议的约定
 */
strcat(header, "GET ");
strcat(header, GET);
strcat(header, " HTTP/1.1\r\n");
strcat(header, "HOST: ");
strcat(header, host);
strcat(header, "\r\nConnection: Close\r\n\r\n");

/*
 * 连接到服务器,发送请求header,并接受反馈(即网页源代码)
 */
connect(sockfd,(SOCKADDR *)&addr,sizeof(addr));

send(sockfd, header, strlen(header), 0);

while ( recv(sockfd, text, BUFSIZ, 0) > 0)
{
printf("%s", text);
strnset(text, ‘\0‘, BUFSIZ);
}

closesocket(sockfd);

WSACleanup();
}

int main()
{
char url[256];
printf("http://");
scanf("%s", url);
geturl(url);
return 0;
}


简单获取网页源代码

原文:http://my.oschina.net/u/241930/blog/530673

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!