首页 > Web开发 > 详细

asp.net简单小爬虫

时间:2015-12-04 18:14:26      阅读:349      评论:0      收藏:0      [点我收藏+]

所谓爬虫简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了,比如:把别人网站上的东西爬下来放在自己网站中(感觉有点像小偷^v^).

这里随便写了一个爬虫代码(可以自己再去进行完善):

protected void Button1_Click(object sender, EventArgs e)
{
    string htmlcode = GetHTML("http://www.imooc.com/learn/348");
    Regex reg = new Regex("<strong><i class=\"state-expand\"></i>.*</strong>");
    MatchCollection ms = reg.Matches(htmlcode);
    foreach (Match m in ms)
    {
       Response.Write(m.ToString()+"<br>");
    }
}
public string GetHTML(string url) { WebClient web = new WebClient(); byte[] buffer = web.DownloadData(url); return Encoding.UTF8.GetString(buffer); }

这里是从慕课网的一个网页中爬一些章节信息下来(这不是给慕课网打广告,但是里面确实有一些比较好的学习资料,大家可以直接访问http://www.imooc.com/learn/348看看这页的内容)。

代码分析:

1、通过WebClient将对应网页的源码下载下来(适当的编码好,要不是容易出现乱码问题)

2、从源码中抓取出自己需要的信息,这里用的正则表达式去抓取匹配的信息,然后输出来

这样一个简单的爬虫就做好了,大家可以试一试

 

asp.net简单小爬虫

原文:http://www.cnblogs.com/tianguook/p/5019881.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!