爬虫的基本原理

时间：2019-03-14 14:43:12 阅读：149 评论：0 收藏：0 [点我收藏+]

(1) 简单来说，爬虫就是获取网页并提取和保存信息的自动化程序
(2) 使用 Python 爬取网页 ---> 使用【正则表达式 | CSS 选择器 | XPath 选择器】提取信息 ---> 使用数据库保存提取的信息
(3) 有时候，我们用 Python 爬取网页得到的源代码和浏览器中看到的不一样，如下，浏览器会自动去请求并加载 "app.js" 这个 JavaScript 文件，但我们使用 Python 获取的 HTML 源代码并不会自动去加载
(4) 因此，使用基本 HTTP 请求库得到的源代码可能跟浏览器中的页面源代码不太一样。对于这样的情况，我们可以分析其后台 Ajax 接口，也可使用 Selenium 、Splash 这样的库来实现模拟 JavaScript 渲染

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>首页</title>
</head>
<body>
<div id="container">
</div>
</body>
<script src="app.js"></script>
</html>

爬虫的基本原理

原文：https://www.cnblogs.com/pzk7788/p/10530055.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)