BeautifulSoup

时间：2020-03-15 19:43:34 阅读：63 评论：0 收藏：0 [点我收藏+]

import requests
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        kv = {'user-agent':'Mozilla/5.0'}
        r = requests.get(url, timeout=30, headers=kv)
        r.raise_for_status()    # 如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        print(r.request.headers)
        print('---------------')
        return r.text[:1000]
    except:
        return '产生异常'


if __name__ == '__main__':
    url = 'http://www.baidu.com'
    demo = getHTMLText(url)
    
    soup = BeautifulSoup(demo, 'html.parser')
    print(soup.prettify())

    print(soup.title)
    print(soup.a.name)
    print(soup.a.parent.name)
    print(soup.a.attrs) # 属性

BeautifulSoup

原文：https://www.cnblogs.com/holaworld/p/12499232.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)