怎么使用python爬取网页

543
2023/8/2 0:34:30
栏目: 编程语言
开发者测试专用服务器限时活动,0元免费领,库存有限,领完即止! 点击查看>>

要使用Python爬取网页,可以使用第三方库如Requests或Scrapy来帮助处理HTTP请求,然后使用BeautifulSoup或lxml等库来解析网页内容。

下面是一个使用Requests和BeautifulSoup的例子来爬取网页:

import requests
from bs4 import BeautifulSoup
# 发送GET请求
response = requests.get('https://example.com')
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的链接
links = soup.find_all('a')
# 打印所有链接的文本和URL
for link in links:
print(link.text, link['href'])

这个例子中,我们首先使用Requests库发送GET请求来获取网页的内容。然后使用BeautifulSoup库来解析HTML内容。接着,通过find_all函数找到所有的链接,并打印它们的文本和URL。

你可以根据实际需求对代码进行修改和扩展,比如添加更多的爬取逻辑,处理页面的登录、分页等操作。

辰迅云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>

推荐阅读: python元组的定义是什么