python爬虫代码简单示例

admin 2023年12月15日 19:11 32 0

# Python爬虫代码简单示例

在Python中，爬虫通常使用requests库来发送HTTP请求并获取网页内容，然后使用BeautifulSoup库来解析网页HTML并提取所需数据，下面是一个简单的Python爬虫代码示例，用于爬取指定网页上的标题和链接：

import requests
from bs4 import BeautifulSoup

# 定义目标网页URL
url = 'https://example.com'

# 发送HTTP请求并获取网页内容
response = requests.get(url)
html = response.text

# 使用BeautifulSoup库解析网页HTML
soup = BeautifulSoup(html, 'html.parser')

# 提取网页标题和链接
title = soup.title.string
links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

# 输出结果
print('网页标题：', title)
print('链接：', links)

在上面的代码中，我们首先定义了目标网页的URL，然后使用requests库发送HTTP GET请求并获取网页内容，我们使用BeautifulSoup库解析网页HTML，提取网页标题和链接，我们输出提取到的结果。

需要注意的是，爬虫在访问目标网站时需要遵守该网站的Robots协议，避免对网站造成不必要的干扰或侵犯网站的知识产权，如果爬取的是动态生成的内容，还需要使用模拟浏览器的库如Selenium来获取网页内容。