python爬虫代码简单示例

admin 32 0

# Python爬虫代码简单示例

在Python中,爬虫通常使用requests库来发送HTTP请求并获取网页内容,然后使用BeautifulSoup库来解析网页HTML并提取所需数据,下面是一个简单的Python爬虫代码示例,用于爬取指定网页上的标题和链接:

import requests
from bs4 import BeautifulSoup

# 定义目标网页URL
url = 'https://example.com'

# 发送HTTP请求并获取网页内容
response = requests.get(url)
html = response.text

# 使用BeautifulSoup库解析网页HTML
soup = BeautifulSoup(html, 'html.parser')

# 提取网页标题和链接
title = soup.title.string
links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

# 输出结果
print('网页标题:', title)
print('链接:', links)

在上面的代码中,我们首先定义了目标网页的URL,然后使用requests库发送HTTP GET请求并获取网页内容,我们使用BeautifulSoup库解析网页HTML,提取网页标题和链接,我们输出提取到的结果。

需要注意的是,爬虫在访问目标网站时需要遵守该网站的Robots协议,避免对网站造成不必要的干扰或侵犯网站的知识产权,如果爬取的是动态生成的内容,还需要使用模拟浏览器的库如Selenium来获取网页内容。