# Python爬虫代码简单示例
在Python中,爬虫通常使用requests库来发送HTTP请求并获取网页内容,然后使用BeautifulSoup库来解析网页HTML并提取所需数据,下面是一个简单的Python爬虫代码示例,用于爬取指定网页上的标题和链接:
import requests from bs4 import BeautifulSoup # 定义目标网页URL url = 'https://example.com' # 发送HTTP请求并获取网页内容 response = requests.get(url) html = response.text # 使用BeautifulSoup库解析网页HTML soup = BeautifulSoup(html, 'html.parser') # 提取网页标题和链接 title = soup.title.string links = [] for link in soup.find_all('a'): links.append(link.get('href')) # 输出结果 print('网页标题:', title) print('链接:', links)
在上面的代码中,我们首先定义了目标网页的URL,然后使用requests库发送HTTP GET请求并获取网页内容,我们使用BeautifulSoup库解析网页HTML,提取网页标题和链接,我们输出提取到的结果。
需要注意的是,爬虫在访问目标网站时需要遵守该网站的Robots协议,避免对网站造成不必要的干扰或侵犯网站的知识产权,如果爬取的是动态生成的内容,还需要使用模拟浏览器的库如Selenium来获取网页内容。