python爬虫编程

admin 2024年01月26日 03:25 32 0

Python是一种非常适合进行网络爬虫编程的语言，下面是一个简单的Python爬虫示例，这个爬虫会从给定的URL爬取并打印出所有的链接。

import requests
from bs4 import BeautifulSoup

def get_links(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 如果请求返回的状态码不是200，就引发HTTPError异常
    except requests.exceptions.RequestException as e:
        print(e)
        return

    soup = BeautifulSoup(response.text, 'html.parser')
    for link in soup.find_all('a'):  # 寻找所有的a标签，也就是所有的链接
        print(link.get('href'))  # 打印出链接

# 测试函数
get_links('https://www.example.com')

这个代码会发送一个GET请求到给定的URL，然后使用BeautifulSoup库解析返回的HTML，它会寻找所有的``标签（也就是所有的链接），并打印出这些链接的href属性。

这只是一个非常基础的爬虫，在实际使用中，你可能需要处理各种复杂的情况，例如处理JavaScript渲染的页面、处理各种反爬虫机制、遵守robots.txt规则等等，对于这些更复杂的情况，你可能需要使用更复杂的库，例如Scrapy、Selenium等。