用 aiohttp 和 asyncio 构建高性能异步 Web 爬虫：一个实战案例

2024/12/27 03:11:32 131 0 0 0

用 aiohttp 和 asyncio 构建高性能异步 Web 爬虫：一个实战案例

在 Python 世界里，构建高性能的 Web 爬虫通常需要用到异步编程。asyncio 是 Python 自带的异步编程库，而 aiohttp 则是一个基于 asyncio 的异步 HTTP 客户端库，两者结合可以轻松创建高效的爬虫。本文将通过一个具体的案例，演示如何使用 aiohttp 和 asyncio 构建一个异步 Web 爬虫，并讲解其中的关键技术点。

目标： 爬取豆瓣电影 Top250 的电影名称和评分。

代码实现：

首先，我们需要安装必要的库：

pip install aiohttp

接下来，编写爬虫代码：

 import asyncio
import aiohttp
 
async def fetch_page(session, url):
    async with session.get(url) as response:
        if response.status == 200:
            return await response.text()
        else:
            print(f"Error fetching {url}: Status code {response.status}")
            return None
 
async def parse_page(html):
    # 使用BeautifulSoup或其他解析库解析HTML，提取电影名称和评分
    # ... (此处省略解析HTML的代码，这部分依赖于豆瓣电影页面的结构)
    # 返回一个包含电影名称和评分的列表
    movies = []
    #示例代码，替换成实际的解析逻辑
    for i in range(25):
        movies.append({'title': f'Movie {i+1}', 'rating': i*2})
    return movies
 
async def main():
    base_url = "https://movie.douban.com/top250?start={}"
    tasks = []
    async with aiohttp.ClientSession() as session:
        for i in range(0, 250, 25):
            url = base_url.format(i)
            tasks.append(asyncio.create_task(fetch_page(session, url)))
        htmls = await asyncio.gather(*tasks)
        movies = []
        for html in htmls:
            if html:
                movies.extend(await parse_page(html))
        print(movies)
 
if __name__ == "__main__":
    asyncio.run(main())

代码解释：

fetch_page 函数：使用 aiohttp.ClientSession 发起异步 HTTP GET 请求，获取网页内容。它处理了 HTTP 状态码，如果状态码不是 200，则打印错误信息并返回 None。
parse_page 函数：这是一个占位符函数，负责解析 HTML 并提取所需数据。你需要根据豆瓣电影页面的实际结构编写具体的解析逻辑，可以使用 BeautifulSoup 或其他 HTML 解析库。
main 函数：
- 创建一个 aiohttp.ClientSession 对象，用于管理 HTTP 请求。
- 使用循环构造多个异步任务，每个任务负责抓取一个页面。
- 使用 asyncio.gather 并发执行所有任务。
- 循环处理每个页面的 HTML 内容，并使用parse_page函数解析数据。
- 最终打印所有电影的名称和评分。

性能提升：

使用 aiohttp 和 asyncio 的主要优势在于其异步非阻塞特性。传统的同步爬虫在等待一个 HTTP 请求返回时会阻塞主线程，而异步爬虫则可以同时发起多个请求，并利用 asyncio 的事件循环高效地管理这些请求，从而显著提高爬取效率。

进一步优化：

错误处理： 完善错误处理机制，例如处理网络连接超时、服务器返回错误等情况。
并发控制： 使用 aiohttp 的 Semaphore 来限制并发请求数量，避免对目标服务器造成过大的压力。
代理： 使用代理服务器来隐藏你的 IP 地址，防止被网站封禁。
数据持久化： 将爬取的数据保存到数据库或文件中，方便后续处理和分析。

这个例子展示了如何使用 aiohttp 和 asyncio 构建一个简单的异步 Web 爬虫。通过合理地运用异步编程技术，可以大幅提升爬虫的效率和性能。记住要遵守网站的 robots.txt 和服务条款，避免对目标网站造成不必要的负担。实际应用中，还需要根据具体需求进行更复杂的错误处理、数据解析和并发控制。

Python爬虫工程师 aiohttp asyncio Python Web爬虫异步编程

	import asyncio
	import aiohttp

	async def fetch_page(session, url):
	async with session.get(url) as response:
	if response.status == 200:
	return await response.text()
	else:
	print(f"Error fetching {url}: Status code {response.status}")
	return None

	async def parse_page(html):
	# 使用BeautifulSoup或其他解析库解析HTML，提取电影名称和评分
	# ... (此处省略解析HTML的代码，这部分依赖于豆瓣电影页面的结构)
	# 返回一个包含电影名称和评分的列表
	movies = []
	#示例代码，替换成实际的解析逻辑
	for i in range(25):
	movies.append({'title': f'Movie {i+1}', 'rating': i*2})
	return movies

	async def main():
	base_url = "https://movie.douban.com/top250?start={}"
	tasks = []
	async with aiohttp.ClientSession() as session:
	for i in range(0, 250, 25):
	url = base_url.format(i)
	tasks.append(asyncio.create_task(fetch_page(session, url)))
	htmls = await asyncio.gather(*tasks)
	movies = []
	for html in htmls:
	if html:
	movies.extend(await parse_page(html))
	print(movies)

	if __name__ == "__main__":
	asyncio.run(main())

用 aiohttp 和 asyncio 构建高性能异步 Web 爬虫：一个实战案例

用 aiohttp 和 asyncio 构建高性能异步 Web 爬虫：一个实战案例

评论点评