如何仅使用python标准库抓取javascript网页

How to scrape javascript webpage using python standard libs only

本文关键字:抓取 javascript 网页 标准 何仅使 python      更新时间:2023-09-26

我必须刮一个网站,使用javascript来显示内容。我必须使用标准库,因为我将在没有任何浏览器的服务器上运行此脚本。我已经找到了selenium,但它需要一个浏览器,在我的情况下是不可能安装的。

有什么想法或解决方案吗?

查看Ghost.py http://jeanphix.me/Ghost.py/。它不需要浏览器

pip install Ghost.py
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://stackoverflow.com/')

你没有提到网站是如何使用javascript的,但是如果它使用AJAX请求,在任何类型的用户交互之后触发,你将需要使用像Selenium这样的东西来自动化该行为。在这里,您可以找到一个关于如何使用Scrapy + Selenium进行刮擦的简短教程。当然,这需要在您的机器上预先安装一个浏览器。