如何仅使用python标准库抓取javascript网页
How to scrape javascript webpage using python standard libs only
我必须刮一个网站,使用javascript来显示内容。我必须使用标准库,因为我将在没有任何浏览器的服务器上运行此脚本。我已经找到了selenium,但它需要一个浏览器,在我的情况下是不可能安装的。
有什么想法或解决方案吗?
查看Ghost.py http://jeanphix.me/Ghost.py/。它不需要浏览器
pip install Ghost.py
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://stackoverflow.com/')
你没有提到网站是如何使用javascript的,但是如果它使用AJAX请求,在任何类型的用户交互之后触发,你将需要使用像Selenium这样的东西来自动化该行为。在这里,您可以找到一个关于如何使用Scrapy + Selenium进行刮擦的简短教程。当然,这需要在您的机器上预先安装一个浏览器。
相关文章:
- 在Python中抓取javascript渲染的文本的最快解决方案
- Python/R中的网页抓取javascript
- Python 网页抓取 JavaScript 生成的内容
- 搜索引擎如何抓取Javascript
- 从ASP网站抓取JavaScript下载链接
- 使用 Node.Js 中的请求抓取 JavaScript 生成的内容
- 使用Selenium和python抓取javascript生成的内容时出现问题
- 如何用phantom.js抓取javascript注入的图像src和alt
- 如何防止谷歌抓取javascript中的部分url
- 如何使用python抓取javascript生成的数据
- 抓取javascript事件的结果
- 使用Python和Selenium抓取Javascript文本
- 使用Python从网页中抓取Javascript文本
- 屏幕抓取javascript
- 如何仅使用python标准库抓取javascript网页
- 通过Python使用Selenium抓取Javascript
- 在PHP中抓取Javascript生成的内容
- 在中抓取Javascript(更多)注释
- 用c#抓取JavaScript生成的网页
- 使用c#在html文档中动态抓取JavaScript生成的数据