网页源代码看不到数据,怎么爬取(怎么自动抓取网页数据)

网页源代码看不到数据,怎么爬取(怎么自动抓取网页数据)

不会写代码,却想在网上爬取数据,何乐而不为?

但不要失望。对于大多数常见的网页数据,即使你不会编码,也可以使用工具来帮助你爬取你想要的数据。

当然,你可以先了解一点前端,比如简单的HTML、CSS,然后再结合一个叫做“web scraper”的插件,开始你的爬虫之旅。

接下来我会告诉大家如何通过这个插件来爬取你想要的数据。

我建议您使用 Chrome 浏览器。首先,您需要安装并下载“网络爬虫”插件。有些朋友可能无法访问它。没关系。我已经为你下载了。 》有:

学习Python的正确姿势

接下来就是学习Python的正确姿势了!跟着学习Python基础、Python进阶、Python爬虫、Python项目实战、Python数据可视化、人工智能等。

公众号

下载后,在chrome中访问chrome://extensions/,然后打开开发者模式,点击“加载解压extension”,选择文件直接安装即可。

随意打开一个网页,按F12,可以看到控制面板的菜单栏里有一个“web Scraper”,然后就可以了表示你安装成功。

随便打开一个网站,比如你想爬取豆瓣前250部电影的信息,那么你可以打开这个网页,然后创建站点地图:

名称可以自由定义,start url 复制你当前正在爬取的链接地址:

创建完成后,下一步就是选择你想要的具体信息至 抓取,点击“add new selector”选择你要抓取的元素:

因为你需要抓取本页的所有item,类型可以选择Element:

然后点击“选择”按钮,你的鼠标可以选择你要爬取的元素:

红框处就是你要爬取的内容,点击“选择完成”,就可以了自动识别你要爬取的元素标签:

Id名称可以随意选择,比如film:

需要注意的是,因为你要爬取所有的当前页面中的条目,必须勾选多个,然后点击保存。

接下来需要在每个词条中获取自己想要爬取的关键信息,可以点击“添加新的选择器”继续选择:

比如你想要抓取一个电影的每个豆瓣链接,那么你可以选择链接类型:

然后点击“选择”选择提取具体的链接元素:

选择后,你可以同样点击“数据预览”预览你要抓取的内容是否正确:

注意这里我们选择的是entry下的元素,所以我们的parent selector应该选择我们刚刚创建的“film”:

p>

然后点击保存。

同样的,如果你想抓取其他特定的信息,比如电影描述、评分、排名等信息,你可以使用上面的方法来选择相应的元素。

电影描述信息:

电影评分:

电影排名:

如果还想爬取每个​​电影链接点击进入其他信息,比如电影的时长,电影,那么你可以点击链接进入详情页面:

同理,比如你抓取电影的时长,添加相应的选择器,需要注意的是,因为你当前的页面来自链接,你的父选择器应该选择链接:

选择切片,你可以选择类型为图像:

< p >当你选择完所有你要抓取的数据后,你可以选择“选择器图”,查看你抓取的数据的层级关系:

万事俱备,只需要抓取一次,点击“抓取”:

为了不抓取别人的网站,可以设置请求延迟,默认2000毫秒。

然后点击“开始抓取”开始抓取。这时候你要抓取的每一个页面都会自动浏览到:

过一会儿,点击“刷新”:

就可以看到你要抓取的数据了:

p>

但是有个问题,你现在只抓取25条数据,也就是页面的数据,如何让它自动翻页,把所有的数据都爬下来呢?

我们观察一下页面的请求规则。我们请求页面的时候是这样的:

请求第二页的时候,start变成25:

请求第三页的时候,start变成50:

< p>通过小学数学老师的教学,我们可以得出规律,每翻一页,开始加25,那么第10页就是225。

点击“编辑元数据”修改网址:

用方括号定义区间和步长:

表示start会在0-225之间,每次都是25叠加。

那么这个时候,它会听你的,把所有的数据都爬下来:

之后,你肯定想把所有的数据都保存到本地,很简单,点“ export data》:

选择保存的文件格式:

下载后,可以在本地操作:

OK,以上就是小帅b今天的分享带给你,你可以用它来爬取知乎、百度、豆瓣等网页的数据。

看到这里了,别忘了给个三连~

当然有些数据还是需要打码的,可以点“python爬虫” ” 在 fxxkpython 中继续播放。

下次见,和平!

关于如何爬取网页数据(自动从网页中提取数据,无需写代码)的介绍到此结束。

文章来源于网络或者作者投稿,若有侵权请联系删除,作者:茉莉花开,如若转载,请注明出处:https://www.laoz.net/23526.html

(0)
上一篇 2023 年 02 月 22 日
下一篇 2023 年 02 月 22 日

相关推荐