网页源代码看不到数据,怎么爬取(怎么自动抓取网页数据)

茉莉花开 • 2023 年 02 月 22 日下午 1:32 • 生活资讯

不会写代码，却想在网上爬取数据，何乐而不为？

但不要失望。对于大多数常见的网页数据，即使你不会编码，也可以使用工具来帮助你爬取你想要的数据。

当然，你可以先了解一点前端，比如简单的HTML、CSS，然后再结合一个叫做“web scraper”的插件，开始你的爬虫之旅。

接下来我会告诉大家如何通过这个插件来爬取你想要的数据。

我建议您使用 Chrome 浏览器。首先，您需要安装并下载“网络爬虫”插件。有些朋友可能无法访问它。没关系。我已经为你下载了。》有：

学习Python的正确姿势

接下来就是学习Python的正确姿势了！跟着学习Python基础、Python进阶、Python爬虫、Python项目实战、Python数据可视化、人工智能等。

公众号

下载后，在chrome中访问chrome://extensions/，然后打开开发者模式，点击“加载解压extension”，选择文件直接安装即可。

随意打开一个网页，按F12，可以看到控制面板的菜单栏里有一个“web Scraper”，然后就可以了表示你安装成功。

随便打开一个网站，比如你想爬取豆瓣前250部电影的信息，那么你可以打开这个网页，然后创建站点地图：

名称可以自由定义，start url 复制你当前正在爬取的链接地址：

创建完成后，下一步就是选择你想要的具体信息至抓取，点击“add new selector”选择你要抓取的元素：

因为你需要抓取本页的所有item，类型可以选择Element：

然后点击“选择”按钮，你的鼠标可以选择你要爬取的元素：

红框处就是你要爬取的内容，点击“选择完成”，就可以了自动识别你要爬取的元素标签：

Id名称可以随意选择，比如film：

需要注意的是，因为你要爬取所有的当前页面中的条目，必须勾选多个，然后点击保存。

接下来需要在每个词条中获取自己想要爬取的关键信息，可以点击“添加新的选择器”继续选择：

比如你想要抓取一个电影的每个豆瓣链接，那么你可以选择链接类型：

然后点击“选择”选择提取具体的链接元素：

选择后，你可以同样点击“数据预览”预览你要抓取的内容是否正确：

注意这里我们选择的是entry下的元素，所以我们的parent selector应该选择我们刚刚创建的“film”：

然后点击保存。

同样的，如果你想抓取其他特定的信息，比如电影描述、评分、排名等信息，你可以使用上面的方法来选择相应的元素。

电影描述信息：

电影评分：

电影排名：

如果还想爬取每个电影链接点击进入其他信息，比如电影的时长，电影，那么你可以点击链接进入详情页面：

同理，比如你抓取电影的时长，添加相应的选择器，需要注意的是，因为你当前的页面来自链接，你的父选择器应该选择链接：

选择切片，你可以选择类型为图像：

< p >当你选择完所有你要抓取的数据后，你可以选择“选择器图”，查看你抓取的数据的层级关系：

万事俱备，只需要抓取一次，点击“抓取”：

为了不抓取别人的网站，可以设置请求延迟，默认2000毫秒。

然后点击“开始抓取”开始抓取。这时候你要抓取的每一个页面都会自动浏览到：

过一会儿，点击“刷新”：

就可以看到你要抓取的数据了：

但是有个问题，你现在只抓取25条数据，也就是页面的数据，如何让它自动翻页，把所有的数据都爬下来呢？

我们观察一下页面的请求规则。我们请求页面的时候是这样的：

请求第二页的时候，start变成25：

请求第三页的时候，start变成50：

< p>通过小学数学老师的教学，我们可以得出规律，每翻一页，开始加25，那么第10页就是225。

点击“编辑元数据”修改网址：

用方括号定义区间和步长：

表示start会在0-225之间，每次都是25叠加。

那么这个时候，它会听你的，把所有的数据都爬下来：

之后，你肯定想把所有的数据都保存到本地，很简单，点“ export data》：

选择保存的文件格式：

下载后，可以在本地操作：

OK，以上就是小帅b今天的分享带给你，你可以用它来爬取知乎、百度、豆瓣等网页的数据。

看到这里了，别忘了给个三连~

当然有些数据还是需要打码的，可以点“python爬虫” ” 在 fxxkpython 中继续播放。

下次见，和平！

关于如何爬取网页数据（自动从网页中提取数据，无需写代码）的介绍到此结束。

文章来源于网络或者作者投稿，若有侵权请联系删除，作者：茉莉花开，如若转载，请注明出处：https://www.laoz.net/23526.html

茉莉花开

蒸汽机原理动画图蒸汽轮机效率(蒸汽机工作原理图解)

上一篇 2023 年 02 月 22 日

有什么性价比比较高的笔记本(现在性价比高的笔记本有哪些)

下一篇 2023 年 02 月 22 日

生活资讯

唐玄宗李隆基和武则天是什么关系(唐玄宗李隆基是武则天的什么人)

本文主要介绍唐玄宗李隆基和武则天的关系，唐玄宗李隆基是武则天的相关知识点，希望这些经验和知识可以帮助到你！武则天本来是李世民的才子，后来被李世民的儿子李治看中，深受喜爱，后来登上了封神宝座。武则天...

生活资讯 2023 年 02 月 07 日
生活资讯

痛风是应该多走路还是少走路

本文主要介绍痛风是多走还是少走的相关知识点。希望这些经验和知识可以帮到你！痛风要多走还是少走要看你是痛风急性期还是缓解期痛风的阶段，还有个人的身体情况是否合适，比如脚上有没有痛风石等！痛风急性发作...

生活资讯 2023 年 02 月 05 日
生活资讯

什么叫443不锈钢(406不锈钢是食品级的吗)

日本443不锈钢是食品级的吗？日本443不锈钢不一定是食品级的。食品级不锈钢是指符合《中华人民共和国国家标准不锈钢餐具容器卫生标准》中食品级不锈钢GB9684-88要求的不锈钢材料。虽然食品级不锈钢常用的有430、...

生活资讯 2023 年 01 月 14 日
生活资讯

一五计划哪一年开始制定(一五计划哪一年开始实施)

本文主要介绍一五规划何时开始的相关知识点。希望这些经验和知识对你有所帮助！一个五年计划计划从1953年开始，到1957年结束，中国从1953年开始制定和实施五年计划，到2015年共完成了12个五年计划/计划。五年计...

生活资讯 2023 年 01 月 27 日
生活资讯

进货单表格模板免费下载(进货单怎么填写)

采购订单是企业采购原材料、产品等物品的凭证，是企业采购物品的重要依据。它是买卖双方共同签署的文件，描述了买方购买的物品的数量、质量、价格等。采购订单可以帮助企业更好地控制所采购的物品，更好地控制库...

生活资讯 2023 年 03 月 02 日
生活资讯

四姑娘山旅游攻略自驾三天(1月去四姑娘山路好走吗?)

四姑娘山现在属于旅游旺季，大部分人都会选择自驾游，会比较方便，但是需要检查是否路况提前完善。不建议晚上或下雨天自驾，要选择天气好的时候！接下来我们就来看看点创网带来的自驾去四姑娘山要注意的相关介绍...

生活资讯 2023 年 01 月 22 日
生活资讯

张凌赫主演的电视剧哪部好看(张凌赫拍过的电视剧)

张凌赫，1997年12月30日出生于江苏无锡，毕业于南京师范大学，中国内地男演员。 220年，在《少女》中饰演裴昭齐王萧衍之躲过敌人的入侵，回到朝廷。为了这件事，他私下改名为裴照，开始在人间玩游戏。豪放忠义，...

生活资讯 2023 年 01 月 02 日
生活资讯

初三男孩叛逆(初中孩子叛逆期怎么管教最合适男孩)

大家好，初中生叛逆期如何管教相信很多的网友都不是很明白，包括初三男生叛逆怎么办也是一样，不过没有关系，接下来就来为大家分享关于初中生叛逆期如何管教和初三男生叛逆怎么办的一些知识点，大家可以关注收藏...

生活资讯 2023 年 06 月 24 日
生活资讯

脍炙人口的脍炙是啥意思(脍炙人囗的脍炙是什么意思)

有一个成语叫“大众化”，大家都知道，它形容人们喜欢的好吃的东西。后来也用来形容文章，优美的词句，朗朗上口，被人朗诵。但是说到烂的具体含义，很多人都一头雾水。查成语词典，专家解释说，“啪”是细碎的肉，“烧...

生活资讯 2023 年 01 月 03 日
生活资讯

煮板栗加盐吗(煮板栗为什么要放盐)

我们在水煮栗子或者用蒸锅的时候，可以加入适量的盐，这样可以更好的去除栗子的皮。栗子皮不可食用。吃前要及时把栗子皮去掉，去掉后加入适量食盐，最好直接将栗子果肉和果皮分离。具体做法是，我们在煮栗子的时...

生活资讯 2022 年 12 月 29 日

网页源代码看不到数据,怎么爬取(怎么自动抓取网页数据)

相关推荐