网站数据抓取（如何为你的机器学习项目抓取网页数据）

小鱼SEO专员3年前 (2022-05-11)行业资讯1261

前不久，我在 LearnML 子论坛上看到一篇帖子。楼主在这篇帖子中提到，他需要为自己的机器学习项目抓取网页数据。很多人在回帖中给出了自己的方法，主要是学习如何使用 BeautifulSoup 和 Selenium。

我曾在一些数据科学项目中使用过 BeautifulSoup 和 Selenium。在本文中，我将告诉你如何用一些有用的数据抓取一个网页，并将其转换成 pandas 数据结构（DataFrame）。

为什么要将其转换成数据结构呢？这是因为大部分机器学习库都能处理 pandas 数据结构，并且只需少量修改就可对你的模型进行编辑。

首先，我们要在维基百科上找到一个表来转换成数据结构。我抓取的这张表，展示的是维基百科上浏览量最大的运动员数据。

其中一项大量的工作就是，通过浏览 HTML 树来得到我们需要的表。

通过 request 和 regex 库，我们开始使用 BeautifulSoup。

复制代码

下面，我们将从网页中提取 HTML 代码：

复制代码

从语料库中收集所有的表，我们有一个较小的表面区域来搜索。

复制代码

因为存在很多表，所以需要一种过滤它们的方法。

据我们所知，Cristiano Ronaldo（也就是葡萄牙足球运动员 C 罗）有一个锚标记，这可能在几个表中是独一无二的。

通过 Cristiano Ronaldo 文本，我们可以过滤那些被锚标记的表。此外，我们还发现一些包含这个锚标记的父元素。

复制代码

父元素只显示单元格。

这是一个带有浏览器 web 开发工具的单元格。

复制代码

利用 tbody，我们可以返回包含以前的锚标记的其他表。

为进一步过滤，我们可以在以下表中的不同标题进行搜索：

复制代码

第三张看起来很像我们所需要的表。

接下来，我们开始创建必要的逻辑来提取并清理我们需要的细节。

复制代码

分解一下：

复制代码

下面我们从上面的列表中选择第三个元素。这就是我们需要的表。

接下来创建一个空列表，用于存储每行的详细信息。在遍历这个表的时候，建立一个循环，遍历表中的每一行，并将其保存到 rows 变量中。

复制代码

建立了嵌套的循环。遍历上一个循环中保存的每个行。在遍历这些单元格时，我们将每个单元格保存在一个新的变量。

复制代码

这段简短的代码允许我们在从单元格中提取文本时，避免空单元格并防止发生错误。

复制代码

在此，我们将各种单元格清理为纯文本格式。清除后的值保存在其列名下的变量中。

复制代码

此处，我们向行列表添加这些值。然后输出清理后的值。

复制代码

下面将其转换为数据结构：

复制代码

现在你可以在机器学习项目中使用的 pandas 数据结构了。你可以使用自己喜欢的库来拟合模型数据。

作者介绍：

Tobi Olabode，对技术感兴趣，目前主要关注机器学习。

原文链接：

https://blog.devgenius.io/how-to-scrape-a-website-for-your-ml-project-c3a4d6f160c7

返回列表

上一篇：局域网网速控制器（手把手教你家庭网络解决方案）

下一篇：百度seo排名点击软件（SEO推广优化辅助工具有哪些）

微信公众号大全二维码推广(12个实用渠道分享)

怎样申请公众微信号？可以推广某种东西的可以让别人扫描二维码一键关注的？申请公众微信号： 1、打开网址。 2、填写基本信息。同一个邮箱只能申请1个公众号，当然一个人可以有好几个邮箱；同一个身份证...

一号专车司机加盟都有哪些条件(加盟要求和注意事项)

滴滴专车司机带车加盟？滴滴专车司机带车加盟? 个人加入滴滴快车（专车）的条件：1、拥有一辆车的使用权（行驶证上可以不是驾驶者的名字）2、车为本地牌照、车价在6W以上、车龄在6年以内3、本人拥有C1及...

淘宝试客（如何申请加入）

　　一、淘宝免费试用中心入口　　淘宝免费试用中心报名入口可以通过两种方法进入，分别如下：　　第一种方法：　　首先登陆淘宝店铺主账号，进入卖家中心，在卖家中心，找到“我要推广”找到免费试用报名，点击免费...

迈克尔杰克逊变白（为什么迈克尔·杰克逊的皮肤变白了）

杰克逊年轻时的皮肤一直是褐色的，但从上世纪80年代中期开始逐渐变得苍白。大家都知道，他原本是属于黑色人种，这中间到底发生了什么呢？人们对他有什么误解？今天我们将为大家揭晓谜底。迈克尔·杰克逊是闻名全球...

主卧没要卫生间后悔了(主卧卫生间没窗后悔了)

在家庭生活中，主卧究竟有没有必要装卫生间呢？一般就是主要的一个大的卫生间，然后再就是一个小一点的在卧室里面的卫生间。正方观点：主卧带卫生间有以下的好处。一、主卧的卫生间相对于整个家庭的卫生...

驾乘险（喵哥一次说给你听）

我们每年在买保险的时候，就会有很多朋友纠结，这个保险我们该怎么买？最近就有朋友问喵哥，说座位险该怎么买该怎么选择，怎么买才能花更少的钱得到最大的保障。我们在买车险的时候，会遇到两个比较相似的险种，第一...

小鱼信息分享

网站数据抓取（如何为你的机器学习项目抓取网页数据）

相关文章

微信公众号大全二维码推广(12个实用渠道分享)

一号专车司机加盟都有哪些条件(加盟要求和注意事项)

淘宝试客（如何申请加入）

迈克尔杰克逊变白（为什么迈克尔·杰克逊的皮肤变白了）

主卧没要卫生间后悔了(主卧卫生间没窗后悔了)

驾乘险（喵哥一次说给你听）

发表评论

Powered By by 闽ICP备2021018870号.

小鱼信息分享

网站数据抓取（如何为你的机器学习项目抓取网页数据）

相关文章

微信公众号大全二维码推广(12个实用渠道分享)

一号专车司机加盟都有哪些条件(加盟要求和注意事项)

淘宝试客（如何申请加入）

迈克尔杰克逊变白（为什么迈克尔·杰克逊的皮肤变白了）

主卧没要卫生间后悔了(主卧卫生间没窗 后悔了)

驾乘险（喵哥一次说给你听）

发表评论 取消回复

Powered By by 闽ICP备2021018870号.

主卧没要卫生间后悔了(主卧卫生间没窗后悔了)

发表评论