python实现CSDN博客标题收集
使用BeautifulSoup对网页解析,再根据布局使用Tag层层搜索,找到我们所需要的元素,代码很简单。
BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。
例子中是把老罗的博客文章标题收集,由于tag嵌套导致循环重复,去重会导致效率偏低。
1 | # encoding:utf-8 |
使用BeautifulSoup对网页解析,再根据布局使用Tag层层搜索,找到我们所需要的元素,代码很简单。
BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。
例子中是把老罗的博客文章标题收集,由于tag嵌套导致循环重复,去重会导致效率偏低。
1 | # encoding:utf-8 |