文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3.5 本章小结及要求
本章介绍了 HTML 源码,详细讲解了 XPath 语法,并用爬取百度首页这个简单例子,讲解了 Requests 配合 XPath 提取数据的方法。本章还简单介绍了 Beautiful Soup 和正则表达式,特别是正则表达式,只是介绍了语法规则,读者通过学习,应该大体了解了正则表达式的使用规则,以后遇到具体问题时,可以再查阅相关的材料和示例。
本章演示了抓取百度首页“新闻”栏目的名称和链接的方法,作业就是要求读者抓取百度首页其他几个栏目的名称和链接。本章要求读者通过动手抓取,熟悉使用 Chrome 浏览器检查工具的方法,掌握在实战中编写 XPath 路径的技巧。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论