第一次爬虫笔记(Python,Requests库)

第一次爬虫笔记(Python,Requests库)

第一次写爬虫,边看入门书边写,现学现卖,现在应该勉强能爬些静态网站
这次学习爬虫是因为想查下学校老师的研究方向(学校网站的检索功能太差了)
下面写些在写爬虫时遇到的问题

分析文本的XPATH

最初看书以为无脑Copy XPATH就能定位到文字的位置,但调试时发现有时这样做根本获取不到list,后来发现如<span>、<td>、<div>等跟文本相关的标签 etree 的XPATH解析不能,所以在分析XPATH时得确认自己找的路径是不是在文本内,如果是的话要向上去找找

分析图片的URL

Example:

Resource Interchange File Format Services

1
<img class="x-hidden-focus" alt="riff chunk that contains two subchunks image" src="images/mmio1.gif" data-linktype="relative-path">

这边src的第一个字符不是”/“,data-linktype也比较让人在意
此处图片的URL为最后一个”/“后直接接src的内容
第一次碰见这种情况,以后遇到会在这补充遇到的所有类型
(坑🕳先挖在这儿)

注意重定向问题

这个。。。
学校网络炸了,想要实验下再补上
重定向后可能会得到奇怪的网址,比如”20http://“之类的,导致程序报错,需要注意

5/9更新
%20 是空格,看来以后得到href后还得做些处理,比如去空格,检查格式etc.

参考文献

  1. python去除字符串中的换行符
  2. Python爬虫时获取标签内全部文本内容的四种方式似乎有些用处不大