第一次爬虫笔记（Python，Requests库）

第一次写爬虫，边看入门书边写，现学现卖，现在应该勉强能爬些静态网站
这次学习爬虫是因为想查下学校老师的研究方向（学校网站的检索功能太差了）
下面写些在写爬虫时遇到的问题

最初看书以为无脑Copy XPATH就能定位到文字的位置，但调试时发现有时这样做根本获取不到list，后来发现如<span>、<td>、<div>等跟文本相关的标签 etree 的XPATH解析不能，所以在分析XPATH时得确认自己找的路径是不是在文本内，如果是的话要向上去找找

1	<img class="x-hidden-focus" alt="riff chunk that contains two subchunks image" src="images/mmio1.gif" data-linktype="relative-path">

这边src的第一个字符不是”/“，data-linktype也比较让人在意
此处图片的URL为最后一个”/“后直接接src的内容
第一次碰见这种情况，以后遇到会在这补充遇到的所有类型
（坑🕳先挖在这儿）

这个。。。
学校网络炸了，想要实验下再补上
重定向后可能会得到奇怪的网址，比如”20http://“之类的，导致程序报错，需要注意

5/9更新
%20 是空格，看来以后得到href后还得做些处理，比如去空格，检查格式etc.