爬虫及文本分析心得（For The NewYork Times, The Washington Post，Los Angeles Times， Chicago Tribune）

最近有好人相助，重新拾起了爬虫
爬爬爬爬爬爬爬…

本次爬虫用了之前学一半就半途而废的scrapy，上次用到爬虫感觉是一两年前的事了，现在已经是学校的老油条了，年龄大了就容易健忘，重新去学这些东西真是废了不少功夫，现在做的差不多了，就写点东西记录一下，防止以后忘了自己做过爬虫这件事。

之前用爬虫，就是利用request下载网页，然后解析，使用re做pattern然后去find_all，之后学了一点scrapy，但是后来的后来就没用过这个东西做过什么实际的玩意，这次接到任务，想想就用scrapy吧。

太久没学了，我是从官网的Scrapy Tutorial入手的，不要害怕英语呢，其实没这么难，而且我是看懂英语然后真正地实现了就有一种自豪感哈哈哈哈哈，这样也可以在遇到问题之后在更大的平台交流（这段时间还给国外一作者发邮件也是成就满满）

遇到问题我十分推荐大家想到什么搜什么（当然可能会浪费大量的时间，对于我就是少打两把王者了），查一查，真的是：只有想不到，没有做不到

这样做行不行.......哇，这都能行。彻彻底底贯穿了我整个爬虫项目

所以，搜索真的很有很有必要，自己造轮子实在太难了

再来讲讲爬虫本身吧，本次我爬取了四个网站（The NewYork Times, The Washington Post，Los Angeles Times， Chicago Tribune），但是说实话，本次做的不好的是，我也没看过别人的爬虫项目，我也不知道我这样的方式是不是正确 >>>>>

文本提取
元素采集

在了解了基本的scrapy的使用之后，我的流程仍是解析网页->查找元素->获取信息->保存记录

唯一不同的是本次使用了xpath和css方法，这很大程度提高了效率，但是要指出的是我不是科班出身，对于网页的构成我是不懂的，一直只能照猫画虎，在xpath和css的使用中，我发现元素似乎不能隔层查找。

想法是这样，第一个xpath进行了粗定位，其中含有几个我想要的信息，第二个不同的xpath进行不同的查找，但是这样都不能奏效，这种原因我分析不太来，因此只能又回到了re模块。

这里也严重吐槽有些网站时间戳都不能统一一个格式，也真是简直了，还得一个一个找再一个一个改。

网站分析
本次主要是在The Washington Post上出了很大的问题，利用scrapy的request是不能得到相应的元素，必须动用webdriver,但是每次浏览器自动出现真的让人很头大，可是很有意思的是-headless模式下又不能正常工作，我搜到的有说是因为User-Agent的缘故，但是我又不知道怎么修改User-Agent。所以也就只能使用正常模式下勉勉强强过日子。
模拟点击也是一个很有意思的过程，感觉最专业的利用get和post，可是依然我都没有实现，我采用了webdriver的find_element_by_xpath进行定位并使用了click方法。
这里还要再提出一点是，我还主动修改了webdriver.support.ui.WebDriverWait来满足我的等待时间需求，这也是极度有意思的事情。还有的是help是相当好用的内置函数，多看看源码也是最吼的！
文本分析
本次项目实际上查找一个主题，然后在时间上进行统计，但是爬取的文章总要进行筛选，自然而然的，因为学过机器学习这一类的东西，人工智能当然酷炫狂暴拽了！

然并卵... 我最终只是根据提供的关键词文本与爬取的文章进行了以下计算

判断文章是不是的主体是不是我们想要的。
文章与提供的关键词文档相似度的计算

从上图中就可以知道为什么我们要进行对主体的判断==>各大网站提供的内容是宽泛的，
以上图为例，我们其实想要的是主体是‘兔子’和‘吃草’，但是难免会得到一些相近又确实不是我们想要的，那么就必须经过筛选。我的方法十分简单，就是一篇文章，'兔子'和'吃草'这两个词汇出现超过一定次数则保留。通过检查，这个效果还是不错的。
而相似度筛选中，我们预先找了一些关键词汇比如：

兔子除了草还吃萝卜兔子吃紫甘蓝兔子吃青青草原 .......

利用TF-IDF进行了相似度计算，记录相似度，大概的图形如下：