这两周的任务主要是爬虫,学习了Scrapy和Pyspide的官方文档。需求是爬领英上的个人页面的信息,因为爬虫是个灰色地带,对于Aon heweitt本身也是以数据起家的公司而言,信息一旦用作商用,绝对是违法的,实在是不值得冒这么大的风险,最终放弃了这项任务。但是经过两周的探索,遇到了一些问题就记录在这吧:
第一个问题是领英的HTML是不能使用官方文档的方法下载,自然后续就不能从HTML中提取信息了。不过我看到有方法通过cookie下载,可惜我不太懂就算了。
爬不了领英,那我就去爬智联的招聘信息了。智联遇到的问题是子页面的信息要用parse函数传到主页面上去不然的话,子页面上的html上的信息是读取不到的。
最后的问题是,数据每次只能下载50条信息。我一开始没有用子页面的的信息时,是可以一次性下载完1000多条数据的,我估计可以通过sleep函数或者异步的方式可以解决这个问题。
其实我还是很喜欢玩爬虫的,但是种种原因就没接着继续做下去。首先就是数据,招聘信息,这个数据你就是总结出了花都没什么用处,或者说这个信息没多大的利用价值。而且对于一个实习生,无论怎么说,公司都不应该给到核心数据。对于爬虫而言,没有好数据,后面做得再多,都是没用的。其次就是考虑到找工作,现在数据分析这个方向,人太多了(腾讯今年秋招报录比130:1),我现在还不想望这个方向去。
后续我应该会继续做小程序,从前端到后台的API,包括域名和服务器。难是难了些,但是我还是很喜欢这个任务,因为如果能完成这个,我就相当于有能力独自的上线一个产品了,我很期待。
每周阅读:
-
耗子叔CSDN的博客,就属这篇对我的帮助最大了。
-
只有当刻意练习不再能够帮助你和周围的人拉开差距的时候,你才能说刻意练习不重要。
-
它是函数运行时,在函数体内部自动生成的一个对象,只能在函数体内部使用。
-
不那么好的部分是:中国篮球缺少基层的可靠教练,缺少室内球馆和力量训练。结果就是对抗、投篮和传球,基本功都有问题。
比较糟糕的部分是:因为基本功有问题,所以虽然打得很努力,但篮球智商普遍不高,场上节奏感差,不聪明,运球太多;中国球员许多似乎过于在意打个漂亮球,不认真磨炼对抗和基本功;街头篮球则打得极为粗野,犯规很随意。
每周一句:
- 不怕有偏见,就怕只许一种偏见。——文昭