九月第一,二周总结

这两周的任务主要是爬虫,学习了Scrapy和Pyspide的官方文档。需求是爬领英上的个人页面的信息,因为爬虫是个灰色地带,对于Aon heweitt本身也是以数据起家的公司而言,信息一旦用作商用,绝对是违法的,实在是不值得冒这么大的风险,最终放弃了这项任务。但是经过两周的探索,遇到了一些问题就记录在这吧:

  1. 第一个问题是领英的HTML是不能使用官方文档的方法下载,自然后续就不能从HTML中提取信息了。不过我看到有方法通过cookie下载,可惜我不太懂就算了。

  2. 爬不了领英,那我就去爬智联的招聘信息了。智联遇到的问题是子页面的信息要用parse函数传到主页面上去不然的话,子页面上的html上的信息是读取不到的。

  3. 最后的问题是,数据每次只能下载50条信息。我一开始没有用子页面的的信息时,是可以一次性下载完1000多条数据的,我估计可以通过sleep函数或者异步的方式可以解决这个问题。

    其实我还是很喜欢玩爬虫的,但是种种原因就没接着继续做下去。首先就是数据,招聘信息,这个数据你就是总结出了花都没什么用处,或者说这个信息没多大的利用价值。而且对于一个实习生,无论怎么说,公司都不应该给到核心数据。对于爬虫而言,没有好数据,后面做得再多,都是没用的。其次就是考虑到找工作,现在数据分析这个方向,人太多了(腾讯今年秋招报录比130:1),我现在还不想望这个方向去。

    后续我应该会继续做小程序,从前端到后台的API,包括域名和服务器。难是难了些,但是我还是很喜欢这个任务,因为如果能完成这个,我就相当于有能力独自的上线一个产品了,我很期待。

每周阅读:

  1. 科技爱好者周刊:第 72 期

  2. Should I read papers?

  3. 如何读懂一篇学术论文?

  4. 谈谈职业规划——CSDN对我的采访

    耗子叔CSDN的博客,就属这篇对我的帮助最大了。

  5. “一万小时定律”被推翻,最成功的人真的不是最努力的

    只有当刻意练习不再能够帮助你和周围的人拉开差距的时候,你才能说刻意练习不重要。

  6. Javascript 的 this 用法

    它是函数运行时,在函数体内部自动生成的一个对象,只能在函数体内部使用。

  7. 如果本届世界杯影响了姚明为中国男篮谋的大局……

    不那么好的部分是:中国篮球缺少基层的可靠教练,缺少室内球馆和力量训练。结果就是对抗、投篮和传球,基本功都有问题。

    比较糟糕的部分是:因为基本功有问题,所以虽然打得很努力,但篮球智商普遍不高,场上节奏感差,不聪明,运球太多;中国球员许多似乎过于在意打个漂亮球,不认真磨炼对抗和基本功;街头篮球则打得极为粗野,犯规很随意。

  8. 圆桌派 第四季:乐迷:听音乐有鄙视链吗?

每周一句:

  1. 不怕有偏见,就怕只许一种偏见。——文昭