V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ucun
V2EX  ›  Python

每周送免费 10 个爬虫项目

  •  2
     
  •   ucun · 2018-11-04 17:57:43 +08:00 · 5163 次点击
    这是一个创建于 2202 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在攻爬虫

    实操是最好的老师

    所以每周我会在留言里按时间选 10 个项目

    因为是免费的,所以得加些限制

     单应用,即不需要代理、没有很变态的验证码、没有很复杂的 JS 解析
     python3
     只负责写爬虫,运行得自己的机子
    

    先留言占位,然后私信我详细的需求。私信尽量简介、全面。你只有一次私信需求的机会。

    我会私信你是否接受和大概完成的时间。每天 20:点之前我会看完当日所有需求,20:00 以后按第二天算

    单名一个 c 后缀 freelancecn.com

    第 1 条附言  ·  2018-11-04 20:18:27 +08:00
    道友们,请详细私信你的需求 。

    我不希望把太多的时间花在沟通上。

    就当这是个自助服务,把详细需求发到我邮件里。

    我觉得能做出来,自会回复你已经受理和大概的完成时间。

    完成后也会通过附件形式把写好的 python 文件发给你。



    所以就看你的需求是否清晰、全面了。

    如果需求没写清楚会产生两个结果:1,不接 2、没达到想要的效果
    30 条回复    2019-03-03 15:00:15 +08:00
    loading
        1
    loading  
       2018-11-04 18:16:59 +08:00 via Android
    爬知乎日报,如何正确地吐槽。
    clecho
        2
    clecho  
       2018-11-04 18:19:35 +08:00 via Android
    前程无忧,或者拉钩、智联这种招聘网站,这种的容易爬吗?
    acoldfox
        3
    acoldfox  
       2018-11-04 18:21:25 +08:00 via iPhone
    根据关键词爬取豆瓣电影搜索结果
    Selection
        4
    Selection  
       2018-11-04 18:30:00 +08:00 via iPhone
    我想爬大发彩票网,不过他有的一些信息加了锁
    huntzhan
        5
    huntzhan  
       2018-11-04 18:33:25 +08:00
    汽车之家
    Muninn
        6
    Muninn  
       2018-11-04 18:55:57 +08:00
    天眼查或者企查查,他们自己都是爬来的信息,不知道反爬虫做的强不强。
    Leigg
        7
    Leigg  
       2018-11-04 19:43:29 +08:00 via iPhone   ❤️ 1
    wechat 指定 n 个公众号下所有文章的内容评论阅读数赞,有时间精力可一试。
    Heartbleed
        8
    Heartbleed  
       2018-11-04 19:47:15 +08:00 via Android
    能做个像推酷 APP 的那种功能吗
    Joshua999
        9
    Joshua999  
       2018-11-04 22:01:21 +08:00 via Android
    维基百科政治相关的人物以及任职信息出生信息
    chainmon
        10
    chainmon  
       2018-11-04 22:30:45 +08:00 via Android
    句子迷
    kawkeye
        11
    kawkeye  
       2018-11-04 22:39:56 +08:00
    @Leigg #7 这个有点难度..哦
    lifeiccl
        12
    lifeiccl  
       2018-11-04 22:44:14 +08:00
    @clecho 拉勾还好了,我之前爬过
    SpiderXiantang
        13
    SpiderXiantang  
       2018-11-04 23:04:36 +08:00
    写个框架吧
    tomxin7
        14
    tomxin7  
       2018-11-04 23:07:52 +08:00
    全国的高校就业信息网,类似 jiandan.live 哎,要是有套框架就好了
    saran
        15
    saran  
       2018-11-04 23:15:02 +08:00
    可以不用 scrapy 不?就爬一下 unicode 对应的 unicode-id
    mabeple
        16
    mabeple  
       2018-11-04 23:22:39 +08:00 via iPhone
    我也在学爬虫。还不是很熟
    explore365
        17
    explore365  
       2018-11-04 23:44:55 +08:00
    @Leigg 公众号的好爬
    binux
        18
    binux  
       2018-11-04 23:46:49 +08:00 via Android
    @saran 直接下载个表不就好了
    kawkeye
        19
    kawkeye  
       2018-11-04 23:48:09 +08:00
    @explore365 #17 我之前从搜狗那个微信接口爬,失效太快了,不会找 token,有时候还会解码不了源代码
    erlking
        20
    erlking  
       2018-11-04 23:50:13 +08:00 via iPhone
    根据微博 id 获取此人点赞过的微博内容
    saran
        21
    saran  
       2018-11-05 01:36:55 +08:00
    @binux tangut unicode 和 unicode-id 没表下呐。。
    legiorange
        22
    legiorange  
       2018-11-05 10:32:39 +08:00
    脉脉
    主要是我和我家人收到这垃圾 app 的短信
    ddzzhen
        23
    ddzzhen  
       2018-11-05 14:18:48 +08:00
    请大神协助,这个网站我关注很久了,死活爬不到,貌似用的 socket 传的数据,不得要领,只要能够每小时爬取一次就行的,地址: http://www.usdebtclock.org/
    ucun
        24
    ucun  
    OP
       2018-11-05 15:47:20 +08:00   ❤️ 1
    @loading

    py 文件下载 https://omnas.ml/s/55YrRydoQZdBSib

    效果图 https://i.loli.net/2018/11/05/5bdff52b41c2c.png

    需求不详细,所以只有当日份的吐槽。也只能是命令行查看。
    loading
        25
    loading  
       2018-11-05 15:56:06 +08:00 via Android
    @ucun 可以了,剩下的我自己改,也学一下爬虫。

    您的行为很赞。
    soulm
        26
    soulm  
       2018-11-05 16:43:25 +08:00
    豆瓣电影搜索(输入电影名,输出搜索结果),要用到 post
    foxyier
        27
    foxyier  
       2018-11-07 10:14:52 +08:00
    看了看评论, 已经知道拿什么网站练手了
    foxyier
        28
    foxyier  
       2018-11-07 11:15:09 +08:00
    @ddzzhen 这个爬了会不会被抄水表= =。。
    locoz
        29
    locoz  
       2018-11-08 12:54:15 +08:00
    “单应用,即不需要代理、没有很变态的验证码、没有很复杂的 JS 解析”。。那不就是写 xpath 和正则吗,这种难度其实没啥必要拿来练手。
    直接找个应用商店把热度排行前 100 里大厂的社交媒体类 APP 的网站版和 APP 版都爬一遍,这种有难度的才能叫练手。
    ilovemeizi
        30
    ilovemeizi  
       2019-03-03 15:00:15 +08:00
    您好,请问您现在还爬吗,能否帮我爬取百度招聘所有招聘数据保存下来用于个人的毕业设计,
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5593 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 06:40 · PVG 14:40 · LAX 22:40 · JFK 01:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.