V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kuokyong
V2EX  ›  程序员

为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据

  •  
  •   kuokyong ·
    kkyon · 2019-12-10 20:29:21 +08:00 · 5130 次点击
    这是一个创建于 1801 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有点标题党,不过都说都真实的。英语技能对开发员人员至关重要。所有人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。本来计划给自己做个开发人员常用单词表,感觉可能对其它人也有用,所以就发布开源出来。单词解释部分还没完成,后面会逐渐添加。

    单词列表托管在 Github 上,一共将近 3000 个。

    https://github.com/kkyon/Simple-IT-English

    单词主要来自:StackOverflow 和 HackerNews.

    Source|Newest Post|Oldest Post|Row Count|Size --------|--------------|---------------|------------|---- HackerNews comments|2015-10-13 08:44:02 UTC|2006-10-09 19:51:01 UTC|8399417|3.41 GB HackerNews stories|2015-10-13 08:44:34 UTC|2006-10-09 18:21:51 UTC|1959809|402.71 MB StackOverflow answers|2019-09-01 05:22:21.463 UTC|2008-08-01 13:16:49.127 UTC|27665009|22.27 GB StackOverflow questions|2019-09-01 05:23:41.743 UTC|2008-08-03 21:38:52.623 UTC|18154493|28.13 GB

    29 条回复    2019-12-13 13:53:52 +08:00
    exhades
        1
    exhades  
       2019-12-10 20:37:40 +08:00 via Android
    感谢分享
    resist
        2
    resist  
       2019-12-10 21:00:16 +08:00
    感谢,太懒了我,有注释就更好了,手动狗头
    kuokyong
        3
    kuokyong  
    OP
       2019-12-10 21:16:22 +08:00
    @resist 后面会添加解释和例子
    secondwtq
        4
    secondwtq  
       2019-12-10 21:28:50 +08:00
    @kuokyong 嗯,能把单词出现的句子加上会更好
    不过这个总觉得很难做 … 一是数据量很大,二是社区不比媒体,很多句子都是网络语言,其实不适合作为例句
    kuokyong
        5
    kuokyong  
    OP
       2019-12-10 21:33:03 +08:00
    @secondwtq 是有点难度,SO 数据量有点大,还有筛选出来句子,需要找个算法排优先级。后面会找时间尝试一下。
    SquirrelMAN
        6
    SquirrelMAN  
       2019-12-10 21:33:11 +08:00
    很有价值!
    jdhao
        7
    jdhao  
       2019-12-10 21:34:09 +08:00 via Android
    f1ren2es
        8
    f1ren2es  
       2019-12-10 23:09:24 +08:00
    支持~
    ddzzhen
        9
    ddzzhen  
       2019-12-10 23:10:51 +08:00 via Android
    赞,英语四级卡线路过
    cedoo22
        10
    cedoo22  
       2019-12-10 23:12:07 +08:00
    赞👍
    hannhuan
        11
    hannhuan  
       2019-12-10 23:45:17 +08:00   ❤️ 3
    太好了,第一个单词不是 Abandon。
    zhoudaiyu
        12
    zhoudaiyu  
       2019-12-10 23:48:23 +08:00
    第一个 aaron 就不认识 doge
    ClericPy
        13
    ClericPy  
       2019-12-11 00:17:52 +08:00
    不错, 以前想过这些语料可以做什么, 你开了个好头, 也给国外这些主动开源自家数据的站点点赞, 比自己抓省太多时间了, 也避免服务器压力太大

    除了列表... 能有其他功能不

    1. 词典功能
    2. 按热度排序
    3. 按逆文本频率+热度排序
    4. 常错词
    5. 词向量找近义词
    6. 生僻词
    7. 自造词
    8. 共现词
    9. 长尾关键词
    10. 热点趋势图? 关键词热度变化曲线
    11. 词云?
    12. 我好无聊
    secondwtq
        14
    secondwtq  
       2019-12-11 00:26:04 +08:00
    @zhoudaiyu aaron 是人名吧 ... 知名人物如 Aaron Swartz
    嘛这也是 ... xref 都出来了,还有 Adobe 公司应该是得名于一条叫 Adobe 的河,我查了下 adobe 本身好像也是单词但是估计这个语料里的 adobe 指的是 adobe 公司 ... 还有 jekyll 啥的
    不过这种词总体不多,估计楼主要把频率更少的词也放进去就不好处理了
    xiangjian
        15
    xiangjian  
       2019-12-11 00:32:31 +08:00
    0726
        16
    0726  
       2019-12-11 00:37:46 +08:00 via iPhone
    牛皮哈
    KentY
        17
    KentY  
       2019-12-11 00:40:32 +08:00   ❤️ 1
    readme 里的英语问题挺多的.
    如果得空了改进一下.
    wwb721
        18
    wwb721  
       2019-12-11 09:43:02 +08:00
    太棒了,之前做过把 typescript lib 下的 zh-cn 的 diagnostic messages 中的单词切割出来去重,也能学到好多东西。
    whisperer
        19
    whisperer  
       2019-12-11 09:47:31 +08:00
    如果能跟 @lijy91 的「一路背单词」合作一下就好了,/t/608958
    做成一个单词本方便学习
    kuokyong
        20
    kuokyong  
    OP
       2019-12-11 10:14:20 +08:00
    @whisperer 太棒了。 我试一下联系 @lijy91
    bofei
        21
    bofei  
       2019-12-11 10:53:42 +08:00
    怎么没有中文啊
    cloudopt
        22
    cloudopt  
       2019-12-11 10:54:51 +08:00
    欢迎直接引用 Cloudopt 词典。如 https://s.cloudopt.net/search?q=aggregate&time_range=&language=zh-CN&category=dict
    ,方便大家点击查找。词典功能是没有任何广告的,我们也不靠这个功能盈利。
    kuokyong
        23
    kuokyong  
    OP
       2019-12-11 11:04:59 +08:00
    @bofei 还在补充。
    vjnjc
        24
    vjnjc  
       2019-12-11 12:48:30 +08:00
    哈哈哈这个思路不错,喜欢
    vjnjc
        25
    vjnjc  
       2019-12-11 12:49:55 +08:00
    要是能按照频次从高到低降序排就更好了,我只背前 500 个~
    RSDTE
        26
    RSDTE  
       2019-12-11 12:56:29 +08:00
    我只背前 500 个 +1
    lijy91
        27
    lijy91  
       2019-12-11 14:28:20 +08:00
    @kuokyong
    @whisperer
    我来了
    la2la
        28
    la2la  
       2019-12-11 17:25:28 +08:00
    收藏了 不看系列
    kuokyong
        29
    kuokyong  
    OP
       2019-12-13 13:53:52 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5390 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:13 · PVG 15:13 · LAX 23:13 · JFK 02:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.