V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
craftx
V2EX  ›  问与答

假如我扒光了 XXX 网站的内容……会怎么样?

  •  
  •   craftx · 48 天前 · 3335 次点击
    这是一个创建于 48 天前的主题,其中的信息可能已经有所发展或是发生改变。
    文中的 XXX ,可以替换为任何一家网站。

    首先假设:
    1. XXX 是由一家中国大陆地区的商业公司建设和运营。——注意这里有两个重点,运营方是追求利润的公司,而且是中国大陆地区的公司(比如世纪佳缘那种)
    2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
    3. XXX 有 robots.txt ,禁止爬虫
    4. XXX 有反爬虫机制,比如限制单个 IP 的访问频率、验证码、滑块

    然后假设,我扒光 XXX 的手段包括且不限于:
    1. 伪造浏览器标识,或者直接使用无窗口浏览器模拟人类真实操作
    2. 变换 IP 地址
    3. 通过技术手段模拟人类真实操作去突破验证码、滑块等反爬虫机制

    最后假设,我拿到 XXX 的全部内容后,用于下面的目的:
    1. 训练深度学习语言模型,模型可能开源或闭源,训练目的可能是技术研究或者商业应用
    2. 语言模型推理的外挂知识库,XXX 的内容可能直接原文插入到知识库,也可能经过清洗、分割、增强、重新合成后插入到知识库。——注意这里两个使用方式是有区别的,一个用原文,一个非原文

    那么,会怎么样?
    16 条回复    2024-09-29 01:45:46 +08:00
    wclebb
        1
    wclebb  
       48 天前
    参考纽约时报告 OpenAI 。
    blackeeper
        2
    blackeeper  
       48 天前
    放心吧,只要你用于商业行为,严重影响到他,可以抓到你的。
    XXX 的内容是有指纹标记的,不管你怎么清洗处理,总会有漏网之鱼。
    找到一处标记,就可以锁定了
    opengps
        3
    opengps  
       48 天前
    凡是擦边的,无论做不做,都不要拿出来公开说
    opengps
        4
    opengps  
       48 天前
    你拿出来说无非是想分摊风险,但既然你要做这事了,风险都应当是你自己去承担,别人参与讨论也不是在帮你找越线边界
    Greendays
        5
    Greendays  
       48 天前
    首先这个网站得发现你的违法行为。
    falcon05
        6
    falcon05  
       48 天前 via iPhone
    现在的各种大模型就是最大的爬虫,网站早就被扒了不知多少次了。
    coderluan
        7
    coderluan  
       48 天前
    那么你就是把来源删了的 new bing.
    darkengine
        8
    darkengine  
       48 天前
    2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
    3. XXX 有 robots.txt ,禁止爬虫
    ------

    有了这两条,就看 xxx 公司能不能发现你爬数据,以及想不想搞你了。
    esee
        9
    esee  
       47 天前 via Android   ❤️ 2
    🌚大部分公司并不是只靠这个软件信息系统挣钱,真正支撑起来的是后面的业务团队,这个业务团队利用这些信息才能挣到钱,少了一方都没啥用。大部分程序员都会有一种错觉,把对方的功能或者网站或者资料复制一份过来,也能复刻出一个一样的挣钱模式
    summerwar
        10
    summerwar  
       47 天前
    我不觉得国内哪个网站的资料值得,当然,你获得了一堆资料,但是宣传的时候如果用了这家网站的资料作为噱头,而他们查完发现你并不在付费用户之中,那么你就有了一次难得的机会,去解释获取资料的合理途径。
    NoOneNoBody
        11
    NoOneNoBody  
       47 天前
    最近一个月扒了十几个站,正在等律师信,透过 tor 搭桥扒的
    googlefans
        12
    googlefans  
       47 天前
    可以随时告你
    zerovoid
        13
    zerovoid  
       47 天前 via Android
    不会怎么样,这家公司只会把自己的技术风控部门给开除了
    jackOff
        14
    jackOff  
       47 天前
    哪怕你爬了了诈骗网站内容警察也可以抓你,除非你有所谓的重大立功。否则你的行为就是爬虫犯罪
    wnpllrzodiac
        15
    wnpllrzodiac  
       47 天前 via Android
    你被网站扒光。。。
    flynaj
        16
    flynaj  
       47 天前 via Android
    你说的就是百度,中文网站很多就是这样被百度干死的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3835 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 04:14 · PVG 12:14 · LAX 20:14 · JFK 23:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.