V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
CodingNameless
V2EX  ›  程序员

如何本地部署 DeepSeek-r1 模型训练自己的大模型

  •  
  •   CodingNameless · 13 小时 50 分钟前 · 990 次点击

    关于本地部署 DeepSeek-r1 模型进行定制化训练的问题,想请教一些技术细节。我们公司计划开发一套智能问答系统,主要用于内部业务指南的自动化处理。考虑到数据安全性和定制化需求,我们希望在本地环境部署 DeepSeek-r1 模型。

    具体而言,我们有以下疑问:

    通过向模型提供高质量的领域特定数据,是否能够有效训练出符合公司业务需求的定制化模型? 在训练过程中所使用的技术是什么? 我们计划使用公司积累的高质量业务文档和知识库作为训练数据,期望最终模型能够准确理解和回答与公司业务相关的问题。

    感谢各位大佬的宝贵时间和建议!

    Kite6
        1
    Kite6  
       13 小时 29 分钟前 via Android
    671b ,成本爆炸
    CodingNameless
        2
    CodingNameless  
    OP
       13 小时 27 分钟前
    不会用到 671b ,只是 14b 或者 32b 这种能回答一些基本问题的,然后也能结合我们公司的业务知识
    CodingNameless
        3
    CodingNameless  
    OP
       13 小时 27 分钟前
    @Kite6 #1 不会用到 671b ,只是 14b 或者 32b 这种能回答一些基本问题的,然后也能结合我们公司的业务知识
    qxmqh
        4
    qxmqh  
       12 小时 53 分钟前   ❤️ 1
    你去 github 上搜一个叫 LLaMA-Factory 的东西。你会发现有惊喜。
    Mianmiss
        5
    Mianmiss  
       11 小时 57 分钟前   ❤️ 1
    推荐你用 DIFY 建立公司知识库,微调就算有框架,没点技术 也很难训练成。
    Dw521
        6
    Dw521  
       11 小时 39 分钟前
    ollama 搜索一下这个也会有惊喜
    visper
        7
    visper  
       11 小时 22 分钟前
    直接 ollama 一个命令...
    newaccount
        8
    newaccount  
       10 小时 25 分钟前
    14b 和 32b 就是被 deepseek-r1 提拔了两句的阿里通义千问,它跟 deepseek 的关系就是没啥关系
    heliar
        9
    heliar  
       10 小时 4 分钟前
    先别一开始就想着训练,用 RAG 试试。训练的话你知识库经常更新成本不低
    JohnYehyo
        10
    JohnYehyo  
       8 小时 16 分钟前
    AI 初阶玩家好奇问一下, 如果微调的是 deepseek 蒸馏过的模型比如 OP 提到的 DeepSeek-R1-Distill-Qwen-14B, 那么
    1.会不会让模型反而表现不佳
    2. 和我直接微调蒸馏对应的 Base Model(比如 Qwen2.5-14B)区别大吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:07 · PVG 03:07 · LAX 11:07 · JFK 14:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.