关于本地部署 DeepSeek-r1 模型进行定制化训练的问题,想请教一些技术细节。我们公司计划开发一套智能问答系统,主要用于内部业务指南的自动化处理。考虑到数据安全性和定制化需求,我们希望在本地环境部署 DeepSeek-r1 模型。
具体而言,我们有以下疑问:
通过向模型提供高质量的领域特定数据,是否能够有效训练出符合公司业务需求的定制化模型? 在训练过程中所使用的技术是什么? 我们计划使用公司积累的高质量业务文档和知识库作为训练数据,期望最终模型能够准确理解和回答与公司业务相关的问题。
感谢各位大佬的宝贵时间和建议!
1
Kite6 13 小时 29 分钟前 via Android
671b ,成本爆炸
|
2
CodingNameless OP 不会用到 671b ,只是 14b 或者 32b 这种能回答一些基本问题的,然后也能结合我们公司的业务知识
|
3
CodingNameless OP @Kite6 #1 不会用到 671b ,只是 14b 或者 32b 这种能回答一些基本问题的,然后也能结合我们公司的业务知识
|
4
qxmqh 12 小时 53 分钟前 1
你去 github 上搜一个叫 LLaMA-Factory 的东西。你会发现有惊喜。
|
5
Mianmiss 11 小时 57 分钟前 1
推荐你用 DIFY 建立公司知识库,微调就算有框架,没点技术 也很难训练成。
|
6
Dw521 11 小时 39 分钟前
ollama 搜索一下这个也会有惊喜
|
7
visper 11 小时 22 分钟前
直接 ollama 一个命令...
|
8
newaccount 10 小时 25 分钟前
14b 和 32b 就是被 deepseek-r1 提拔了两句的阿里通义千问,它跟 deepseek 的关系就是没啥关系
|
9
heliar 10 小时 4 分钟前
先别一开始就想着训练,用 RAG 试试。训练的话你知识库经常更新成本不低
|
10
JohnYehyo 8 小时 16 分钟前
AI 初阶玩家好奇问一下, 如果微调的是 deepseek 蒸馏过的模型比如 OP 提到的 DeepSeek-R1-Distill-Qwen-14B, 那么
1.会不会让模型反而表现不佳 2. 和我直接微调蒸馏对应的 Base Model(比如 Qwen2.5-14B)区别大吗 |