ccsert

V2EX 第 667106 号会员，加入于 2023-12-15 10:20:22 +08:00

今日活跃度排名 2616

ccsert 提问技术话题好玩工作信息交易信息城市相关

ccsert 最近回复了

14 天前

回复了 slight 创建的主题 › 奇思妙想 › 有什么工具可以链接和整合各种知识库，并结合 AI 技术提高效率？

@slight #5 可以调用 dify 知识库接口然后做一些触发器实现新增知识的关联

14 天前

回复了 irisdev 创建的主题 › Java › 请教后台接口如何根据前台的筛选条件动态构造查询 sql

可以看看 bean-searcher 这个框架，专门做复杂查询的 https://gitee.com/troyzhxu/bean-searcher

16 天前

回复了 XinPingQiHe 创建的主题 › 程序员 › 有经验的 v 友看看，这个 AI 知识库私有化部署的方案行吗，怎么改进

@ccsert 这里虽然是行业规范文档，但是实际 ai 处理时候并不一定认为是规范的，在 embedding 过程中可能还是会出现拟合的情况，所以有时候清洗后二次提纯是很有必要的

16 天前

回复了 XinPingQiHe 创建的主题 › 程序员 › 有经验的 v 友看看，这个 AI 知识库私有化部署的方案行吗，怎么改进

1. 行业规范文档处理
预处理脚本: 需要对文档进行预处理，包括去除无关信息、格式化文本、提取关键内容等。可以使用 Python 脚本结合正则表达式、BeautifulSoup 等工具进行处理。

文档清洗: 文档中可能包含图片、表格等复杂内容，这些内容可以通过 OCR 提取文本，或者通过专门的文档解析工具（如 Apache Tika ）进行处理，现在有一些多模态的大模型对图片也有一定的理解，可以考虑尝试。

AI 二次提纯: 使用一些开源大语言模型将对提取的文本进行进一步处理，去除噪声、提取关键信息，这里实际提示词工程就已经可以做的比较优秀了。

知识库构建: 目前实际没有特别好的，但是因为上述的操作对文档已经做了清洗和提纯，到这一步实际使用一些 embedding 模型和开源向量库即可了，后续做知识库问答的时候可以使用一些简单的 rag 平台，例如 dify 这些以外部 api 的方式对接，这里个人觉得 dify 的知识库效果实际比较一般，当然也可以将处理好的文本内容通过 dify 的知识库 api 调用生成也不错。

2. 会议录音处理
说话人识别: 可以使用开源工具如 Kaldi 、pyannote.audio 等进行说话人识别。如果能在源头解决实际会更好一些，比如在会议录制的时候就确定说话人。

会议纪要生成: 这一步实际比较简单结合现有开源大模型提示词工程生成会议纪要。如果想做的更细致一些，可以在处理音频或视频数据的时候打时间轴标签。

时间轴跳转: 可以在生成的会议纪要中加入时间戳，方便用户快速跳转到特定时间点的内容。

3. 私有化部署
语言大模型选择: 目前开源的大模型效果已经很不错了，如果资金充裕，deepseek 私有化部署一整套包括预训练环境好像就是 50w 左右
整个过程实际工程量非常庞大，涉及的领域也比较庞杂，就算上述的基本要素已经具备，也还涉及大量的开发，文本解析，数据处理，提纯，甚至多智能体协同，函数调用都需要整合起来使用才能达到目标需求

» ccsert 创建的更多回复