我准备做一个根据文字合成鬼畜视频的开源工具,目前有什么开源的语音转文字库吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1365 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在有哪些开源的语音识别方案可以识别文字并返回文字所在帧数吗?

12 条回复 • 2021-02-19 20:12:48 +08:00

darkscope

2021-02-19 13:56:02 +08:00

先用讯飞的写呗，功能 work 了再考虑替换

catsoul

2021-02-19 14:13:36 +08:00

如果我没记错的话，前几年有这么个东西

retrocode

2021-02-19 15:01:17 +08:00

@catsoul 那你还记得名字吗?我也想参考下.

retrocode

2021-02-19 15:02:38 +08:00

@darkscope 是滴,突然的想法,先做个技术选型,不然库是 JAVA 的,结果我做的 electron 就哭了.

murmur

2021-02-19 15:02:53 +08:00

根据文字合成鬼畜视频?这样的鬼畜有什么看头么，鬼畜又不是根据声音拼素材，口型同步基本都不做的，还是看创意，要么就改歌

catsoul

2021-02-19 15:19:21 +08:00

@retrocode 名字我不知道，之前在朋友圈蛮火的，一句普通的话输入进去，它自动从影视素材的片段库里找到每个字或者词的对应片段，然后合成一个小视频那种。但是因为他没有做语音的平滑处理，所以跟我们常看的鬼畜视频不太一样。

lovecy

2021-02-19 15:26:23 +08:00

把流行的素材整理成素材库，文字对应素材库里某个素材的某一段，不就行了，也就是只要有一个人有音频识别文字，大家都能用这段素材了。

retrocode

2021-02-19 15:38:19 +08:00

@murmur oldschool 嘛,我的想法是这些问题都可以通过单独 pr 优化,并对视频片段进行分类进行处理

retrocode

2021-02-19 15:39:34 +08:00

@lovecy 不一定要流行的素材库嘛,鬼畜同事岂不美哉,鬼畜也就图一乐,被追着打才刺激

lovecy

2021-02-19 15:58:06 +08:00

@retrocode 可以先从流行的开始啊，一开始就允许上传自定义素材，步子迈得太大了吧

GTim

2021-02-19 17:00:23 +08:00

说起这件事，我一直很想做另一件事：汉字常用 7000 左右，常用词语 10w+ 也就是说大概 11w 左右就可以了。剩下的汉子用同读音的汉字来替代就好了。然后，找个语音助手，慢慢把这 10w+ 抓下来就可以了

baobao1270

2021-02-19 20:12:48 +08:00

不是开源但是不要钱，UTAU 了解一下