ybs 字幕
解决断句问题
有使用过 Youtube 自动生成字幕的用户都知道,自动生成字幕一直存在断句的问题。这些字幕没有标点符号,不同的句子会连在一起,并在某个时间点断开(如下图的主字幕)。由于 Youtube 的字幕翻译是根据这些断开的句子逐行翻译的,这导致翻译质素很糟糕。
我们使用机器学习修复这些字幕,重新组合这些断开的句子,这可使翻译质素大大提高。
生成速度
由于 ybs 字幕是基于现有的字幕生成的,这使生成速度非常快。
以 freecodecamp 的 19 小时教学影片为例,我们只需要 30 秒 即可生成全部字幕。
以 Melanie Nakagawa, Chief Sustainability Officer at Microsoft 这部 48 分钟的影片为例,ybs 需时 12 秒,whisper 需时 3 分钟 22 秒(使用 RTX 4090)