开源免费的文本转视频工具：text2video

开源项目2年前 (2024)更新江南白衣

text2video是一个开源的文本转视频工具，旨在通过简单的一键操作将文本内容转换为生动的视频。该工具的初衷是实现小说和其他文本内容的可视化阅读功能，使得用户能够以更直观的方式体验故事情节和文字表达。

使用text2video时，用户只需输入一段文本，工具会自动通过标点符号（如句号）将文本分段。接着，系统利用稳定扩散（stable diffusion）技术生成与文本内容相对应的图像，并通过边缘文本转语音（edge-tts）技术将文本转换为自然流畅的语音。生成的图像和音频随后会通过OpenCV合并成一个MP4视频，视频底部会显示相应的文字内容，以增强观众的理解和沉浸感。

在视频播放过程中，音频的时长会根据画面的播放进度进行控制，确保声音与画面完美同步。最后，使用FFmpeg工具将音频和视频合并，生成最终的可播放视频文件，并保存到用户指定的本地目录。

尽管text2video提供了强大的功能，但它并非一个开箱即用的工具。用户在使用过程中需要具备一定的技术知识，包括对命令行操作的熟悉程度以及对相关技术（如图像处理和音频处理）的基本理解。这使得text2video更适合那些对视频制作和编程有一定了解的用户，能够充分发挥其潜力，创造出独特的可视化作品。

总之，text2video不仅为文本内容的呈现方式带来了创新，也为创作者提供了一个全新的平台，让他们能够将文字转化为生动的视觉体验，吸引更多观众的注意力。随着技术的不断进步，text2video有望在未来为更多用户提供更为便捷和丰富的功能。

开源地址：https://github.com/bravekingzhang/text2video

实现原理

将文本进行分段，现在没有想到好的办法，就是通过标点符号句号分段，分成一个个的句子
通过句子生成图片，生成声音，图片开源的有很多，本方案采用 stable-diffusion，语言转文字使用 edge-tts
通过大模型生成midjourney类的提示词，然后通过huggingface的模型生成图片。
在通过 opencv 将图片合并为视频，目前输出 mp4 格式的视频，句子作为字母贴到视频内容的底部区域。
音频是一个有时间概念的东西，恰好可以通过音频控制一张画面的播放时长
在通过 ffmpeg 将音频合并到原始视频中。
最终，一个有画面，有字幕，有声音的视频就出现了，咱们实现了一个文本转视频。

# 开源项目