Input 0：支持本地转录与自定义模型润色的 macOS 本地语音输入工具

macOS 自带语音听写其实并不是不能用。简单输入几句话、记录临时想法，它已经能完成基础需求。但很多人真正不满意的地方，并不是“能不能识别”，而是识别后的文本质量，以及数据处理路径是否足够可控。

系统听写往往会原样保留“嗯”“那个”“然后”这些口头禅，遇到技术术语、品牌名或中英混合内容时，也容易出现识别偏差。更关键的是，对于一些更在意隐私边界的人来说，云端识别流程始终会带来额外顾虑。

Input 0 的思路和传统语音输入工具不太一样。它把“语音转文字”和“文本润色”拆成了两层：前者尽量留在本机完成，后者则允许用户按需接入自己的 LLM API。这样既能减少原始语音外发，也保留了 AI 文本整理能力。对于经常口述草稿、整理会议内容或输入技术术语的人来说，它更像一个可控度更高的 macOS 本地语音输入工具。

Input 0 是什么？

Input 0 是一款面向 macOS 平台的开源本地语音输入工具，支持离线语音转文字与自定义 LLM 文本润色。它的核心特点，是将语音识别优先放在本地设备完成，再根据用户配置决定是否调用云端大模型进行后续整理。

相比传统云端听写工具，Input 0 更强调“分层处理机制”。用户既可以只使用本地语音转录，也可以额外配置 OpenAI 或兼容接口，让 AI 自动去掉口头禅、修正术语与优化表达。

目前它主要面向 Apple Silicon 设备用户，尤其适合需要高频输入、跨语种表达或对数据流向较敏感的人群。

核心功能

Input 0 更适合有一定动手能力、重视本地处理与输入效率的 Mac 用户。

本地语音转文字——优先调用本机算力完成语音识别
自定义 LLM 润色——支持 AI 自动整理与优化表达
快捷键输入——按住即可录音，松手自动转录
中英混合识别——适合技术术语与品牌名输入
多语音模型支持——可按需下载不同本地 STT 模型
API 自由接入——兼容 OpenAI 格式接口与本地模型
历史记录对比——查看原始转录与润色结果差异
任意输入框粘贴——自动输出到当前光标位置

使用场景

Input 0 更偏向高频文字输入与技术型办公场景，而不是偶尔聊天输入。

人群/角色	场景描述	推荐指数
M 系列 Mac 用户	高频语音输入与会议整理	★★★★★
技术从业者	输入术语与中英混合内容	★★★★★
内容创作者	口述草稿与快速记录想法	★★★★☆
开发者	配置本地模型与自定义 API	★★★★☆
隐私敏感用户	减少原始语音上传云端	★★★★☆
普通聊天用户	偶尔输入短消息	★★★☆☆
零配置小白用户	不想折腾模型与 API	★★☆☆☆

操作指南

Input 0 更像一个偏极客向的本地语音输入工具，真正的门槛不在安装，而在模型与 API 配置。

打开 Input 0
下载并安装 macOS 客户端
首次启动后授予麦克风权限
在设置中下载本地语音模型
根据需求选择 SenseVoice、Paraformer 或 Whisper 模型
如果需要 AI 润色，可配置 OpenAI 或兼容 API Key
使用默认快捷键「Option + Space」开始录音
松开按键后自动完成转录与文本输出（启用 LLM 时需联网调用接口）

（如果网络无法访问 Hugging Face，模型下载阶段可能会卡住。）

支持平台

Input 0 当前主要支持 macOS 平台，官方更推荐 Apple Silicon（M 系列芯片）设备使用。

虽然 Intel Mac 理论上也能运行，但在模型推理速度、功耗与发热表现上通常不如 Apple Silicon。由于其核心能力依赖本地模型推理，因此设备性能会直接影响实际体验。

工具支持本地 STT 模型与第三方 LLM API 组合使用，兼容 OpenAI 格式接口、本地 Ollama 与部分第三方模型服务商。

产品定价

Input 0 本身采用开源模式提供，基础本地语音转文字功能可直接使用。

如果只使用本地 STT 模型，不配置 LLM API，则不会产生额外模型调用费用。若开启 AI 润色，则相关成本取决于用户接入的模型服务商与 API 使用量。

需要注意的是，Input 0 当前采用 CC BY-NC 4.0 许可证，更适合个人学习与非商业用途。正式商用前，建议提前确认授权边界。

常见问题

Input 0 和 macOS 自带听写有什么区别？

系统听写更偏向基础语音输入，而 Input 0 更强调本地处理与后续文本整理。

它不仅支持本地语音转录，还允许用户接入自定义 LLM，对文本进行润色、纠错与术语修正。

使用本地模式是否代表数据完全不联网？

不一定。语音转录阶段主要在本地完成，不依赖云端识别。

但如果启用了 LLM 润色功能，转录后的文本仍会发送到你配置的大模型接口，因此数据流向仍取决于你的 API 配置。

哪种本地模型更适合中文用户？

对于大多数中文场景，SenseVoice Small 与 Paraformer 会更适合。

它们体积较小、启动速度快，对 Apple Silicon 设备的运行压力也相对更低。

开发者小结

Input 0 真正有意思的地方，并不是“语音转文字”本身，而是它把本地转录、模型选择与 AI 润色拆成了可自由组合的结构。相比传统封闭式语音输入工具，它给了用户更高的数据控制感与模型自由度。

当然，这种自由度也意味着它不会是完全傻瓜式的软件。模型下载、API 配置与网络环境，都会成为实际使用中的门槛。对于只想偶尔说几句话的人来说，系统自带听写可能已经够用。

但如果你本身就是 M 系列 Mac 用户，需要频繁口述草稿、输入技术术语或处理中英混合内容，那么 Input 0 这种“本地转录 + 自定义 LLM 润色”的工作流，确实会比传统语音输入更值得长期折腾。

# 未分类

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

最近访问

Input 0：支持本地转录与自定义模型润色的 macOS 本地语音输入工具

Input 0 是什么？

核心功能

使用场景

操作指南

支持平台

产品定价

常见问题

Input 0 和 macOS 自带听写有什么区别？

使用本地模式是否代表数据完全不联网？

哪种本地模型更适合中文用户？

开发者小结

花快图：支持无缝拼接与万花筒效果的在线花纹生成工具

飞搜 FeiSou：支持 AI 接入与知识库聚合的飞书文档搜索引擎

相关文章

暂无评论

站点公告

正在赞助

最新文章