macOS 自带语音听写其实并不是不能用。简单输入几句话、记录临时想法,它已经能完成基础需求。但很多人真正不满意的地方,并不是“能不能识别”,而是识别后的文本质量,以及数据处理路径是否足够可控。
系统听写往往会原样保留“嗯”“那个”“然后”这些口头禅,遇到技术术语、品牌名或中英混合内容时,也容易出现识别偏差。更关键的是,对于一些更在意隐私边界的人来说,云端识别流程始终会带来额外顾虑。
Input 0 的思路和传统语音输入工具不太一样。它把“语音转文字”和“文本润色”拆成了两层:前者尽量留在本机完成,后者则允许用户按需接入自己的 LLM API。这样既能减少原始语音外发,也保留了 AI 文本整理能力。对于经常口述草稿、整理会议内容或输入技术术语的人来说,它更像一个可控度更高的 macOS 本地语音输入工具。
Input 0 是什么?
Input 0 是一款面向 macOS 平台的开源本地语音输入工具,支持离线语音转文字与自定义 LLM 文本润色。它的核心特点,是将语音识别优先放在本地设备完成,再根据用户配置决定是否调用云端大模型进行后续整理。
相比传统云端听写工具,Input 0 更强调“分层处理机制”。用户既可以只使用本地语音转录,也可以额外配置 OpenAI 或兼容接口,让 AI 自动去掉口头禅、修正术语与优化表达。
目前它主要面向 Apple Silicon 设备用户,尤其适合需要高频输入、跨语种表达或对数据流向较敏感的人群。

核心功能
Input 0 更适合有一定动手能力、重视本地处理与输入效率的 Mac 用户。
- 本地语音转文字——优先调用本机算力完成语音识别
- 自定义 LLM 润色——支持 AI 自动整理与优化表达
- 快捷键输入——按住即可录音,松手自动转录
- 中英混合识别——适合技术术语与品牌名输入
- 多语音模型支持——可按需下载不同本地 STT 模型
- API 自由接入——兼容 OpenAI 格式接口与本地模型
- 历史记录对比——查看原始转录与润色结果差异
- 任意输入框粘贴——自动输出到当前光标位置
使用场景
Input 0 更偏向高频文字输入与技术型办公场景,而不是偶尔聊天输入。
| 人群/角色 | 场景描述 | 推荐指数 |
|---|---|---|
| M 系列 Mac 用户 | 高频语音输入与会议整理 | ★★★★★ |
| 技术从业者 | 输入术语与中英混合内容 | ★★★★★ |
| 内容创作者 | 口述草稿与快速记录想法 | ★★★★☆ |
| 开发者 | 配置本地模型与自定义 API | ★★★★☆ |
| 隐私敏感用户 | 减少原始语音上传云端 | ★★★★☆ |
| 普通聊天用户 | 偶尔输入短消息 | ★★★☆☆ |
| 零配置小白用户 | 不想折腾模型与 API | ★★☆☆☆ |
操作指南
Input 0 更像一个偏极客向的本地语音输入工具,真正的门槛不在安装,而在模型与 API 配置。
- 打开 Input 0
- 下载并安装 macOS 客户端
- 首次启动后授予麦克风权限
- 在设置中下载本地语音模型
- 根据需求选择 SenseVoice、Paraformer 或 Whisper 模型
- 如果需要 AI 润色,可配置 OpenAI 或兼容 API Key
- 使用默认快捷键「Option + Space」开始录音
- 松开按键后自动完成转录与文本输出(启用 LLM 时需联网调用接口)
(如果网络无法访问 Hugging Face,模型下载阶段可能会卡住。)
支持平台
Input 0 当前主要支持 macOS 平台,官方更推荐 Apple Silicon(M 系列芯片)设备使用。
虽然 Intel Mac 理论上也能运行,但在模型推理速度、功耗与发热表现上通常不如 Apple Silicon。由于其核心能力依赖本地模型推理,因此设备性能会直接影响实际体验。
工具支持本地 STT 模型与第三方 LLM API 组合使用,兼容 OpenAI 格式接口、本地 Ollama 与部分第三方模型服务商。
产品定价
Input 0 本身采用开源模式提供,基础本地语音转文字功能可直接使用。
如果只使用本地 STT 模型,不配置 LLM API,则不会产生额外模型调用费用。若开启 AI 润色,则相关成本取决于用户接入的模型服务商与 API 使用量。
需要注意的是,Input 0 当前采用 CC BY-NC 4.0 许可证,更适合个人学习与非商业用途。正式商用前,建议提前确认授权边界。
常见问题
Input 0 和 macOS 自带听写有什么区别?
系统听写更偏向基础语音输入,而 Input 0 更强调本地处理与后续文本整理。
它不仅支持本地语音转录,还允许用户接入自定义 LLM,对文本进行润色、纠错与术语修正。
使用本地模式是否代表数据完全不联网?
不一定。语音转录阶段主要在本地完成,不依赖云端识别。
但如果启用了 LLM 润色功能,转录后的文本仍会发送到你配置的大模型接口,因此数据流向仍取决于你的 API 配置。
哪种本地模型更适合中文用户?
对于大多数中文场景,SenseVoice Small 与 Paraformer 会更适合。
它们体积较小、启动速度快,对 Apple Silicon 设备的运行压力也相对更低。
开发者小结
Input 0 真正有意思的地方,并不是“语音转文字”本身,而是它把本地转录、模型选择与 AI 润色拆成了可自由组合的结构。相比传统封闭式语音输入工具,它给了用户更高的数据控制感与模型自由度。
当然,这种自由度也意味着它不会是完全傻瓜式的软件。模型下载、API 配置与网络环境,都会成为实际使用中的门槛。对于只想偶尔说几句话的人来说,系统自带听写可能已经够用。
但如果你本身就是 M 系列 Mac 用户,需要频繁口述草稿、输入技术术语或处理中英混合内容,那么 Input 0 这种“本地转录 + 自定义 LLM 润色”的工作流,确实会比传统语音输入更值得长期折腾。
