文章
AI语音输入法,人类进入“不打字”时代

AI语音输入法,人类进入“不打字”时代

2026年1月29日 12:12·36kr

AI
语音输入法
自动化

一周前,我下载了一款叫 Typeless 的语音输入法,当时我没有意识到它会改变什么。

首先交代一下大背景:

从2025年下半年起,AI语音输入法成为骤然刮起的新风口。以语音输入为核心卖点的豆包输入法,登陆各大应用商店。大模型六小虎之一的智谱,推出智谱 AI 输入法。

其他的一些大厂输入法,也都或多或少在加码 AI 语音输入。1月27日,搜狗输入法宣布重磅升级其语音输入能力,称其识别率达到98%,日均语音使用次数近20亿次,稳居行业第一。

风景不止这边独好,太平洋对岸的 Wispr Flow 目前融资额达 8100 万美元,估值7个亿。由华人开发的后起之秀 Typeless 在 Product Hunt 上线后连日高居排行榜前列,先后推出覆盖主流平台的版本。此外,多个初创企业乃至个人开发者也推出了类似产品,闪电说、LazyTyper、Spokenly、秒言等等,不一而足。

我原本以为,这又是一次和往常一样的尝鲜。毕竟近几年来出现的 AI 新品如过江之鲫,其中大多数很难在我的屏幕上停留超过半天。所以,一开始我并没有抱很大期待。

结果却是,这是自 ChatGPT 以来,最让我眼前一亮的 AI 产品。我用了不到一周的时间,就改变了已经形成20多年的习惯:主要的输入方式从打字变成了语音。

甚至连这篇文章的初稿,也是用语音输入完成的。我专门申请了另一个 Typeless 账号,记录完成这篇文稿的数据:用时 53 分钟,输入 5500 字,每分钟 155 字,节省2.5 小时。

#01

更快更准更多,AI语音输入的降维打击

对我来说,放弃打字转向语音堪比“违背祖宗的决定”。

因为我自诩是个打字爱好者。为了更好的打字体验,专门学习击键次数更少的自然码双拼输入方案,配置了高度可定制化的输入法Rime,买过好几把不同轴体的机械键盘。你或许看不懂这句话里的部分词汇,没关系,你只需要知道,这是键盘和输入法爱好者群体中常见的专有名词。

即使如此,我的打字速度,最高也就每分钟八九十个字,普通人里已经算快了,大多数人的打字速度,也就每分钟四五十字。

我曾经潜伏在某个输入法爱好者群组,里面汇聚了众多大神级人物,他们每天讨论的话题,是如何自制各种类型的输入方案,提高打字效率。其中有位在某二线城市当大学老师的成员,跟我有着类似的经历,他从2025 年末开始,正式“皈依”语音输入。

“我之前电脑用五笔,手机用小鹤双拼,巅峰时五笔打字每分钟130多字。”他如是说,“但跟现在的AI 语音输入比起来,打字还是差太远了,我语音每分钟甚至可以达到250字。”

这个速度,即使是顶尖的打字专业选手,也望尘莫及。2013年全国汉字输入大赛的冠军,平均每分钟也才打175个字。即使是口条并不利索的我,语音输入也能稳定在每分钟150字左右,稍微努力下,就能超越打字冠军。

速度是快,准确率呢?答案是,很准。即使是在前ChatGPT 时代,也是如此。

2018年斯坦福大学、华盛顿大学和百度的一项联合论文显示,语音输入不论是速度还是准确率,都显著优于键盘。

速度上,英语母语者语音输入每分钟 153 字,键盘输入仅52字;中文拼音用户每分钟键盘输入43字,而语音达123字。不论中英文,语音输入都比打字快了约3倍。在输入过程的错误率上,语音的表现也更优。中文语音输入的纠错率为6.67%,而键盘输入高达17.73%。

在经历了几年大模型狂飙突进之后,AI语音的识别速度和准确率则更上一层楼。

Typeless 、智谱 AI 输入法、闪电说都称自己的速度比打字快4 倍,一款叫 LazyTyper 的语音输入法,更是声称比打字快7倍。准确率上,搜狗说自己准确率98%,智谱也在官网标注了 97.8%。从网上的评测和个人体验来看,这些广告语并不算夸张。

与大厂输入法在键盘上做加法不同,初创企业和个人开发者的语音输入产品迈的步子更大,或许必须更激进的姿态才能在红海里分一杯羹,他们直接取消了打字键盘,只保留了少数常用按钮,语音键被提拔到了C位。

传统的语音输入只是转录听写,但大模型加持下,语音输入是一种更高维的产品,是「语音意图输入法」。它不只可以将语音一字不漏地转录,也能识别输入者的意图,删除多余的语气词,修改语法错误,捋顺不连贯的地方,同时根据输入环境调整语气、翻译润色等等,都不在话下。

哪怕输出错了,也支持用语音修改。比如用 Typeless 输出一句话:“我想去延津县”,但其实你想输入的是“盐”津县,你也只需要对着这句话说“把yán 改成油盐酱醋的盐”即可。

当然,你肯定会反驳,语音输入就算又快又准,但不是什么场景都适用。嘈杂的人群中能听清吗?在办公室对着手机说话不尴尬吗?

曾经我也有类似的想法,但使用之后我打消了顾虑,即使是轻轻低语,也能基本准确无误的输入。

我在办公室偷偷用了5天语音输入后,问我的左右邻桌同事能不能听到我输入语音的声音,他们的反应是:

“你啥时候出声了?”

搜狗在宣传稿里称,自家输入法20分贝以下的语音依然有97%的正确率。20分贝,就相当于树叶的沙沙声,或者五米开外的低语。

目前最大的不良体验,反而来自意想不到的地方。比如戴上耳机后,语音输入的正确率反而不如不戴耳机。

比如单独字词的输入,远不如句子段落。越长的语音,准确率越高,显然得益于大语音模型的理解和推理能力,越长的语音,其意义就越明确,可供参考的情境也就更多。

而汉语中充满了同音字词,你只说一个没有上下文的「yì」,谁知道你说的是艺、抑、易、邑、屹、亿、役、臆、逸、肄、疫、亦、裔、意、毅、忆、义、益、溢、诣、议、谊、译、异、翼、翌、绎、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、呓、嗌、峄、怿、悒、驿、缢、殪、轶、熠、镒、镱、瘗、癔、翊、蜴、羿还是翳呢?

不用数了,这里有 57个 yì,汉语中同音字最多的读音。

但我相信,这些瑕疵日后都能得到一步步解决。就像不久前,AI 图片还无法攻克中文乱码的问题,现在你已经可以用Nano Banana稳定地输出带中文的图片了。

而瑕疵掩盖不住 AI语音输入更大的野心。

我正在用的 Typeless,光从名字上就可以看出,它远远不止想做一个输入法,而是让全世界进入无需打字(Typeless)的时代。

这样的野心并不出格。输入法一直是互联网最被忽视、却又是最基础的入口。大模型的摧枯拉朽,或许会给这片早已被瓜分完毕的战场,带来新的血腥。

#02

突破输入框,再造超级入口

在中国,互联网从 PC 时代的开放,走向了移动时代的封闭。App 之间筑起一道道高墙,形成一个个孤岛。时至今日,你甚至连在微信里点击观看抖音的视频都没法做到,更不要说打通他们之间的生态。

在一个个 App 孤岛里,只有为数不多的应用,能够雨露均沾地穿梭在它们之间,输入法就是其一。所有你需要表达诉求的地方,都需要它。以前,这个入口的重要性并没有显现出来,传统输入法能做的东西并不多,无非是收集用户的大数据,插入一些广告。

但这个入口,抹上了 AI 的浓妆后,别有一番风韵。大模型让输入法这一古老的产品,重新变得性感,隐约得以瞥见看到「超级入口」的绰约风姿:如果这个入口的产品,不仅仅只是打字,而是能实现跨 App 甚至更高级的调用呢?

其实目前的大模型,已具备了这样的能力。前一阵子豆包手机就因为能够实现系统级的调用而成为关注焦点,但遭到了众多 App 的抵制。

可以这么想,未来 AI 语音输入不再只是传统打字输入法的补充,而是一次突破输入框的升维。不妨大胆一点,如果这个入口干脆就是系统级的 AI 助手呢?在更广阔的未来,语音输入不只是移动设备,而是贯穿虚拟和现实世界的交流界面?

或许,未来的输入压根不需要专门的输入法,也不需要这占据了小半个屏幕的一亩三分地,它只是系统级 AI 助手顺带手就能完成的小事一桩。具象一点,AI 语音输入的未来应该是理想中的 Siri。

苹果也可能意识到了这一点。据报道,苹果将在 2026 年 6 月推出全新版 AI 助手,具备对话式交互能力,并有望整合到邮件、音乐、编程软件等核心应用中。用户只需要对着 iPhone 轻声低语,就可以调用各种应用。

为什么偏偏是语音输入呢?因为语音输入才是人类交流的初始设置。语音输入重归 C 位,只不过是技术对人类行为的一次拨乱反正,人类的交流范式重新回到最自然、最合理的状态。

#03

打字输入,才是人类走的弯路

很多人把打字当作互联网交流的初始设置,在我潜伏的输入法爱好者群组里,就有一位带点原教旨主义色彩的打字拥趸。他至今仍抗拒使用语音输入,他认为,对着手机电脑自言自语,简直愚蠢到家。至于原因,他回复了略有循环论证嫌疑的十一个字:

“语音是异端,打字才是正统。”

然而回望人类历史,打字交流才是人类走过的弯路,语音从古至今都是人类交流的主要方式。即使是今天,世界上现存的约7000种语言里,绝大部分都没有文字,只依靠口口相传。

科学界普遍认为口语诞生自10到20万年前。而目前已知最早的成型文字是5500年前苏美尔人的楔形文字。我们打字用的QWERTY键盘,直到19世纪中后叶才出现,距今不过150年。

如果把人类语言交流史划分为24小时,那么人类在最后一分钟才开始用键盘输入文字。

套用《思考,快与慢》的作者丹尼尔·卡尼曼的观点,说话属于「系统1」,是刻在基因里的本能,不需要太多思考,依赖直觉和习惯就行。而打字则属于「系统2」,是你通过无数次敲击建立起来的后天习惯,是需要费脑费力才能完成的动作。

与英文输入的简单直接相比,中文输入更难更复杂。从打字机时代开始,在很长一段时间里,用键盘输入汉字是难倒无数英雄汉的技术难题,有人甚至想通过消灭汉字采用拉丁字母的方式「曲线救国」。

1980 年,一本叫《语文现代化》的杂志这样写道:“历史将证明,电子计算机是方块汉字的掘墓人,也是汉语拼音文字的助产士。”

被很多人视为互联网交流正统方式的中文打字,其实不过短短半世纪的历史。1983 年,王永民发明五笔字型,通过「横、竖、撇、捺、折」五种笔画给简体中文编码,由于其重码率非常低,熟练者可以实现盲打,很快就成为风靡全国的打字方式。

「王旁青头戋五一」。很多年轻人不知道,自己父母那一辈,打字是需要背口诀的,甚至需要报班花很长时间培训才能掌握的技能。再后来,拼音输入法的出现和互联网的普及,才让打字的门槛降下来。

但直到今天,中文输入法依然难以解决一个矛盾:输入效率高的五笔,门槛也高;门槛低的拼音,输入效率也低。你在 2026 年的知乎随手搜一下「输入法」这个关键词,就会发现多个吐槽输入法越来越难用的话题。

五笔、拼音、注音、仓颉,不同的输入方案卷来卷去,但它们之间并无本质差别,并不能真正解决汉字输入法的痛点。或许我们应该认识到,打字,只不过是人类在语音和图像交互技术尚未成熟之前的权宜之计。

如今,大模型技术日渐成熟,语音识别技术有了质的飞跃,规模化的替代效率低下的打字输入法,几乎是必然。伦敦政治经济学院的一项研究发现,预计到 2028 年,生成式 AI 将主要以语音方式交互。

当然,短期内语音输入并不会完全取代传统输入法。语音输入还有很大的进步空间,饭要一口一口吃,路也要一步一步走。

就我个人而言,重度使用语音输入后有两个意外之喜。

一是改变了我的写作方式。以前写文章,我需要在电脑前一坐就是几个小时,即使是用着符合人体工学的键盘、鼠标和椅子,也难以抵挡久坐带来的生理不适。

你现在看到的这篇文章,大部分文字是我在沙发上躺着、在马桶上坐着、在地铁上站着写出来的,我告别了预留大块时间的写作模式,转而变成「随地大小写」。

与其说我面对的是一个语音输入法,不如说是在对着一个具有整理、思考能力和主观能动性的秘书,既忠实我的原意,也不至于照搬全收。也许我们可以效仿眼下在程序员中流行的Vibe Coding(氛围编程),为码字的人也创造一个全新的名词——Vibe Writing(氛围写作)

二是语音让我与 AI 的交流更高效。打字时受制于速度,我倾向使用更简短的提示词,往往需要多轮交互才能得到想要的结果。而语音输入时,我会一口气说出一段很长的提示词,甚至达到四五百字,常常一次性就能得到满意的答案。

就像现在的 10 后不知道为什么手机屏幕上电话的标识是听筒,未来的一代或许也不知道,为什么曾经人们输入文字还要专门装一个输入法。

本文来自微信公众号“真故研究室”(ID:zhengulab),作者:冯诺,编辑:龚正,36氪经授权发布。