一支录音笔里的江湖

钛媒体APP

发布时间: 06-0713:13鲲鹏计划获奖作者,钛媒体APP官方帐号

图片来源@视觉中国

文丨新眸,作者丨凌石,编辑丨栖木

“市场与技术的匹配度问题,需要找到破坏性技术的新利基市场。”克莱顿·克里斯坦森曾在《创新者的窘境》一书中写到,这一逻辑同样也适用于录音笔行业。

新眸注:利基市场是指在较大的细分市场中具有相似兴趣或需求的一小群顾客所占有的市场空间,大多数成功的创业型企业一开始并不在大市场开展业务,而是通过识别较大市场中新兴的或未被发现的利基市场而发展业务。

搜索录音笔词条,你会发现人们将录音笔分为三代,第一代为磁带录音笔,第二代为数码录音笔,第三代为智能录音笔,这也恰好对应着录音笔的演进三阶段。

磁带录音笔流行于1835-1998年间,这一时期的代表玩家主要是飞利浦、索尼,磁带录音过程大致是这样的:先经过专门的处理,声音转化为能引起带上的粉粒磁化的电信号,当磁带播放的时候,这些磁性粉粒放出相同的电信号,又转化成了声音。

大多数人并不知道它在录音技术中所扮演的角色,但它的确是一个关键性突破。

数码录音笔流行于1999-2018年间,也是我们所熟悉的,主要代表玩家依然是飞利浦和索尼。与传统录音机相比,数码录音笔是通过数字存储的方式来记录音频的,为了便于操作和提升录音质量造型并非以单纯的笔型为主,同时拥有多种功能,如激光笔功能、FM调频、MP3播放等。

2018年之后,AI语音技术得到突破后,录音笔的玩家格局和功能形态发生改变,我们所熟知的科大讯飞、搜狗等玩家登上历史舞台(这里有一个小细节,最早在录音方面的应用是通过需要转写的录音时长来进行收费,之后才出现了终身免费转写的智能录音笔硬件),其中讯飞智能录音笔规格较多,距今共计发布9款(SR101、SR301 、SR501、SR502、SR701、SR702、SR901、R1以及SR302)。

一个明显的感知是,每一次技术革新与消费升级的双轮驱动都会产生颠覆式创新的机会,进入到移动互联网时代后,人工智能技术的发展给传统录音笔产业带来的创新机会。基于此,本文新眸将着重拆解录音笔江湖的前生今世。

录音笔“编年史”

利用机器对语音进行录制、播放,已有百年历史。

1879年,“科学界的拿破仑”爱迪生将留声机带到了在法国巴黎世界博览会上,这是人类历史上首次利用工具对声音的重现。

但是,在当时留声机仅作为上层社会的珍藏,未能普及到民用。

1888年,科学家O·史密斯在一篇论文中提到“利用剩磁技术进行录音”,这篇论文给录音机提供了理论基础,早期钢丝录音机、钢带录音机开始出现。在之后的半个多世纪里,录音机技术并没有取得突破性进展,直到1935年德国人制造了磁带式录音机。

随着胶片、VCD、DVD的流行,声音与视觉得到了统一,录音+录像也开始朝着数字化迈进。如果说影音播放是录音文件对外展现的主要方式,那么如何将录音文件导出为文字,则是另一个需要研究的问题。

通常意义上的录音,只需对场景产生的外音进行录制和存储,对于产生的音源体、语言、发音角色等定向性选择并不多,比如音源体是谁、用的是什么语言、参与的人员有哪些、需不需要同步翻译等。

2005年,深度学习技术出现,让这些需求成为可能。深度学习是用计算机模拟人工神经网络,让其逐渐“学会”各种任务,经过训练后的人工神经网络具备一定的人机交互能力,比如在几种主要语言之间互相翻译。

之后的发展主线比较清晰,大致可分为以下四个阶段:

第一,技术完善阶段(2005-2009年),在这个时期,人工智能主要是利用人工神经网络的自学习功能、联想存储功能和寻找优化解能力来对机器学习进行改造,但未实现规模性的应用落地;

第二,应用试点阶段(2009-2011年),主要实现了从理论、竞赛,到软件产品落地并集成应用。比如Alex Graves赢得了2009年ICDAR的3项关于连笔字辨识的比赛,苹果语音助手Siri搭载到了iPhone 4S上。

2011年,Siri通过iPhone的交互界面,对用户发出的语音进行识别,然后对手机操作做出自动回应,这标志着消费级智能终端首次出现搭载了语音识别技术的产品。

第三,应用落地阶段(2011-2016年),一方面,各大智能终端厂商开始不同程度的集成语音助理;另一方面,录音笔细分领域开始全面接入人工智能。

具体的两个案例是,科大讯飞在2016年提出了一种基于深度全序列卷积神经网络的语音识别框架,在实现识别效果大幅提升的同时,解决了解码时延高的问题。搜狗也推出语音交互引擎“知音”,意图让人机交互更加自然。

第四,规模商用、寻求场景突破阶段(2016年-至今),随着AI技术日渐成熟,智能录音笔开始进入场景突破阶段,在老树上寻找新花是这个阶段一众玩家的商业逻辑的本源,也是思考点。

玩家纷争升级

“智能手机已经有很强的录音功能了,为什么还要单独购买录音笔?”这是一众智能录音笔厂商亟需回答的首要问题。

这个问题其实很简单,我们先从市场角度切入,根据前瞻研究院报告,我国智能录音笔市场需求呈现快速增长,2019年我国录音笔市场出货量约为468万台,同比增长8.3%,市场规模达23.17亿元,同比增长10.1%。

图:2015-2019年中国录音笔市场出货量

业内分析人士表示,“按照增速,未来两三年对数码录音笔的存量替换、以及对智能录音笔的增量需求,将进一步扩大智能录音笔的市场规模。”

言下之意,这个市场逻辑是被证明的,类似于手机拍照功能无法代替单反相机,手机的录音功能同样也无法完全代替录音笔。

在日常工作学习中,我们需要同声传译、语音转文字功能,针对录音过程中不同的录音环境,需要有降噪功能,同时针对带口音的普通话或方言,需要有高识别率,在互联网时代,以备份和储存为主的云服务功能也需要提供,且能支持在线编辑,而这些往往是智能手机所无法高质量完成的动作。

如同智能手机解决功能机的痛点一样,在市场的实践中,除了上文提到的科大讯飞与搜狗,还有纽曼、爱国者、索尼、飞利浦等厂商,均不同程度将触角伸到智能录音笔领域。总得来说,目前智能录音笔领域玩家主要分为以下三个流派:

索尼和飞利浦是老派中的硬件玩家,他们是传统录音笔的头部玩家,算是“老炮儿”。在声学方面它们有着很强的技术积淀,比如索尼的随身听、MP3、CD机等都是其中翘楚,代表着一个时代。但他们所缺少的是互联网基因,在人工智能时代,这些传统巨头自身的硬件优势还不足以弥补基因的缺失,在性价比上为用户们所诟病。

纽曼和爱国者算是老派中的性价比玩家,也是国内数码界的份量级玩家。从数码相机、MP3到手机,二者都有不同程度的介入,但市场份额一直欠佳,跨界进入录音笔领域后,也缺少AI语音识别方面的技术沉淀,走的主要是性价比路线,靠低价博得市场。

科大讯飞和搜狗算是新派玩家,它们的打法有些相似,但也有差异化。

前者在智能语音与人工智能领域已有较多落地场景,其中车载端已经发布到第四个版本,切入到智能录音笔市场后,就开始了高中低端的全系开发,目前已完成了初步布局;后者的语音识别技术源于输入法,缘由搜狗输入法在PC端和手机端占有率一直不错,在输入习惯、输入数据等方面有一定优势,到了移动互联网时代,搜狗在硬件方面稍显不足,智能录音笔算是搜狗的试水之作,代表产品是C1/C1 Pro/C1 Max,具体表现还有待评估。

三类流派,各有千秋。但就趋势而言,新派玩家已呈现赶超迹象。

场景成突围关键

当我们在电商平台搜索录音笔时,发现列表基本都是智能录音笔,这就意味着,录音笔已经完成了从数码录音笔到智能录音笔的迭代。

事实也的确如此,自2016年以后,国内智能录音笔市场新品层出不穷,尤其是在2018年以后,大量新玩家涌入,甚至传统手机厂商小米也通过生态链公司切入到市场。

问题是,在实际应用中,办公、学习等强需求场景下,各家的解决方案大都趋于相同,很容易陷入同质化窘境,如何在技术、设计、品牌以及场景上寻找差异化,便成了各家争夺的要点。

以讯飞刚刚发布的腕式录音笔R1和讯飞智能录音笔SR302为例,两者除了在拾音、转写、翻译等技术功能上做了迭代升级,R1腕式设计代表着向年轻人的审美靠拢,功能上SR302能自动识别使用场景,智能选择定向和全向两种录音模式。

这从某种程度上其实预示着智能录音笔的行业风向变了,即如果说“平台+赛道”是过去的商业打法大逻辑,那么现在玩家突围的小逻辑在于对细分场景的感知和洞察,并完成精准需求匹配。
换句话说,未来的录音笔将不再局限于录音,而是一个集成生活与办公的聚合物。

比如,是否可以24小时监测心率及睡眠,并配有消息提醒和闹钟等生活贴心功能,做到运动模式与录音记录的随时切换,运动中途是否也可以随时记录灵感或其他关键信息。

可以想象的是,在新兴的差异化竞争时代,在保证做深录音笔精度的同时,如何拓展使用场景的宽度将是下一个角逐点。

举报/反馈