视听分析有哪些(视听分析什么意思)

视听分析有哪些?最近有很多网友都在搜这个问题。还有朋友关心视听分析什么意思。对此,碳百科整理了相关的教程,希望能给你带来帮助。

1.计算机视觉:AI 行业最具商业化价值的赛道

计算机视觉是国内外 AI 企业最集中的领域,商业成熟度较高。从 AI 企业的应用技术方向分布来看,计算机视觉技术企业在全球 AI 企业中占比约 40%,在国内占比约 46%;无论国外还是国内,计算机视觉都是 AI 企业最集中的领域。从市场规模来看,2017 年计算机视觉市场占全球 AI 市场总规模的 16.9%,排在语音识别之后;而国内计算机视觉市场占 AI市场的 34.9%,排名第一。国内外计算机视觉的市场规模差异要远大于企业分布差异,说明国内计算机视觉公司的总体盈利能力较其他 AI领域的公司较强,商业成熟度较高。

计算机视觉是 AI 领域应用场景最丰富、商业化价值最大的赛道。目前,AI 技术处理的数据类型不外乎四类:文字、语音、图像和视频。从信息维度来看,从文字到视频维度是递增的,文字的信息维度最少、包含的信息量也最少,视频的信息维度最多、包含的信息量最大。反映在数据量占比上,以线上数据为例,根据 Cisco 的研究,到 2022 年全球线上视频流量占总流量的比例将从2017 年的 75%上升到 82%,说明线上数据将越来越被视频数据所主导。信息维度更高加之数据量更大,因此以图像和视频为主要处理对象的计算机视觉要比以文字或语音为主要处理对象的其它 AI 技术具有更加丰富的应用场景和商业化价值。我们认为,当前资本市场也正以其资源配置、资产定价功能充分反映计算机视觉相对其它 AI 领域的优势。例如,根据公开资料,当前计算机视觉行业四家头部初创企业(商汤、旷视、依图、云从)的总估值已经超过 1000 亿人民币,也超过了语音识别行业几家头部初创企业(思必驰、云知声、出门问问、图灵机器人、捷通华声)总估值加上 AI语音龙头科大讯飞的市值总和。

市场格局上,科技巨头把控基础层,初创企业领跑应用层。计算机视觉架构从下至上:1)基础层——核心芯片被 Intel、Nvidia 等传统芯片厂商把控,新型芯片厂商尚未崛起,规模应用有待时日;开源平台以谷歌的 Tensorflow、Facebook 的 Caffe 等为主,其它企业的深度学习框架多为二次开发;2)技术层——算法,初创企业占优;云计算,几乎被 AWS、Google Cloud、Azure、阿里云等垄断;3)应用层——垂直行业龙头占据场景,技术层初创企业向上渗透。根据 IDC,2017 年中国计算机应用市场总规模约为 15.5 亿元,商汤、旷视、依图、云从‚四小龙‛市场份额共计达 69.4%,至 2022 年中国计算机视觉应用市场规模将达到 146. 1 亿元人民币。

目前中国计算机视觉算法企业在技术水平、商业化程度以及融资能力(估值)上均领先于国际同行。技术上,近年来中国计算机视觉头部算法企业在国际图像识别竞赛如 ImageNet、FRVT、MSR IRC 等中频繁摘得桂冠;商业化上,根据公开报道,商汤、旷视、云从等在 2017 年均已实现盈利,而国际初创企业同行如 EverAI 等尚处于净投入阶段;另外,从估值上看,CV 四小龙均已达到数十亿美元估值,而国外尚没有仅靠人脸识别、图像识别就估值破十亿美元的初创企业。分析上述领先优势产生的原因,我们认为,主要是由于国内头部计算机视觉算法企业充分享受了安防行业(尤其是视频监控)发展的红利:一是安防市场快速成长的红利,2007 年至 2017 年我国安防行业十年 CAGR 达16%,2016 年以后安防智能化趋势确定,计算机视觉技术率先得到应用;二是政策红利,与欧美国家相比,当前我国对公民生物特征的保护政策并不完善(见下文),因此国内计算机视觉算法企业可以从包括地方在内的各种机构中获得大量的人脸、人像数据用于模型训练和算法改进。根据 Quartz的报道,中国某头部计算机视觉算法企业声称拥有 20 亿张训练图,而国际最大的公开图库之一的 ImageNet 仅拥有 1300 万丈左右的训练图,相差 150 倍以上。

从市场结构上看,国内外市场结构略有不同:国内安防、金融、互联网为主,国外消费、机器人(及机器视觉)、智能驾驶领先。根据 IDC 的市场跟踪,2018 年中国计算机视觉技术输出规模最大的 3 个行业是、金融和互联网,最大的两个场景为行业中的平安城市以及金融行业中基于人脸识别的身份认证。而根据 Tractica 的预测,2018 年全球计算机视觉技术输出规模最大的3个行业分别为消费、机器人(及机器视觉)以及智能驾驶。我们认为影响计算机视觉落地的三个主要因素为监管政策、行业接受度及用户接受度,三者并不割裂:监管政策表明了监管机构的态度,行业接受度体现了行业玩家的购买意愿,而用户接受度一定程度上会影响监管政策和行业接受度。造成国内外计算机视觉市场结构巨大差异的主要原因,我们认为是监管政策和行业接受度的不同。

在欧美国家,生物特征作为关键的个人信息在被科技公司收集和使用时受到法律法规的严格保护。去年 5 月 25 日,欧盟史上适用范围最广、定则条例最严、处罚金额最昂贵的数据保护法案 GDPR 生效,该法案将指纹、人脸、视网膜等信息全部纳入个人资产范畴,对科技公司利用上述信息盈利进行了严格规定和限制。因此,在欧美计算机视觉率先在政策较为宽松、用户接受度较高的领域落地,例如消费和智能驾驶等。

在中国,首先,公民生物特征的保护政策并不完善;其次,基于安防效率和成本方面的考虑,是计算机视觉产品最早、最积极的买家之一。由于信用和购买力良好,加之安防行业成熟度高(利于计算机视觉技术集成)、图像及视频数据丰富(利于计算机视觉算法、模型训练),因此计算机视觉最先在安防领域落地。此外政策因素(如实名制、反洗钱等)也是导致国内金融业主动拥抱计算机视觉技术的主要原因。

企业核心竞争壁垒,中短期看是技术能力和产品化能力,长期看是生态构建能力。

中短期来看,包括人脸识别、识别、图像识别等在内的主要计算机视觉技术均基于使用神经网络的深度学习算法,而神经网络的种类选择、结构设计以及参数调整等是一连串极其复杂的工作,因此算法的优劣和迭代速度将直接取决于算法设计人员的知识和经验储备,也会进一步决定计算机视觉技术的准确率、可靠等关键能。ImageNet 竞赛中神经网络隐含层数对图像识别准确率的影响最能说明问题。从 10 年至 15 年,随着神经网络隐含层数的增多,图像分类 Top-5 错误率随之显著降低(见下图),但与此同时算法设计的复杂度越来越高,对技术人员的要求也越来越高。

此外,计算机视觉技术在场景中落地时需要企业具备大量的除算法以外的know how,例如在软硬件结合以及保护终端用户隐私上的知识和经验等。现阶段,掌握技术的 AI 人才(尤其是顶级人才)主要分布在高校及科研院所,产业内的人才供应不足,加之多数场景下计算机视觉的落地能力不足,人才的争夺与落地能力的竞争将决定企业的发展速度。

但是,技术层面,随着自动机器学习技术 AutoML 的出现,机器学习模型的设计门槛随之降低。AutoML 的出发点是用强大的算力通过更多次的训练提高模型的准确度,其最大特点是将机器学习模型的设计过程自动化。算法设计人员只需了解模型的基本概念并提供标签数据即可,神经网络的参数及结构调整是自动完成的,无需人工干预。目前 AutoML 已经进入落地阶段。例如,去年 1 月谷歌发布了提供自定义图像识别系统自动开发服务的 Cloud AutoML Vision,用户从导入数据到训练模型都可以通过拖放式界面完成。AutoML 已经被谷歌应用于 CIFAR-10 高度基准测试数据集,并且训练出了与手工设计不相上下的模型。我们认为,随着 AutoML 技术的成熟,算法设计的门槛将越来越低,但相应的,算力的重要会越来越明显,长期来看有可能成为计算机视觉企业的核心竞争力之一。

产品层面,我们认为,随着竞争的加剧,成功的企业不仅要具备大量的跟技术落地相关的 know how,还必须能够主动地挖掘甚至创造需求,具备类似苹果在智能手机上的理解力。这就要求企业在纵向上能够主导整个产业链,横向上能够接入更多开发者和场景,因此长期看生态构建能力将成为主要竞争壁垒。

现阶段,头部算法企业横向建立平台,垂直领域龙头纵向深耕行业,科技巨头立体式打造全产业生态。

头部算法企业的布局是横向拓展基础技术,建立基础平台。例如,商汤以人脸识别技术起家,逐渐拓展到分析、机器人、无人驾驶等领域,加上 GPU超算中心和云计算平台,逐渐将自身打造成一个基础的人工智能平台,然后探索在应用端的迅速落地。

垂直领域龙头公司的布局是纵向打通计算机视觉框架,深耕所在行业。例如,安防设备龙头海康威视逐渐脱离了与初创算法企业的合作,自主研发关键技术,并在 ILSVRC(2016)图像分类获得第一名;此外,还推出了 AI Cloud 平台,着力解决算力问题。通过纵向打通基础层、技术层和应用层,垂直领域龙头公司可以提出更加智能的行业解决方案。

科技巨头公司的布局是以平台为核心立体式地推进,打造全产业生态。例如,Google 以 TensorFlow 及 Google Cloud 为核心,横向上进军图像分析、文字识别等技术,推出 Google Lens 等视觉服务产品;纵向上向下拓展基础硬件推出 TPU 芯片,向上拓展医疗(Verily)、无人驾驶(Waymo)等垂直领域,逐渐打造包括计算机视觉在内的人工智能大生态。

2.智能语音:产业进入爆发期,看好对话式人工智能发展

智能语音技术逐渐成熟,未来几年市场将维持高速增长。根据 Gartner 发布的2018 年 AI 技术成熟度曲线,语音识别已经进入‚实质生产高峰期‛,意味着语音识别技术已被广泛接受,规模化落地即将开始。此外,像自然语言处理、虚拟助理等相关智能语音技术历经淘洗之后即将落入‚泡沫化低谷期‛,商业模式越来越成熟,也将进一步推动智能语音的落地。根据 ReportLinker 的预测,全球智能语音市场规模将从 2018 年的 75 亿美元增长至 2024 年的 215 亿美元,其中医疗健康、移动银行以及智能终端智能语音技术快速增长的需求将成为主要的驱动因素。

国内外市场均已相对集中,头部企业占据大部分市场份额。根据中商产业研究院的数据,2018 年智能语音全球市场 CR5 达到 88%,中国市场 CR5 达到84.6%,均已呈现出相对较为集中的市场格局。值得注意的是,国内的市场格局与国外存在着明显的差异,主导国外市场的巨头玩家如 Nuance、谷歌等并没有在中国市场取得同样的市场地位。我们认为,这种现象主要是由两方面原因造成的:一是由于中文与外语在分词及句法的逻辑等方面有着明显的不同,并且中国有大量独具特色的方言,这种语言上的差异使得国内企业在中文处理上独具优势;二是受益于国内互联网和移动互联网的高速发展,智能语音在国内具有更加丰富的落地场景和商业化环境。这种‚天时‛、‚地利‛的优势使得中国企业领跑国内市场。

现阶段,产品化能力是智能语音初创企业核心壁垒。一方面,从技术的角度,在无噪音环境下,机器的语音识别准确率已经达到相当高水平,未来上升空间有限。科研界将错词率(Word Error Rate, WER)视为衡量语音识别技术的核心指标(准确率=1-WER),其中人类的平均 WER 为 5.9%(即 94.1%的准确率),受过严格专业训练的速记员平均 WER 为 3%(即 97%的准确率)。自2016 年机器的语音识别准确率首次超过人类平均水平以来,目前最好的算法已经可以将准确率做到 97.03%,超越专业速记员。另一方面,从商业化角度,技术难以成为企业核心壁垒,产品化能力才是成长的关键。这是因为技术的门槛越来越低,单纯依靠提供技术的商业模式将面临越来越大的竞争因而难以持续,这一点从近几年头部智能语音初创企业如云知声、思必驰等纷纷从技术提供商转向产品/服务提供商就可以看出。

技术全栈化已成为新趋势,产业链延伸是当前最好策略。对于智能语音而言,多数场景下普遍存在的问题是落地体验不好,而这带来了技术上和产业上的两层影响:技术上,落地体验的改善有赖于从硬件到软件、从算法到产品各个环节的紧密协调,在这种情况下,头部企业多倾向于走技术全栈化路线,即打通全链条上的技术环节;产业上,为了实现更好地商业化,企业倾向于通过上下游延伸创造更多价值。最能说明上述两个趋势的例证是当前几乎所有的头部初创企业都在布局专用语音芯片,主要原因是专用语音芯片的应用能可以达到通用芯片的 40-50 倍,而同时成本只有通用芯片的 1/4-1/3。

通用平台商打造开放语音生态,专业应用商抢占重点赛道。智能语音市场玩家大体上可以分为两种,一种是通用平台商,另一种是专业应用商。通用平台商如谷歌、百度等科技巨头,致力于围绕智能语音开放系统打造智能语音生态。以百度为例,公司在 2017 年全面开放了语音接口,目前依托 DuerOS 打造出较为完整的技术、开发与商业生态系统,截至 2018 年 7 月底搭载 DuerOS 的智能设备激活数量已突破 1 亿台。专业应用商以垂直领域和细分场景为突破口,均有重点布局的赛道。例如,云知声重点布局家居、车载与医疗,思必驰重点布局家居、车载与机器人,两者多有重合但侧重上有差异。

对话式人工智能即将规模化落地,看好智能家居、随身设备、智能车载三个场景。与一般的智能语音应用相比,对话式人工会智能中人与机器之间是双向交互的,机器在追求理解人的意图的同时也会给人以反馈(比如要求人进一步明确意图或者给出选择等)。对话式人工智能的整个人机交互过程可分为唤醒、识别、理解、反馈四个环节。

从供需角度,对话式人工智能的供给方为对话式人工智能的硬件开发者与软件开发者,产品为对话式人工智能应用与服务,包括音乐、视频、游戏等;需求方为终端消费者,整个需求产业链条自下而上包括芯片商、方案集成商、终端设备商、渠道商以及消费者。对话式人工智能的中间枢纽是对话式人工智能平台,由互联网科技巨头、初创 AI语音公司等提供。

我们认为对话式人工智能将率先在智能家居、随身设备、智能车载三个场景中实现大规模落地,原因是:1)上述三个场景作为家庭 IoT、个人 IoT 以及车联网的重要入口,是头部企业争夺的重点,例如亚马逊的 Echo、苹果的 Siri、思必驰的飞歌 GS2 正是分别瞄准上述场景;2)上述三个场景对智能语音技术的要求相对较低,例如智能家居和智能车载都是在相对封闭的环境,语音唤醒成功率和语音识别的准确率会相对较高;3)上述三个场景中 C 端用户对交互式人工智能的接受程度较高,IDC 调研数据显示 89%的人有意向在未来两年内采用对话式人工智能终端,其中智能手机、智能电视、智能音箱、汽车等终端在美中两国用户中期望度最高、使用最为频繁。根据 IDC 预测,到 2020 年中国对话式人工智能在智能家居、随身设备以及智能车载的渗透率将分别达到 27%、68%、51%。

FAMGA 布局启示:车载、医疗、住宿以及企业级应用或是智能语音未来最主要的落地场景,用户隐私和数据安全保护值得关注。

在对话式人工智能领域,Facebook、Amazon、Microsoft、Google、Apple 五巨头布局较早,整体上引领技术和产业潮流,相关动向对产业和投资布局具有极大的指导意义。目前看来,五家公司选择了截然不同的发展路径,背后主要原因是公司的业务基因与核心优势具有显著差异。我们梳理了五家公司在对话式人工智能领域的布局和动向,具体如下:

1)Amazon:优势领域在智慧家居,通过开放合作拓展其它场景。Amazon 是最早实现对话式人工智能规模落地的巨头之一,其智能音箱产品 Amazon Echo系列(包括 Echo、Echo Dot 等)自 2014 年推出以来,至去年年出货量已经达到 2420 万台,全球市场份额始终维持第一。

由于在电商领域具有绝对优势,Amazon 在对话式人工智能领域的主要目标之一是主导语音购物市场。目前语音购物主要发生在智能家居场景中,以智能音箱为载体实现。但是除语音购物以外,Amazon 在提供其他服务上并不具备优势,主要原因在于相对缺乏丰富的软件应用支持。因此,公司采取了相对开放的策略,最值得关注的动作之一是创建了 Amazon Connect Kit 协助开发者为用户提供更多可以接入 Alexa 的定制化硬件产品和应用服务。截至 2 月份,全球已经有超过 4500 个品、2.8 万个智能家居终端接入到了 Alexa 上,家电巨头如 LG、三星、GE 等都有产品接入。

除智能家居场景外,Amazon 也在拓展其他场景,例如去年 8 月推出了 Alexa Auto SDK 以帮助汽车制造商将 Alexa 语音控制功能集成到汽车娱乐信息系统上。我们认为 Amazon 在对话式人工智能的场景拓展上的主要劣势在于缺乏其竞争对手如 Google、Apple 等均具备的手机、平板、PC 等多种硬件级入口。根据 IHS 的预测,到 2020 年 Amazon Alexa 的市场份额将被显著压缩,跟我们的观点相符。

2)Google:背靠强大的自然语言处理技术及丰富的软件群发力服务领域。Google 有着多年的自然语言处理技术沉淀,在底层对话式人工智能技术上占据相对优势。根据公开信息,2019 年 Google 将支持超过 30 种语言的语音识别与自然语言处理,并具备同时理解两种以上语言的能力。此外,Google 还拥有包括邮件、地图、搜索等在内的庞大 SaaS 软件群,同时拥有手机、平板、PC等多种硬件终端,使其可以收集并使用更丰富的场景下用户的语音数据来提升自身处理语音请求的能力。我们认为,上述两个优势是 Google 在智能音箱出货量上能够快速追赶 Amazon 的主要原因(见图表 27),同时也是 Google 在个人服务领域和公共服务领域落地对话式人工智能技术时的独特竞争力所在。

在个人服务领域,Google 推出了 Duplex 聊天机器人,该机器人最大特点是可以模仿人声拨打和接听电话,在对话时能实时理解对方意图并做出及时反馈,同时输出的语音中还会包含停顿以及‚嗯‛、‚额‛等常见的口语用词,已经很大程度上做到了拟人化。此前 Google 收购 API.AI 也是为了增强其聊天机器人的技术实力。API.AI 提供聊天机器人的开发框架,具备意图识别、上下文管理等多种功能,使得 Google 可以强化聊天机器人的智能水平。

在公共服务领域,Google 重点关注医疗及住宿。医疗领域,Google 将智能音箱、谷歌助手等产品部署到了医院及疗养院,用户可以通过上述产品寻求医生帮助,医生也可以通过手机 App 追踪用户请求;住宿领域,Google 通过投资酒店聊天机器人公司 GoMoment 以及开发谷歌助手的翻译模式等方式使得酒店从前台接待(如登记住房)到客房服务(如点外卖)实现自动化及智能化,抢占酒店服务市场。

3)Microsoft:避开直接竞争,剑指企业领域。Microsoft 在对话式人工智能领域的起步稍晚于 Amazon 和 Google,同时在消费级市场也并不具备入口与应用优势,因此 Microsoft 主要拓展对话式人工智能在其传统优势领域——企业领域的应用,从策略上避开了与Google、Amazon 等巨头的直接竞争。公司还跟Amazon 进行合作,跨系统打通了 Cortana 和 Alexa,使得用户可以通过Cortana 唤醒 Alexa 进行购物,也可以通过 Echo 或者其它 Alexa 设备唤醒Cortana 进行办公。由于 Amazon 和 Microsoft 的优势领域不同,这种合作的互补显而易见。

此外,Microsoft 还申请了一项专利,该专利使得用户可以轻声唤醒数字助理,为用户在公共场合使用对话式人工智能终端提供了便利,凸显了公司对企业领域的重视。

4)Apple:关注用户隐私和数据安全。Apple 于去年 11 月收购了致力于开发可以部署在消费级终端上的轻量级的 AI 应用的初创企业 Silk Labs,此外还申请了离线唤醒 Siri 以及声纹识别两项专利。公司的主要目标是使对话式人工智能技术可以在终端而非云端实现,从而排除用户对个人隐私和数据安全的忧虑。Apple 发力隐私和安全与其过往遭受多起关于侵犯用户隐私的集体诉讼有关,可以说公司对 C 端用户的痛点具有超越竞争对手的深刻认知。

5)Facebook:战略聚焦聊天机器人。Facebook 也采取了跟 Amazon 合作的策略,我们认为主要原因有两个:一是公司在对话式人工智能领域起步较晚,2018 年才推出智能音箱 Portal,在五巨头中已处于相对落后地位;二是公司在去年遭遇了关于泄露用户数据和隐私的巨大丑闻,跟 Amazon 合作可以缓解外界对公司获得和滥用数据的担忧。公司主要关注对话式人工智能在社交领域的应用,2015 年初收购了语音指令创业公司 wit.ai,此后在 Messenger 应用上大规模部署了聊天机器人。在 2016 年 4 月的 Facebook F8 开发者大会上,Facebook 宣布 Messenger 为未来十年重点项目之一,并邀请开发者加入Messenger 一同开发聊天机器人。

3.重点公司介绍

3.1 商汤:AI 算法提供商龙头,平台化战略赋能公司和行业

AI 算法提供商龙头,‚1+1+X‛打造核心平台。公司成立于 2014 年,创始人为香港中文大学工程学院教授汤晓鸥,业务聚焦于计算机视觉和深度学习领域,拥有 2200 位员工,其中约 150 位拥有世界顶级大学博士学位。2018 年 9 月,公司被科技部选为‚智能视觉‛国家新一代人工智能开放创新平台建设依托单位。公司采取平台化战略,主要的业务模式是首先进行前期基础技术研究,然后结合当前行业应用热点生成相关产品和服务,最后进行营销和推广,即‚1(基础研发)+1(产品和服务化)+X(行业应用)‛打法。当前公司战略推进顺利,去年 5 月 31 日公司公告表示 2017 年已实现全面盈利,业务营收连续三年保持 400%同比增长,2018 年主营业务合同收入同比增长 10 多倍。

内生+外延,围绕计算机视觉展开全方位布局。公司通过内生和外延不断拓展技术和业务边界,提前进行产业布局。内生上,公司以人脸识别技术起家,当前核心技术已覆盖人脸、、图像、视频、SLAM 与 、机器人、无人驾驶等多领域计算机视觉技术,并且仍在不断横向拓展,进而衍生出智能视频、身份验证、移动互联网、智慧商业等多类产品和服务,覆盖智慧城市、智能终端、互联网娱乐、智慧金融、智慧商业、遥感、移动运营商、无人驾驶、AR/VR 等多个应用场景。外延上,公司通过成立投资部门,通过直投或者产业基金方式向下游延伸布局新应用和新场景,投资标的以在垂直领域已建立起行业场景、占据一定地位或者已具备一定行业认知及客户资源但技术和产品尚不成熟的初创企业为主,例如医疗健康领域的 AI 初创企业禾连健康、VR 看房企业 51VR 等。

2015-2016 两年,公司及其联合实验室的 CVPR、ICCV 和 ECCV 论文数量高达 76 篇,超过加州大学伯克利分校、斯坦福、麻省理工等国际顶级名校及Google、Facebook 等科技巨头;2017 年,公司以 43 篇 CVPR 和 ICCV 论文雄踞;2018 年,公司再度以 81 篇 CVPR 和 ECCV 论文傲视群雄。

算法储备丰富、算力供应充沛,长期发展具有深厚底蕴。根据公开资料统计,公司 2015-2017 年在三大顶级计算机视觉会议(CPVR、ICCV 及 ECCV)上共发表了 119 篇论文,内容涵盖深度学习、无人驾驶、物体检测等诸多领域,数量上仅次于微软和 CMU,远领先于国内其他企业。2018 年,公司以 81 篇CVPR 和 ECCV 论文创下中国 AI 学术新纪录,展示出越来越强的学术研究能力,也说明公司在算法领域有着丰富的储备。此外,公司自主研发了支持千亿级参数模型、百亿训练样板、亿级类别分类任务的深度学习框架 Parrots,以及拥有超过 6000 块 GPU 并支持千卡并行训练的亚洲最大超算中心,算力供应充沛,保证了模型可以得到快速验证。

我们认为,公司重视基础研究,强调技术原创,在算法、算力上都能充分保障自身技术顺畅迭代,长期发展具有深厚底蕴。

3.2 旷视:优秀的人脸识别平台企业,战略进军 AIoT

人脸识别先行者,软硬件结合深入垂直场景。公司早于‚四小龙‛其它三家公司成立,三位联合创始人印奇、唐文斌、杨沐均毕业于清华姚班,当前拥有约1500 名员工。公司早期业务以开发 C 端人脸识别相关互联网应用为主,后转向提供 B 端计算机视觉相关产品和服务,旗下 Face++是当前世界上使用量最大的人脸识别引擎。公司主要的业务模式是基于核心计算机视觉技术深入垂直场景提供行业解决方案。目前,公司相关产品和服务已经广泛应用于金融、安防、手机等多个领域,拥有包括阿里、蚂蚁金服、富士康等在内的上千家核心客户。公开信息显示,依靠多领域的业务落地,公司近年来实现了 5 至 7 倍的营收增长,2017 年已实现盈利,主要收入来自于金融和安防。

战略进军 AIoT,打造个人、城市、供应链‚大脑‛。2019 年 1 月 16 日,公司公布了从 AI 到 AIoT 的全新战略,战略定位从算法提供商全面升级为 AIoT 解决方案提供商,并推出了智能供应链操作系统‚河图‛。根据我们的梳理,公司目前个人生活大脑、智慧城市大脑、智能供应链大脑三大‚大脑‛场景业务群,其中:个人生活大脑以连接个人终端为主,聚焦于为 C 端用户提供人脸解锁、人脸支付等服务,应用场景包括手机解锁、身份验核等;智慧城市大脑以连接城市摄像终端为主,聚焦于为 G 端客户提供智能门禁、智能迎宾等产品/服务,应用场景包括智慧社区、教育管理等;供应链大脑以连接工业机器人为主,聚焦于为 B 端客户提供‚货到人‛、‚订单到人‛等解决方案,应用场景包括智能工厂、智能仓储、新零售等。近两年公司在外延方面表现活跃,先后投资了机器人、娱乐、零售等多个领域的初创企业,业务布局持续延伸。

强大的软硬件结合能力以及‚阿里系‛背景是公司核心差异化优势。公司自2015 年起涉足硬件,陆续推出了摄像头、人脸识别面板机、人证核验一体机、服务器、搬运机器人等十余款软硬件结合产品,在初创企业中处于绝对领先地位。我们认为,从算法到产品/服务有天然隔阂,优秀的算法并不能保证优秀的产品。公司的历史发展表明其具有强大的软硬件结合能力,能够保障其技术端领先优势在产品端的延续。我们认为,软硬件一体化是打造商业闭环的必要条件,仅依靠算法无法满足行业客户的整体需求,安防行业内 AI 算法提供商可以获得部分项目机会但始终无法撼动安防设备龙头的地位即是最明显的例证。此外,公司还是‚四小龙‛中唯一一家两次获得‚阿里系‛投资的企业,我们判断公司是阿里在计算机视觉领域选定的战略抓手,未来‚阿里系‛可能会有更多资源注入,从支付宝、滴滴、天猫超市等‚阿里系‛公司相继采用公司产品来看也能部分验证该想法。

我们认为,公司软硬件结合能力突出,保障了技术端优势在产品端的延续,具备打造商业闭环的潜力;同时,公司背靠股东‚阿里系‛,在金融、出行等多个领域有望被注入更多资源,有较强的盈利支撑,因此具备极大竞争优势。

3.3 依图:注重实战,业务聚焦于安防和医疗

实战型 AI 公司,善于从行业里寻找研究课题。公司成立于 2012 年,创始人为ULCA 统计学博士朱珑及前阿里资深云计算专家林晨曦,当前拥有约 700 名员工。公司与‚四小龙‛中其他几家企业最大的不同点是其技术并非来自创始团队的科研成果转化,而是从零开始,先选择行业,然后针对企业需求进行课题研究。基于这种打法,公司于 2013 年为苏州公安开发了车辆识别系统,将套车的识别率从不足 30%提高到 90%,在初战告捷后又推出了人脸识别系统并同样取得成功,吸引了公安客户。我们认为,公司的这种基因和业务模式决定了其更加注重实战,也意味着具有更强的行业痛点挖掘能力。

业务聚焦于安防和医疗,积极布局智慧金融。公司的战略是深耕行业、深挖痛点,业务聚焦于安防和医疗两个行业:安防领域,公司的主要产品为‚蜻蜓眼‛系列,包括蜻蜓眼人像大平台和蜻蜓眼车辆大平台,目前已在全国二十多个省份、上百个地市公安系统以及海关总署、中国边检等得以应用;医疗领域,公司的主要产品为 care.ai 系列,深入疾病预防、检查、诊断、治疗和科研等各个环节,目前已落地全国 100 多家三甲医院。除安防和医疗外,2015 年公司通过为招商银行提供人脸识别技术切入金融领域,相继提出了、远程核身、刷脸取款、智能网点等多个解决方案,客户以银行和互联网金融公司为主。此外,公司还通过外延方式进一步布局,除继续深化在医疗领域的布局外,还投资了芯片初创企业 ThinkForce,展示了进军芯片的意图。

先发优势明显,实战指标领先。公司是最早进入智能安防领域的 AI企业之一,2014 年起即已实现智能安防产品的规模化落地。公司实战指标处于国内领先地位。以人脸识别的准确率为例,公司在由美国国家标准局 NIST 组织的人脸识别供应商测试 FRVT(2018)最新报告中综合排名世界第一。不同于由学术机构组织的人脸识别竞赛,FRVT 更贴近安防实战,测试集来自美国国土安全局真实业务场景,数据更加复杂和多样,因此参赛者的成绩很大程度上可以代表其实战水平。我们认为,公司实战指标之所以领先,是由于其人脸识别产品较早实现了规模化落地,因而在使用真实场景数据改善算法方面具有先发优势,这对其技术进步起到了巨大的推动作用。

3.4 云从:AI 国家队,银行、机场人脸识别产品第一大供应商

公司是银行和机场人脸识别产品第一大供应商。公司成立于 2015 年,创始人是UIUC 博士、中科院‚百人计划‛人选周曦,当前拥有员工 400 余人。公司聚焦于计算机视觉技术,产品以人脸识别、文字识别、活体检测为主,应用方向集中在金融、交通、安防三大行业,目前是国内银行和机场人脸识别产品的第一大供应商:在银行领域,截至 2018 年 3 月,在 121 家已完成招标、具备自建系统能力的银行中,公司中标了包括四大行之内的 88 家总行平台,市场占有率高达 72.7%;在机场领域,截至 2018 年 7 月,已有 54 家机场选择公司产品,覆盖全国 75%的枢纽机场。

公司深耕三大行业,布局智慧商业。公司的业务布局思路为在金融、交通、安防三大行业内深挖应用场景,同时通过合作布局商业。例如,在金融行业,公司积极拓展非银机构,向杭州消费金融、分期 GO 等互联网金融公司提供实名认证等服务;在交通行业,与中国民航管理干部学院共同成立智慧民航联合研究中心引领机场智慧化等等。在商业领域,公司中标中国电信生物识别平台项目,将联手电信实现全网实名制,杜绝电信。

“国家队”背景有助于公司拓展安全敏感行业。公司是孵化于中科院重庆研究院的高科技企业,股东名单中有多只国家战略投资基金,是‚四小龙‛中唯一没有外资入股的企业。此外,公司还是唯一一家参与人脸识别国标、部标、行标制定的研发企业,并且承担了发改委牵头的国家人工智能基础平台重大项目。我们认为,上述事实给公司贴上了‚国家队‛的标签,在国内核心技术自主可控的大趋势下,公司的‚国家队‛背景有助于其在安全敏感行业的拓展。

3.5 云知声:“云端芯”战略,重点布局家居、车载及医疗三大领域

公司是优秀的智能语音专业应用提供商,多个垂直领域市场地位领先。公司成立于 2012 年,发展至今历经三个阶段:第一个阶段为以发育云端语音识别能力为主,通过开放语音平台吸引了近一万家企业客户接入;第二个阶段定位做AIoT,开始在“端”上发力,探索技术的产品化,例如与乐视合作推出可以进行远距离自然语言交互的乐视第三代 TV;第三个阶段场景落地阶段,通过为家电厂商美的、汽车厂商上海通用、公立医院北京协和等提供智能语音解决方案,落地智能家居、智能车载、智能医疗等场景。公司显示,公司目前的合作伙伴已经超过 2 万家,覆盖用户达 2 亿,其中开放语音云覆盖的城市超过 470个,覆盖设备超过 9000 万台。此外,公开资料显示,在智慧教育领域,公司的教育评测平台的高峰调用量达到每天 3 亿次;在智能车载领域,已经落地 30多个车型;在智慧医疗领域,已与 500 多家医院达成合作,均处于同行业领先地位。

“云端芯”全产业链布局,重点经营家居、车载、医疗三大领域,抢占教育、机器人赛道。公司 2014 年正式定位做 AIoT 服务商,确立了‚云端芯‛战略,即将基于云端的智能语音技术与终端设备和芯片紧密联合,通过云端提供服务、设备端实现算法、芯片提供算力的全栈方式打造生态闭环。公司近一年在芯片端的发力迹象比较明显,于 2018 年 5 月制定了 UniOne 系列芯片计划,并推出了面向智能家居和智能音箱的第一代芯片“雨燕”,同时计划于 2019 年和 2020年推出面向智能车载领域的第二代芯片‚雪豹‛和面向智慧城市的第三代芯片“旗鱼”。

在落地场景上,公司重点经营家居、车载以医疗三大领域:家居领域,面向家电厂商推出了 UniHome 智能语音解决方案芯片;车载领域,面向车联网产品开发商以及整车厂商推出了 UniCar‚云端芯‛一体化解决方案;医疗领域,面向医生推出了智能语音录入软硬件一体化解决方案。除上述三大领域外,公司还积极抢占教育和机器人赛道:教育领域,推出了面向教育机构的智能语音评测系统;机器人领域,推出了软硬件一体的行业服务机器人和面向儿童早教的UniToy 机器人解决方案,此外还有面向客服的 SaaS 模式的 SAMANTHA 智能电话机器人。

人才优势、先发优势铸就公司核心竞争力。根据 IDC 的调研,对话式人工智能落地面临的两个最大问题是人才及落地案例的缺乏。公司的核心团队来自 IBM、摩根大通、中科院、剑桥等全球顶尖公司和院校,人工智能研究院研究员中博士占比超过 45%,产品和运营团队来自 Nuance、阿里巴巴等国内外知名公司,人才优势明显;另外,公司较早进入家居、车载、医疗领域,在跟 B 端企业合作上以及终端用户需求的理解和隐私保护等方面都具备较多 know how,后进者难以在短时间内完成追赶。我们认为,人才优势结合先发优势助力公司在场景拓展和深耕上都具备极大竞争优势,看好公司发展。

本文地址: https://www.tanjiaoyicn.com/n/953.html

版权声明:本文内容部分来源互联网用户自发贡献或其他公众平台,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们,一经查实,本站将立刻删除,如若转载,请注明出处。

发表评论
登录 后才能评论
评论列表(0条)

    联系我们

    93840186

    在线咨询: QQ交谈

    邮件:baban38@163.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注微信