http://www.ox-holdings.com

优图天眼系统支持亿级身份人脸检索新匍京娱乐场最全网站:,大规模真实场景文本识别技术竞赛冠军

摘要微信 5.0“扫一扫”发布的时候,被讨论得最多的是它所承载的商业化重任。被忽视的,是背后的技术,及技术蕴藏的趋势。同样地,这个版本亮相的微信自主研发语音识别技术,也为外界所震惊和质疑。微信 5.0“扫一扫”发布的时候,被讨论得最多的是它所承载的商业化重任。被忽视的,是背后的技术,及技术蕴藏的趋势。同样地,这个版本亮相的微信自主研发语音识别技术,也为外界所震惊和质疑。“腾讯能够一夜之间自研成功语音识别技术?”类似质疑遍地都是。在独家采访微信“模式识别中心”团队后,我们发现两个产品功能并不是孤立地存在的,而是人工智能技术武装微信的两个投射。微信走向智能化,不是从这两个功能起步,也显然不以其为终点。本文揭秘了微信产品背后的故事,介绍“模式识别技术”的未来形态,以及科研与产品开发的关系。而我们更关心的,是微信乃至整个移动互联网正在发生的变化:越来越智能化。这是由移动设备和移动产品丰富的连接性引发的变革。正是得益于如此丰富的连接性,人工智能基础技术得以从多方面渗透进来,燃起穿戴设备的热潮,掀起电视、汽车、家居、医疗各产业的变革,真正拉开科技改变生活的序幕。1/3 博士,2/3 硕士的高学历团队“模式识别”是人工智能的一个分支,在上个世纪 60 年代成为一门学科。所谓模式识别(pattern recognition)是指对表征事物或现象的各种形式信息进行处理和分析,以实现对事物或现象进行描述、辨认、分类和解释的过程。模式识别对象包括文字、语音、图像、生物传感器、心电图、脑电图、地震波等等。对应到 IT 领域,主要是指文字、语音、图像、与 IT 相关的传感器等,如 iPhone 5s 新增的指纹识别功能,将来也会属于“模式识别”研究的对象。微信的模式识别中心也是一个研发中心。据团队负责人陈波介绍,他们隶属于微信北京研发中心,研究方向包含语音识别、图像识别、语音合成、音频指纹、语义理解、数据挖掘等等。不过由于这个研究型团队辖属于微信,他们不只负责理论研究,还对接产品功能开发。模式识别中心原先不属于微信,其前身是腾讯研究院下属模式识别小组,2010 年 9 月成立。这个小组面向整个腾讯公司提供基础研究成果的服务。比如诞生之初就为 QQ 输入法提供手写识别功能。2011 年腾讯内部创新热潮起来后,这个团队拓展研究领域,扩展到人脸识别、图像检索、文字识别等,集多种图像技术于一身“QQ 慧眼”就是这个团队研发的。2012 年 9 月,该团队正式划归微信管辖,随他们一同到微信的是当月发布的微信 4.3 版本中的通讯录语音搜索功能。为什么基础研究团队要整合到微信团队?陈波给出的答案是:“一方面微信是引领移动互联网潮流的产品,对视觉、听觉延伸的东西需求很大;一方面技术成熟,到了基础领域研究落地阶段,微信是一个比较合适的平台”。目前微信模式识别团队有 40 多名成员,都是高学历多能人才。据陈波介绍,40 多名同事中,有 1/3 是博士,2/3 是硕士。还有一个类似比例是:整个团队 1/3 从事前沿技术研究,2/3 从事现有技术研究和产品对接。关于团队的研究方向,陈波介绍主要分为语音和图像两个小组,语音研究对应的是手机上的麦克风,由博士生卢鲤带领 12 个人负责;图像对应的是手机摄像头,由博士生刘海龙带领 13 个人负责。“小组是比较成熟的方向。除了小组之外,我们也有其他研究方向”,陈波说,“包括文字识别、人脸识别、语义理解、视觉搜索、音频指纹检索等”。除了科学研究团队,模式识别中心还有一个工程团队与微信产品团队进行对接。据陈波介绍,她的团队不是纯粹搞研究,不只会写 paper,还有很好的开发能力。他们没有专门的手机开发人员,都是自己搞 iPhone 开发,把 demo 秀出来;遇到产品问题,也要与产品团队共同解决。在招聘人才方面,模式识别中心也是把关严格,要求研究与工程能力兼备,所以团队过即使加入微信后也没有膨胀发展:团队成立之初是 2、3 个人,去年加入微信大家庭的时候是 30 人左右;加入微信后,现在团队是 40 人出头。相对于竞争对手,这仍然是一个精干的团队。

去年谷歌阿尔法狗(智能程序AlphaGo)打败世界围棋冠军李世石,引发人们对人工智能的广泛关注。目前,人工智能开始广泛进入大数据、商业、教育、医疗、网上购物、视频安保、互联网广告等各领域。在第五届上交会上,人工智能核心技术和应用备受关注。 在科大讯飞的展台上看到,语音实时转文字智能系统把工作人员语音介绍实时转变成中文,几乎没有错别字地呈现在现场大屏幕上,并且同时翻译成英文。据介绍,该系统能够提供实时编辑校对、录音保存、文本导出、自动分段等人性化功能,可用于企事业单位的办公会议、大型发布会、课程培训等各种对语音转文字时效性要求较高的场景。 科大讯飞股份有限公司还展出了晓译翻译机和阿尔法蛋陪护机器人。晓译翻译机是基于深度神经网络算法上的创新和突破,目前在衣食住行等日常生活领域达到了大学六级水平,对于人们出国有很大帮助;集成教育内容、超级电视、视频通话、智能音箱和自然语交互的阿尔法蛋是一款功能聚合的机器人,功能与服务面向家庭所有成员。 在微软展区,很多观众被人工智能机器人“小冰”吸引,站在小冰的全时感官设备前,大家会看到小冰实时检测出来的年龄和颜值。同时,小冰还会给出自己特别的评价,“全屏最嫩”“长得这么帅,我都忍不住多看几眼”等众多有趣的点评,吸引观众纷纷用手机拍照留念。 微软互联网工程院的雷大丹告诉国际商报记者,“小冰”是微软互联网工程院发布的一款人工智能机器人,目前小冰已经在中国、日本、美国和印度四个国家,包括登陆微博、微信、美拍、QQ、Facebook、Line、Twitter在内的众多社交平台与接近1亿的人类用户进行聊天交流。目前小冰已经和人类完成了200亿次对话,堪称历史上规模最大的“图灵测试”。 微软小冰集合了微软在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累,她和微软小娜一起被称为微软人工智能“姐妹花”。 在腾讯优图实验室展区,现场展示天眼系统进行了faceoff演示、活体检测演示。腾讯优图实验室展区是腾讯旗下顶级的机器学习研发团队,专注于机器学习、模式识别、认知技术的研究。 其中,天眼系统是基于人脸检索技术和公安已有的海量大数据建模,面向公安、安防行业推出的智能安防解决方案。优图天眼系统支持亿级身份人脸检索,毫秒级检索速度,迅速完成人脸和逃犯照片库的匹配,准时返回可疑人脸数据,实现报警通知,助力公安建立智能追捕逃犯体系。 据介绍,目前优图实验室在人脸识别、图像识别、声音识别三大领域拥有数十项业界领先的技术,均在国际比赛中创造了世界纪录。优图实验室通过智能云服务、智能硬件、行业解决方案等多元化的产品策略,大力推动人工智能技术的广泛应用,通过人工智能提升互联网使用体验。

12月22日,微信近日上线iOS新版本,该版虽未添加重大功能,但部分功能升级优化后,实用性增强,如增设声音登录功能、一键清理微信缓存等。

自然场景/网络图片/复杂视频文本识别是利用人工智能技术,使计算机、智能手机等能够像人一样认识自然界和互联网图片视频中普遍存在的文字,在数字移动服务、智能信息检索、智慧城市与智能交通、互联网内容安全、图像视频大数据等方向和行业中具有重要的应用价值。近年来,该领域一直都是国内外学术界和工业界关注的重点方向;目前,世界上几乎所有的互联网和IT巨头都进行相关的技术研究及应用,包括了腾讯、阿里巴巴、百度、科大讯飞、汉王、Google、Microsoft、Amazon、Samsung等。

与侯广琦不同,模式识别国家重点实验室副主任王亮这些年一直在跟踪研究另一种生物特征识别——步态识别。

除了声音锁功能,微信iOS新版还有一些更新,比如终于可以一键清理微信的缓存信息,快速释放手机空间。安装了iOS8的用户,能将系统相册、Safari浏览器里的内容直接分享到微信。总之,此次新版功能还是突出了实用性。

殷绪成2008年加入北京科技大学计算机系,近10年来(2008-2017),以模式识别、计算机视觉、图像识别、人工智能等多领域共同关注的重要应用技术挑战课题——大规模、强复杂自然场景/网络图片/多媒体视频文本检测、识别与检索——为中心,开展系统的方法研究与深入的技术创新,取得了一系列方法与技术突破性研究成果。特别的,殷绪成教授团队“十年磨三剑”,连续三届(2013、2015、2017年)荣获国际文档分析与识别大会技术竞赛“鲁棒阅读竞赛”冠军。2013年,在美国华盛顿召开的第十二届国际文档分析与识别大会上获得“网络图片文本检测”和“自然场景文本检测”冠军,是中国研究机构首次问鼎该项冠军;2015年,在法国南锡召开的第十三届国际文档分析与识别大会上再次蝉联“网络图片端到端文本识别”和“自然场景端到端文本识别”冠军,也是本届赛事夺冠的唯一中国团队。今年,在日本京都召开的第十四届国际文档分析与识别大会上,以杨春博士为技术组长的殷绪成教授团队,联合腾讯科技TEG技术小组,荣获“大规模真实场景端到端文本识别”冠军(Challenge on COCO-Text),识别精度比第二名提高了60%。COCO-Text竞赛数据集是目前本领域内最大的真实场景文本识别评测数据集,包括4.4万张训练图像样本、1万张验证图像和1万张测试图像;其中,端到端文本识别全面体现了文本检测、文字识别和技术系统等一系列相关的综合研究能力和应用技术水平。

模式识别国家重点实验室的研究者们在认真研究模式识别的机理,力图让电脑像人脑那样分析和识别文字、图像、视频、音频等。经济日报记者 沈 慧摄

微信此次添加声音登录功能也采用了更稳妥的做法,比如用户只有在登录过的老设备上才能使用该功能,同时使用技术来防止用录音冒充登录。

近日,第十四届国际文档分析与识别大会在日本京都闭幕,本届国际文档分析与识别技术竞赛结果揭晓,北京科技大学计算机与通信工程学院殷绪成教授团队,获得最受关注的“鲁棒阅读竞赛”大规模真实场景文本识别技术竞赛冠军。国际文档分析与识别大会是国际模式识别协会举办的文档分析与识别、模式识别领域世界上最重要的国际学术会议之一,每两年举办一次,从1991年第一届开始,到今年已成功举办十四届。

据介绍,伤痕、干燥、油腻、污渍等,都会影响指纹识别的效果;人脸识别则容易受到光线、年龄、肤色、姿态、表情、妆容等多种因素的影响。

不过随着越来越多人体生物特质识别技术,如指纹识别、人脸识别等应用于移动设备上,声纹识别在近年来也得到更多关注。Siri开发商早在去年就高呼,“声音将成为你未来的唯一密码”,该领域的应用也开始出现。

殷绪成表示,学术研究和技术创新的重要目标就是要“顶天立地”,其团队下一步的重心就是继续脚踏实地,加强与合作伙伴的共同技术攻关,培育并推进技术的重大应用。目前,殷绪成教授团队已经与亿智集团、科大讯飞、腾讯科技、国家计算机网络与信息安全管理中心等合作伙伴在智能交通、智慧教育、网络广告、互联网安全等重大应用方面进行技术创新与产品推进。

何谓步态识别?即根据一个人走路的姿态和人体信息进行身份鉴定。" 比如,你平日熟悉的朋友,有一天走在街上,只凭背影你就能知道是他。" 王亮说,虽然相对于人脸识别,步态识别的准确率还较低,影响识别效果的因素还很多,但在安防等一些特殊应用领域,步态识别有远距离识别这一特定优势。

▲左:直接从Safari浏览器中分享内容到微信;右:清理微信缓存

自从2003年国际文档分析与识别大会设立“鲁棒阅读竞赛”以来,该项竞赛就成为了评测和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的重要国际赛事与标准,在国际模式识别、文档分析与识别等领域具有非常重要的影响力,多年来一直都是科研院校、科技公司关注竞逐的焦点。据不完全统计,近5年来(2013-2017),共有80多个国家3500多支队伍在“鲁棒阅读竞赛”及技术评测平台参加过竞赛或评测,包括美国加州大学、麻省大学、新加坡国立大学、中国科学院、清华大学、北京科技大学等科研院校,及Google、微软、腾讯、阿里巴巴、百度、三星、商汤、海康等科技公司。

究竟什么是模式识别?模式识别是对表征物体或现象的各种形式数据(主要是感知数据,如图像、视频、语音等)进行处理和分析,进而对物体或现象进行描述、分类和解释的过程,是信息科学和人工智能的重要组成部分。" 通俗点说,就是让计算机模拟人类去听、去说、去看、去读、去思考、去决策,让电脑像人脑那样分析和识别文字、图像、视频、音频等。" 王亮解释说。

使用个人声音作为身份识别已在一些传统行业得到运用,比如公安司法鉴定、银行身份核对、证件防伪等。但该技术应用于互联网产品却并不多见,这背后的原因包括,声纹识别对用户使用的要求较高,用户不同时间说同一段文字的发音方式可能不同;另一方面,由于用户用于识别的语音较短,在保证识别准确率方面需要较高的技术门槛,所以在安全性方面也有一定的顾虑。

眼睛的 " 脸 "、步态的 " 脸 "、声音的 " 脸 "、大脑的 " 脸 " ……模式识别国家重点实验室是一个一本正经看 " 脸 " 的地方。在这里,研究者们行走在电脑与人脑之间,专注研究各类 " 脸 ",科研成果大量应用于国防建设、社会安全保障和国民经济发展领域。

声音锁功能背后的技术原理是声纹识别,这个由微信模式识别中心语音技术组开发的新功能,是腾讯首次将声纹识别技术应用于用户产品中的一次尝试。

这个鉴别身份的技术就是虹膜识别。虹膜是位于人眼表面黑色瞳孔和白色巩膜之间的圆环状薄膜,在近红外光下呈现出丰富的视觉纹理特征,如斑点、条纹、细丝、冠状、隐窝等。" 虹膜是唯一、稳定、安全的人体生物特征,在常见的生物特征模态中身份识别精度最高、比对速度最快、安全防伪最强,适合于大规模人群的身份认证应用。" 中科院自动化所工程师黄晨告诉经济日报记者。

郑重声明:本文版权归新匍京a奥门-最全网站手机版app官方下载所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。