http://www.ox-holdings.com

开创实时音视频服务用RTC技术赋能全行业新匍京a奥门:,开发一个RTC系统需要什么技术储备

摘要在移动互联网飞速发展的今天,各种应用都渴望加入RTC的功能,实现用户与企业,用户与用户之间的实时音视频交流。于是问题出现了,开发一个RTC系统需要什么技术储备?概述  实时通讯系统,RTC(real time communication),是最近互联网应用的一个新领域。RTC系统的应用极其广泛,我们常见的视频电话,会议系统,远程桌面与控制都是RTC系统的一个应用。在移动互联网飞速发展的今天,各种应用都渴望加入RTC的功能,实现用户与企业,用户与用户之间的音视频交流。于是问题出现了,开发一个RTC系统需要什么技术储备?  有人说只需要懂javascript就可以了。WebRTC的出现极大的降低了RTC的开发门槛。只需要编写javascript代码就可以实现浏览器之间的音视频通话。且不论通话质量,浏览器的兼容性,网络穿透能力,那些不使用HTML的原生APP怎么办?  又有人提出WebRTC也支持Native开发,只要有懂C++和相关应用平台(Android,iOS,Windows,Mac)开发的软件工程师就可以了。WebRTC确实可以在这些平台上开发原生的应用。将WebRTC编译打包后嵌入APP可以实现RTC的功能,就是说能通了。但一个合格的RTC系统仅仅是能通就可以了吗?  以音视频通话为例,用户期望的RTC应用应该是:通话不卡不掉低延时,声音清晰真实无回声,画面流畅清晰无卡顿。如果直接采用上面WebRTC集成,我们很容易发现,在大多数情况下,通话并不像原来想象的那样完美。由于网络的原因,通话断断续续,延时很大。由于终端的适配不好,语音通话回声严重,噪声严重影响体验。视频不清楚,不流畅。  RTC系统的每一个部分都需要优化,需要打磨,才能打造出完美的用户体验。现在的问题是,开发一个优秀的RTC系统需要具备哪些技术储备呢?终端  解决语音通话的问题,首先需要有合适的语音编解码器,然后需要调整音频处理模块的算法。这里面内容比较广,有噪声消除,回声抑制,自动增益。比较前沿的还有多麦克风降噪,盲扩增强等等。总之这些都需要算法的储备,涉及语音信号处理、统计信号处理等方面的内容。  有了算法还不够,还需要有好的实现。各个平台(Android,iOS,Windows,Mac)底层音频系统也需要深入了解。有时候算法挺好的,但有些机器先天不足,比较特别,需要特殊处理。这需要投入许多人力物力对各种型号的硬件做适配。优秀的系统可能需要适配几百上千个不同的设备。  同样的,对于视频,我们需要对视频编解码器有深入的了解。这样才能用最低的码率展示清晰的视频画面。视频的前后处理,比如降噪,增强(包括流行的美颜)也少不了。这就需要图像与视频信号处理。视频数据量比较大,对底层视频设备也需要深入研究。适配也少不了。网络  说完了终端,再说说网络。网络抗丢包是必备选项。互联网不是一个可靠的实时音视频传输网络。在不可靠的网络中实现可靠的音视频传输考验系统设计的能力。这里既有信道编码的理论也有网络对抗的实际经验。  如果要实现可靠的云服务,遍布全球的服务器网络也必不可少。高可用性,负载均衡等等...  现在我们知道开发一个RTC系统需要什么技术了。这个系统涉及到几乎所有的网络与音视频处理的理论与实践。作者简介  郑仲侯,声网Agora.io音视频构架师。硕士毕业于上海交通大学电子工程系,信号处理专业。先后在National Instruments,SRS,DTS工作十余年。专注信号处理算法与实践,加入Agora后从事音视频引擎的开发,持有双麦降噪专利。

RTC(real time communication)实时通讯系统是最近互联网应用的一个新领域。RTC系统的应用极其广泛,我们常见的视频电话,会议系统,远程桌面与控制都是RTC系统的一个应用。在移动互联网飞速发展的今天,各种应用都渴望加入RTC的功能,实现用户与企业,用户与用户之间的音视频交流。于是问题出现了,开发一个RTC系统需要什么技术储备?

从互联网发展历程看 —— 实时通信和互联网交叉融合所带来的改变

但实际上,始建于上世纪 60 年代的互联网本身并非为“实时”所设计,受限于当时的应用场景和技术,再加上不同国家、运营商之间人为制造的屏障,通信技术在实时传输、质量保证等各方面都可谓差强人意。

也正因如此,从互联网诞生之日起,一代又一代的技术人便在对通信技术进行不断地更新升级。1989年,还在欧洲粒子研究中心(CERN)的 Tim Berners-Lee 研制出了三项突破性的数字通信技术:可用于排列文本文件的 HTML 语言、连接文件的 HTTP 系统以及用来对特殊节点信息进行定位的 URL。这三项创新改变了整个通信系统,使得信息能够更容易地穿越计算机网络。而在1993年,Berners-Lee 更是建立起万维网联盟(World Wide Web Consortium,简称 W3C),负责 Web 相关标准的制定。浏览器的普及和 W3C 的推动,使得 Web 上可以访问的资源逐渐丰富起来,然而此时 Web 的主要通信还是浏览器向服务器请求静态 HTML 信息。

 

新匍京a奥门 1

 

不过,同在 1993 年,CGI(Common Gateway Interface,通用网关接口)的出现带动了 Web 上动态信息服务的蓬勃兴起。CGI 定义了 Web 服务器与外部应用程序之间的通信接口标准,Web 服务器可以通过 CGI 执行外部程序,让外部程序根据 Web 请求内容生成动态的内容。

 

新匍京a奥门 2

 

到了 1995 年,NetScape 公司设计的 JavaScript 被用作浏览器上运行脚本语言为网页增加动态性,不仅能够做出非常酷的页面动态效果,还可以减少与服务器端的通信开销,而十年后,也就是 2005 年,当 Google 的崛起掀开了 Web 2.0 的大幕,应运而生的 AJAX 更使得 javascript 再次大放异彩。

我们知道,在 Web 应用中,用户提交表单时就向 Web 服务器发送一个请求,服务器进行接收处理,并返回一个新的网页,前后两个页面中的大部分 HTML 代码往往是一样的,由此也就造成了返回时带宽资源的浪费。而 AJAX 应用仅向服务器发送并返回必要的数据,且在客户端采用 JavaScript 处理来自服务器的响应,更新页面的局部信息。这样不仅让浏览器和服务器的数据交换大大减少,且客户端也可以更快速地响应用户操作。

 

新匍京a奥门 3

 

而到了移动互联网时代,通信技术标准化也就成为了水到渠成的自然现象。在《苹果终于入伙 WebRTC,新一代移动 Web 应用爆发路上还有哪些坑?》一文中,我们曾谈到的 WebRTC 标准便是典型案例之一。

在 2011 年以前,浏览器之间要想实现实时通信,需要私有技术,其中大部分都是通过插件和客户端来安装使用。对于许多用户而言,插件的下载、安装和更新是一个复杂、繁琐和容易出错的操作。而对于开发人员来说,插件的调试、测试、部署、错误修复和维护同样困难重重,且不提还涉及到一些受版权保护的技术,整合相当复杂。再者,很多时候,服务提供商很难说服用户去安装插件。

但这一两头吃力还不讨好的局面就这样被 Google 将 WebRTC 项目开源所打破。2011 年,WebRTC 基于 BSD 协议开源,同年,W3C 启动 WebRTC 计划,让 WebRTC 成为了 HTML5 标准的一部分(目前,该规范还在开发中)。

另一方面,在移动互联网创业大潮涌动之时,不少创业者选择从移动 SDK 切入,将实时通信工具化,开发者及团队无需顾及实时通信背后繁琐的技术原理与逻辑实现,只需在应用开发中集成相应的 SDK 即可轻松实现实时通信功能。这方面的代表性企业可见声网 Agora.io,其提供了一个极简 SDK,让开发者接入 SD-RTN™ 实时虚拟通信网,在任何 App 和网站实现高质量的音频通话、视频通话、全互动直播。

同时,随着网络基础设施到位、硬件配件发展成熟,以及 4G、Wi-Fi 的普及,用户开始对更丰富的功能、场景有了更多的需求。譬如在当前人工智能如火如荼之时,诸多智能设备都集成了实时音视频的功能,前文提到的小米 AI 音箱即是其中之一。

对此,声网 Agora.io CEO 赵斌如此总结道:

中国互联网发展迅猛,基础云服务、开源技术、html5、移动 SDK 等技术,让中国的开发者能最快速地开发移动和网页 App,与世界比肩。下一个风口,一定会是融合了实时通信技术的应用。

蓝鲸TMT频道10月24日讯,实时音视频云服务提供商声网Agora今日宣布开源声网自研音频编解码器Solo、以及Agora RTC SDK3.0、水晶球2.0版本的上线。此外,声网联合商汤、金山云等34家合作伙伴发布“Agora云市场——全球合作伙伴计划”,旨在创建一个RTC实时互联网生态,加速集成开发,降低开发门槛。

10月24日下午,实时音视频云服务开创者声网Agora在北京召开“未来·与声俱来”品牌发布会。作为品牌的首次正式对外发声,本次发布会展示了声网用RTC技术赋能全行业的战略布局、宣布开源声网自研音频编解码器Solo、以及Agora RTC SDK3.0、水晶球2.0版本的上线。

同样的,对于视频,我们需要对视频编解码器有深入的了解。这样才能用最低的码率展示清晰的视频画面。视频的前后处理,比如降噪,增强(包括流行的美颜)也少不了。这就需要图像与视频信号处理。视频数据量比较大,对底层视频设备也需要深入研究。适配也少不了。

2017 已过大半,从年初盛起的《王者荣耀》、《狼人杀》却依然是最火爆的游戏产品,其共同特性都在于集成了实时语音功能,前者左手走位右手技能,语音自然也就成为了非常必要的属性,而后者更不用说,本就是纯粹依靠实时语音进行下去的游戏。

据悉,目前声网的日均通话分钟数已经达到6亿、每年为创新创业项目企业提供超过5.79亿分钟免费服务时长、全球范围内超过30万终端安装使用Agora SDK的应用。从2014年成立至今,声网已经将RTC技术赋能到社交直播、教育、游戏、金融、医疗、企业协作等10余个行业,100余种应用场景。80%以上的社交泛娱乐企业和70%以上的在线教育企业均采用声网提供的实时音视频解决方案。

重磅发布全球合作伙伴计划共创RTC实时互联网生态

以音视频通话为例,用户期望的RTC应用应该是:通话不卡不掉低延时,声音清晰真实无回声,画面流畅清晰无卡顿。如果直接采用上面WebRTC集成,我们很容易发现,在大多数情况下,通话并不像原来想象的那样完美。由于网络的原因,通话断断续续,延时很大。由于终端的适配不好,语音通话回声严重,噪声严重影响体验。视频不清楚,不流畅。

而从游戏到直播、在线教育/医疗以及 VR/AR、AI 等互联网垂直行业及创新技术,这样的例子还有很多。比如转型做直播的陌陌在最新的 8.0 版本中推出了“快聊”、“狼人杀”、“派对”等实时视频社交玩法;小米在新发布智能音箱中也集成了实时语音云服务。随着互联网服务越来越廉价易得,诸如网络电话、视频通话、全互动直播等实时场景已然成为用户的普遍需求,越来越多的规模化应用基于使用模式及场景集成了实时音视频功能,“实时”俨然已是互联网最热的标签词之一。

在产品升级上,一共包括实时超分、水晶球2.0、RTC SDK3.0、开源音频编解码器SOLO四大方面。视频超分辨率技术可以将实时传输中的视频在原有分辨率的基础上,实现两个方向的2倍同步放大,并获得细节增强。声网的超分算法同时支持在云端和移动终端上实时运行。声网水晶球为实时音视频质量透明数据产品,水晶球2.0版本将在2019年Q4上线,将提供RTC服务质量监控和数据分析产品套件。开源Agora Solo为声网自研的专为不稳定网络设计的语音编解码器,能够在弱网条件下保证流畅通话。Agora RTC SDK3.0将于11月上线,实现直播和通信融合,提升弱网环境下的音视频体验。

基于这一背景,声网发布了“Agora云市场全球合作伙伴计划”,旨在创建一个RTC实时互联网生态,帮助开发者加速集成开发,快速构建应用内实时互动能力;同时降低开发门槛,满足不同能力的开发者需求。

如果要实现可靠的云服务,遍布全球的服务器网络也必不可少。高可用性,负载均衡等等。。。

想要从根源上解决这些问题,还需要先对 RTC 整个技术栈做个了解。

RTC 从功能流程上来讲,包含了采集、编码、前后处理、传输、解码、缓冲、渲染等诸多环节,下图是一个 RTC 通信的粗略流程,每一个细分环节还有更细分的技术模块。比如在前后处理环节,有美颜、滤镜、回声消除、噪声抑制等,采集有麦克风阵列等,编解码有 VP8、VP9、H.264 等。

 

新匍京a奥门 4

 

在这里,来自声网的技术专家分享了他们的实践:

  • 通过专为内容实时传输而设计的网络架构 SD-RTN 解决网络传输问题。在互联网上不同地区的数据中心放置软件组网单元,相互连接互相调度,在现有的公共互联网基础上构建一层新的虚拟网络;
  • 针对互联网信道的实时一对一、多人通讯设计了专门的私有编解码,以适应互联网丢包、抖动、延迟等问题;

 

新匍京a奥门 5

 

  • 将“免”适配和适配相互配合,依靠线上数据的反馈,判断“免”的效果;
  • 基于大数据开发了可供开发者 7*24 查看的“实时数据监控平台”。开发者可以查看的每个用户的通话质量情况,包括网路分布、设备分布、质量分布、通话质量、接通率、通话分钟数等。

值得一提的还有,不少开发者直接将 RTC 和 WebRTC 划上了等号。实际上,WebRTC 是 Google 的一个专门针对网页实时通信的标准及开源项目,只提供了基础的前端功能实现,包括编码解码和抖动缓冲等,开发者若要基于 WebRTC 开发商用项目,需要自行做服务端实现和部署,信令前后端选型实现部署,以及手机适配等一系列具体工作。除此之外,还要在可用性和高质量方面进行大量的改进和打磨,对自身开发能力的门槛要求非常高。而一个专业的 RTC 技术服务系统,除了涵盖上述的通信环节外,实际上还需要有解决互联网不稳定性的专用通信网络,以及针对互联网信道的高容忍度的音视频信号处理算法。当然,常规云服务的高可用、服务质量的保障和监控维护工具都只能算是一个专业服务商的基本模块。

同时,赵斌还宣布声网将开源自研的抗丢包音频编解码器Agora Solo.Solo是声网专为不稳定网络设计的语音编解码器,能够在弱网条件下保证流畅的高质量通话。除此之外,Agora RTC SDK3.0也将于11月上线,实现直播和通信大融合,并全面提升弱网环境下的音视频体验。

先看终端方面。解决语音通话的问题,首先需要有合适的语音编解码器,然后需要调整音频处理模块的算法。这里面内容比较广,有噪声消除,回声抑制,自动增益。比较前沿的还有多麦克风降噪,盲扩增强等等。总之这些都需要算法的储备,涉及语音信号处理、统计信号处理等方面的内容。有了算法还不够,还需要有好的实现。各个平台(Android,iOS,Windows,Mac)底层音频系统也需要深入了解。有时候算法挺好的,但有些机器先天不足,比较特别,需要特殊处理。这需要投入许多人力物力对各种型号的硬件做适配。优秀的系统可能需要适配几百上千个不同的设备。

那么,在风口之上,实时通信还存在哪些技术难点尚待完全攻克?

接下来,我们进行具体分析。

  • 网络传输:现存的互联网作为冷战时代的产物最早其实是为了用于保障美国通信网络,其在网络传输方面的种种局限也直接导致了现在的互联网在大文件传输、实时传输方面的窒碍难行。而语/视频通信、直播连麦对实时性要求非常高,要求延迟低至几百毫秒,因此,现存的互联网并不能满足这种新型的实时应用场景。

  • 编解码:传统的编解码算法,也非应用于复杂的互联网实时场景的良选,就导致卡顿、模糊等不可用的情况发生。

  • 硬件适配:在音视频通话中,除了延迟,还有一个严重影响用户体验的问题 —— 回声。所谓“回声”,即是指自己的声音传到远端再通过远端的麦克风录音传回来。我们需要通过信号处理算法来进行回声消除,但由于手机的音量控制是非线性的,不同的手机材质、手机壳会导致声音传导性有差异,设备种类差异导致算法不能普适。且Android 手机碎片化严重,也就直接导致了移动端适配工作量庞杂。

  • QoE 质量保障: 来自北欧的实时通信数据测试公司 Callstats.io 曾分享过欧美市场实时通信行业现状的调研数据,基于公网的 WebRTC 通话中有 16% 通话质量不可接受。而实际情况中,类似东南亚、中东这些基建不发达地区会糟糕得多。如何保障 RTC 服务的高连通性、高质量,也就成为了 RTC 领域的一大技术难点。

低代码平台,带来开发者的效率革命。Low-code(构建自定义代码开发)甚至No-code(零代码-拖放式编辑)快速开发应用,正在成为新的趋势。声网将实时音视频和合作伙伴的业务能力结合,无论单一接口的功能还是场景解决方案,都可以根据实际需求,通过低代码模块组建的方式自由组合,帮助开发者少写甚至不写代码快速开发应用,提升效率。

说完了终端,再说说网络。网络抗丢包是必备选项。互联网不是一个可靠的实时音视频传输网络。在不可靠的网络中实现可靠的音视频传输考验系统设计的能力。这里既有信道编码的理论也有网络对抗的实际经验。

那么,当实时通信无处不在之时,我们该怎么做?

当各式智能硬件、移动应用以及 Web App 中的许多模块都越来越依赖于音视频技术,实时通信已然成为了所有行业的一大基础设施,不仅仅是在直播、游戏这些泛娱乐行业,更渗透到在线医疗、教育、金融等领域。在不同场景下,推动着人们沟通互动方式的改变。

但是,就是这样一个已与各个垂直行业进行深度融合需求庞大的技术领域,却仍然匮乏核心技术高端人才。RTC 核心技术最需求的是通信工程相关专业的人才,而这些专业的应届毕业生此前就业一般集中于华为、爱立信等传统通信行业厂商,也不具有 RTC 的经验,一般都是工作后二次学习。开发者需要对实时通信有更深层次的理解,建立起 RTC 技术体系,帮助自己在各个行业开拓创新的可能。


最后,对于想要进入 RTC 领域的开发者,推荐即将于 9 月 21 -22 日在北京万豪酒店举行的 RTC 2017 实时互联网大会,主要有两点:一是在于集结了实时通信领域非常重量级的大咖,比如 WebRTC 标准之父、IETF 的参与者 Daniel C. Burnett,还有来自Google、声网、Slack、Houseparty、Atlaissian、陌陌、花椒、熊猫等公司的技术专家,可以在现场收获实时通信最新的第一手资源,同时也与讲者们进行更深入的沟通交流。其次,这一会议的分会场设置完全围绕 RTC 技术栈来,从底层到前端,从架构到编解码,从移动开发到行业技术实践,能够帮助所有想要学习 RTC 的开发者建立起学习架构体系。

 

除此之外,声网Agora还加入了AOM和W3C等行业组织,作为RTC代表在其他的生态中更多地去赋能和参与。声网希望通过生态伙伴矩阵,聚集全球化能力,为开发者和企业客户提供高效、便捷的一站式实时音视频解决方案。声网创始人兼CEO赵斌在发布会上表示,“我们想做一家慢公司和静公司,深耕行业专心研究,陆地潜行着眼长期。”而这正是一家具有互联网技术基因公司的倔强和执着。

郑重声明:本文版权归新匍京a奥门-最全网站手机版app官方下载所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。