视频通话,作为互联网与移动互联网技术的结晶,正深刻改变着人们的沟通方式。它利用音视频编解码、网络传输协议等技术,实现PC端到移动端的高清、流畅双向或多向实时互动。无论是家庭亲友的温馨交流,还是企业团队的远程协作,视频通话都能打破时空限制,让沟通更加直观、生动。随着5G、AI等技术的融入,视频通话的清晰度、互动性将进一步提升,为用户带来更加丰富、便捷的沟通体验。视频通话,已成为现代沟通不可或缺的一部分。
中文名:
视频通话英文名:
Video Telephone定义 :
实时传送音频和视频的通信方式系统组成 :
语音处理部分、视频采集、视频显示、视音频压缩编码、控制器应用领域 :
医疗保健、商业、远程工作、个人通信、教育、法律、国际交通等关键技术 :
编解码芯片技术、信令/媒体协议、回声消除、低延时技术等视频通话(Video Telephone),亦称视频电话,是一种能够实时传送音频与视频的通信方式。它由语音处理部分、视频采集、视频显示、视音频压缩编码以及控制器等多个部分共同组成,为用户带来面对面的交流体验。

历史发展
早期探索
视频通话的概念可追溯至19世纪70年代,当时便有了通过信号线传输图像和音频的设想。1878年,托马斯·爱迪生在一篇文章中描述了一种名为“电话影像机(Telephonoscope)”的设备,展现了人们对视频通话的初步探索。
关键进展
- 1927年:贝尔实验室成功研发出“图像电话”设备,实现了从华盛顿到AT&T纽约办公室的视频和音频传输,时任美国商务部长赫伯特·胡佛(Herbert Hoover)参与了此次传输测试。
- 1929年:单方向视频电话传输升级至全彩色视频交流,进一步提升了视频通话的视觉效果。
- 1930年:贝尔实验室开发出双向视频电话,即“Iconophone”,为双向视频通话奠定了基础。
- 1936年:全球首个在公共场所运行的双向图像电话服务在德国一家邮局启动,柏林民众能够与莱比锡城等城市的人群进行面对面通话,但因二战影响而关闭。
- 1956年:贝尔实验室开发出可在现有电话电路上使用的可视电话,并进一步研发出第一个完整的实验性可视电话系统。
- 1963-1968年:贝尔工程师开发出第二代可视电话,商业可视电话服务于1970年在匹兹堡首次亮相,并于次年投入公共服务。
数字时代
- 20世纪80年代末:几家企业开始研发并销售可通过公共交换电话网(PSTN)传输的静止帧视频电话,采用摄像机和帧捕获系统捕获单个视频帧进行传输,降低了对实时传输的要求。
- 20世纪90年代:国际电信联盟(ITU-T)推出H.310、H.320、H.321、H.322、H.323和H.324等系列多媒体通信标准,推动了视频通话系统的互联互通。其中,H.320、H.323和H.324应用最为广泛。
- 1992年:AT&T推出VideoPhone2500,这是世界上第一台可通过模拟电话线传输的彩色可视电话,采用数字压缩方法,显著减少了全动态视频传输所需的带宽。
- 1996年:基于普通电话交换网的可视电话标准H.324出台,为商户提供了统一的通信协议和图像、语言压缩标准,促进了各国间的可视通信。
现代发展
- 20世纪90年代末:商务视频会议和桌面视频会议成为新的可视电话解决方案。商务视频会议系统安装在会议室中,便于与会者无需出差即可举行会议;桌面可视电话则连接到个人计算机(PC),通过Internet进行视频通话。
- 1999年:日本京瓷公司推出第一款移动彩色可视电话VisualPhone VP-210,尺寸与普通手机相同,配备了小型内置摄像头和两英寸彩色液晶显示屏,实现了移动状态下的视频通话。
- 2003年:苹果推出的iSight外部摄像头和iChat加入的音频/视频功能,推动了“视频互动”概念在大众消费者中的普及,为FaceTime和Skype等应用软件的到来奠定了基础。
- 2005年:LifeSize Communications生产的第一套高清视频会议系统在Interop贸易展上展出,提供1280x720的显示分辨率和每秒30帧的视频。
- 2006年前后:思科TelePresence3000和Polycom的RPX-400等复杂和昂贵的系统问世,提供了高分辨率、定制化视频会议通讯系统以及文件分享工作站显示屏。
- 2010年:Apple发布的iPhone4配备了FaceTime功能以及Apple Retina显示屏,实现了清晰的可视电话体验。
- 2013年:休斯在珠穆朗玛峰山顶通过Skype与BBC新闻进行视频通话,创造了有史以来最高的视频通话记录(除来自飞机和航天器的视频通话外)。
- 2021年:Facebook宣布推出Portal视频通话设备的两个新版本:Portal Go和Portal for Business服务,进一步丰富了视频通话设备的选择。
2023年:5G新通话业务中的超高清视频通话基于运营商的VoLTE/VoNR技术提供,相比OTT视频通话,网络带宽更有保障,画面更流畅,时延更低。

技术原理
系统组成
语音处理部分
现代视频语音处理以数字计算为基础,借助微处理器、信号处理器等实现。语音处理流程包括收取并采样信号、利用传声器或收音装置收取模拟语音信号、通过ADC装置将模拟信号变成数字信号、根据奈奎斯特采样理论进行采样(若不符合理论则会造成信号失真)、最后经过数字模拟变换装置输出。
视频采集
视频采集采用摄像设备获取外界物体的光信号,并将其转换为相应的电信号,进而转换为数字信号。这一过程一般包括光源滤波、视觉传感、距离测定等,从而摄取本方用户的图像传送给对方。
视频显示
视频显示采用显示设备接收对方的图像信号并在荧光屏上显示对方的图像,使用户能够看到对方的实时画面。
视音频压缩编码
视频通话的信号为数字信号,因包含信息量大、所占频带宽,不能直接在用户线上传输。因此,需要将原有的图像信号数字化,变为数字图像信号,并采用频带压缩技术对数字图像信号进行“压缩”,使之所占的频带变窄,从而在用户线上传输。视频通话的本质是通过网络实时双向传输主叫与被叫方的音视频数据。以从主叫终端到被叫终端的音视频传输为例:主叫终端通过摄像头和麦克风分别捕捉主叫用户视频和音频信息,通过编码和压缩算法将数字化的音视频信息形成一系列IP数据包,通过移动互联网传输到被叫终端。被叫终端接收到这一系列数据包后,使用对应的解压缩和解码算法还原其包含的音视频数据,并分别将视频信息和音频信息从屏幕和扬声器/耳机播放出来。从被叫终端到主叫终端方向,同时存在相同的音视频数据捕捉、编码压缩、传输、解压解码和播放过程。
控制器
视频通话通过专用控制器进行图像信号处理等操作。图像信号处理部分在系统传输图像时,对由摄像机送来的图像信号进行A/D变换后,作为一帧画面高速写入帧存储器中。经解调的信号通过信道解码和信源解码恢复出原来的数字信号,送入帧存储器后以高速读出,经D/A变换后就能在显示器上显示原来的图像。此外,高速调制解调器以高速传输率进行全双工、同步数据传输,启动时间快,适合于PC机点对点通信的要求;图像控制器一般采用专用控制器,各种类型的视频通话性能不同关键在于控制技术的不同;音频处理器使用自适应编码算法对数据进行编码和解码。

核心技术
编解码芯片技术
编解码芯片技术是视频通话发展的关键。语音和图像在传输时必须经过压缩编码-解码的过程,而芯片正是承担着编码解码的重任。只有芯片在输出端将语音和图像压缩并编译成适合通信线路传输的特殊代码,同时在接收端将特殊代码转化成人们能理解的声音和图像,才能构成完整的传输过程,让通话双方实现无障碍交流。在视频通信中通常使用标准化的编解码。视频编码标准主要由国际电联ITU-T和国际标准化组织(ISO)制定。其中由ITU-T制定的标准有用于视频会议系统的建议H.261、H.262、H.263、H.264等,主要用于ISDN、ATM、PSTN以及IP等电信网络上视频信息的传输;由ISO的MPEG制定的标准有MPEG1、MPEG2、MPEG4、MPEG7等,主要用于数字电视、视频点播(VOD)等交互式视频通信业务。
信令/媒体协议
信令协议用于建立、维护和拆除一个呼叫连接的控制信令,如H.323、MGCP、H.248和SIP等。媒体协议则用于建立呼叫连接后音视频数据流的传送,在传输层使用UDP协议作为传输协议,在UDP之上使用RTP/RTCP协议作为视频和音频的传输协议。这主要源于RTP/RTCP协议不采用复杂的传输控制手段和纠错机制,而是采用尽量少的控制与鉴别功能,以满足实时通信的要求。
回声消除
智能终端产品一般至少含有一个传声器和一个扬声器,由于扬声器和传声器之间的声学耦合,设备经常会产生回声。这些回声会对语音通话系统或语音识别系统产生不利影响。因此,回声抵消器是智能语音终端设备中的关键声学信号处理技术之一。基于自适应滤波器的声学回声消除算法是一种线性滤波方法,它假定扬声器至传声器的回声路径是线性的,并可以使用自适应滤波器进行估计。在已知参考信号的情况下,自适应滤波器可以根据声学路径的估计值得到回声的估计值,然后从传声器信号中减去回声估计值,最终得到声学回声消除算法输出信号(一般也称为残差信号)。理想情况下,声学回声消除算法可以消除回声而不会对近端信号造成任何失真。
低延时
诸如微信、QQ等大众类软件,其低延时视频传输都是基于RTC协议。相比RTMP以TCP作为传输层协议,RTC则使用UDP作为传输层基础。UDP是无连接的,不需要三次握手建立连接,因此RTC实时通讯在不考虑网络链路延时的情况下,延时可降到100ms~200ms。另外,由于TCP为了保证传输质量会产生很多ACK,在网络不好的情况下会产生很多重传包,而RTC传输则是基于RTP和RTCP的,其重传策略基于NACK完成,使得其在使用过程中消耗的流量也更少。此外,由于音视频传输对及时性要求很高,允许部分丢帧,RTC充分利用了UDP的不管控能力,利用各种成熟的算法保证了高质量的音视频传输,可以自动适配码率变换。RTC在应用层则使用安全实时传输协议(SRTP,Secure Real-time Transport Protocol)对RTP数据进行加密,从而保证了低延时可靠的视频通话,具备实时视频通讯能力。
主要分类
按功能分类
视频会议
随着通信的发展,人们已不满足于简单的话音和文字通信,希望有集语音、文字和图像于一体的多媒体通信。视频会议系统将多个具有多媒体处理能力的节点通过某种通信机制互相连接起来,相互间可以进行多媒体的交互和数据交换。它既可以点对点通信,也可以多点对多点通信。视频会议系统的结构主要由视频会议终端、多点控制单元MCU、信道(网络)控制管理软件及安全保密系统组成。它在同一传输线路上承载了多种媒体信息:视频、音频和数据等,实现多点实时交互通信,同时也可以将不同地点与会人员的活动情况、会议内容及各种文件以可视新闻的形式展现在各个分会场。
远程协作
以远程医疗和远程教育为例:
- 远程医疗:指通过计算机技术、遥感、遥测遥控技术为依托,充分发挥大医院或专科医疗中心的医疗技术和医疗设备优势,对医疗条件较差的边远地区、海岛或舰船上的伤病员进行远距离诊断、治疗和咨询。旨在提高诊断与医疗水平,降低医疗开支,满足广大人民群众保健需求的一项全新的医疗服务。远程医疗的发展已经从最初的电视监护、电话远程诊断发展到利用高速网络进行数字图像、语音的综合传输,并且实现了实时的语音和高清晰图像的交流。
- 远程教育:也称为远距离教育,指师生凭借媒体所进行的非面对面的教育。它的优点在于使学生在时间和空间并不统一的情况下,能与教师进行交互并完成学习任务。远程教学在很大程度上改变了传统的教学模式,改革了教材内容,缩短了教学双方的空间距离。现代远程教育作为一种新兴的教育思想和教育技术,能提供公平、广泛和廉价的教育方式,使教育效率大大提高。
按传输方法分类
可视电话
可视电话是利用电话线路实时传送人的语音和图像(用户的半身像、照片、物品等)的一种通信方式,由普通电话机、电视摄像机和电视接收机三部分组成。1964年,美国贝尔实验室正式提出了第一个可视电话解决方案。20世纪80年代末,随着通信、计算机、语音和视频编解码技术的不断发展,可视电话在世界各国得到了迅速发展。1992年,美国AT&T公司推出了基于普通电话交换网的彩色可视电话,随后许多国家都生产出类似的产品。可视电话根据图像显示的不同,分为静态图像可视电话和动态图像可视电话。静态图像可视电话在荧光屏上显示的图像是静止的,图像信号和话音信号利用现有的模拟电话系统交替传送,即传送图像时不能通话,传送一帧用户的半身静止图像需5~10秒。一部可视电话设备可以像一部普通电话机一样接入公用电话网使用。动态图像可视电话显示的图像是活动的,用户可以看到对方的微笑或说话的形象。动态图像可视电话的图像信号因包含的信息量大、所占的频带宽,所以不能直接在用户线上传输,需要把原有的图像信号数字化,变为数字图像信号,而后还必须采用频带压缩技术对数字图像信号进行“压缩”,使之所占的频带变窄,这样才可在用户线上传输。动态图像可视电话的信号因是数字信号,所以要在数字网中进行传输。
互联网视频通话
互联网视频通话通常指基于互联网和移动互联网通过智能终端之间实时传送人的语音和图像(用户的半身像、照片、物品等)的一种通信方式。互联网视频通话需要两台联网的终端设备(如智能手机、PC、平板电脑等),通过集成软件或第三方软件来实现音、视频实时双向传输。互联网视频通话主要有四种常见形式,即PC-to-PC、PC-to-Phone、Phone-to-PC和Phone-to-Phone via Internet。PC-to-PC是最早发展起来的,例如腾讯QQ的视频聊天等。随着网络带宽的快速提升以及硬件设备的发展和普及,市场上主流的互联网视频通话服务商按网络类型可分为基于移动信息系统(如4G、5G等)的视频通话和基于WiFi的视频通话;按操作平台类型可分为基于iOS的视频通话、基于Android的视频通话和兼容各平台的视频通话等。

应用领域
视频通话已经在个人通信、商业、医疗、教育、法律及国际交通等多个领域得到广泛应用。
个人通信
视频通话应用程序如Skype、WhatsApp、FaceTime和微信视频通话等,使人们能够与家人和朋友实时通信,不论他们身在何处。这些应用程序提供了便捷、高效的沟通方式,拉近了人与人之间的距离。
商业和远程工作
企业利用视频通话进行远程会议、沟通和协作,使员工能够在全球范围内协同工作。同时,也有企业使用视频通话进行远程面试,以招聘全球范围内的人才,减少招聘流程中的时间和成本。一些项目经理和团队也通过视频通话监督项目进展,确保项目的质量以及交付时间。视频通话技术为商业活动提供了更加灵活、高效的沟通方式。
医疗保健
视频通话技术实现了远程医疗咨询和线上诊断。采用了先进的视频通话技术和语音识别技术后,老年人可以通过互联网与医生进行实时的语音、视频交流,进行远程咨询,讨论症状、获取医疗建议和药物处方,得到及时的医疗建议和指导,而不必亲自前往医疗机构。专家医生也可以通过视频通话协助其他医生执行手术,提供专业建议和指导。对于疫情的防控,在应急指挥中也可使用视频通话技术及时掌握处置现场情况,及时制定出防控措施,第一时间控制疫情,防止疫情扩散。例如,2020年据日本《朝日新闻》网站报道,由于新冠病毒疫情不断蔓延,日本兴起“在线诊疗”的风潮,既能让患者在医院以外的地方及时就诊,也可有效预防医疗人员感染疫情。
教育
教育机构可以使用视频通话工具来提供在线课堂,让学生远程参与教学,与教师互动,并讨论课程内容。学生可以通过视频通话参与虚拟实验室,观察实验过程,并与导师一起分析和讨论结果。学校也可以使用视频监控和远程考试工具来确保学生在远程环境中进行考试时的诚实性和公平性。此外,两个不同地区、国家的学校还可以进行远程学习和跨文化交流。例如,2008年5月9日下午,中国学校学生与意大利巴里市马克波罗外语及商贸技术高等中学的学生进行了交流活动,这次活动主要采用网络视频通话的形式,是两校间“中意文化交流”活动的一部分。
法律
视频通话为无法出席的证人提供了通过视频会议作证的途径。由于美国法院没有传唤外国证人的权力,在刑事案件中获取他们的亲自证词可以透过视频会议技术来完成。(EU)2020/1783法规(重订)涵盖不同欧盟国家法院之间在民商事案件取证方面的合作,新规定明确了如何通过视频会议或其他远程通信技术取证。视频通话技术在法律领域的应用,提高了司法效率,降低了司法成本。
国际交通
视频通话在国际沟通上带来了极大便利。例如,2021年8月24日,国务委员、公安部部长赵克志同巴基斯坦总理国家安全顾问优素福进行视频通话;2022年3月18日晚,中国国家主席习近平应约同美国总统拜登通过视频通话的方式就中美关系和双方共同关心的问题交换了意见。这些视频通话活动加强了国际间的沟通与合作,促进了全球和平与发展。
发展趋势
视频通话技术仍在不断发展,未来趋势包括更高分辨率的视频、虚拟现实和增强现实的整合。通过5G+AI+4K模式,将构建万物互融、无缝连接的智能科技生活。视频通话的未来将受到人工智能、安全措施以及与其他数字工具集成的进步推动,最终提高远程通信的效率和用户体验。
- 人工智能驱动:人工智能驱动的应用程序将提高视频和音频质量,同时增强虚拟背景和实时语言翻译功能。这将使视频通话更加逼真、自然,满足用户多样化的需求。
- 5G网络普及:随着5G网络的普及和更高效的编解码技术的出现,视频通话将变得更加高效和可靠。5G网络的高速度、低延时特性将为视频通话提供更加稳定、流畅的传输环境。
- 多方自由交互:视频通话技术趋势允许用户多方进行自由形式的交互,同时查看和发送视频流。这将使视频通话更加灵活、多样,满足用户在不同场景下的沟通需求。
- 虚拟游览体验:在进行休闲活动时,博物馆等文化景点的虚拟游览使组织可以向新的和更多的受众展示他们的作品,使个人能够在家中观看世界各方景点。这将丰富人们的文化生活,拓宽人们的视野。
- 影响购买决策:视频通话创新将继续影响消费者做出购买决策的方式。专用应用程序可以引导用户完成涉及房地产、家具、车辆和许多其他产品的购买过程,提供更加便捷、高效的购物体验。
