一种基于数字人系统的无障碍交流系统和方法与流程-j9九游会真人

文档序号：35756119发布日期：2023-10-16 21:13阅读：9来源：国知局

1.本发明属于无障碍交流智能设备领域，尤其涉及一种基于数字人系统的无障碍交流系统和方法。

背景技术：

2.听障人员与正常人之间存在交流障碍，造成听障人员在生活工作上遇到极大的困难。无障碍交流系统的出现在一定程度上解决了聋哑人与正常人之间的交流，传统的无障碍交流系统中，聋哑人向正常人传递信息时，由聋哑人用手语传递信息，系统识别手语转为文字，文字转语音，将语音发送给正常人。正常人向聋哑人传递信息时，由正常人使用语音传递信息，系统识别语音，将语音转为文字，同时生成手语动画。
3.对于正常人来讲，现有无障碍交流技术最终的信息表达要么是声音，要么是文字，无法达到正常人与正常人面对面交流的感觉。

技术实现要素：

4.为了解决上述问题，本发明提供了一种基于数字人系统的无障碍交流系统和方法，优化了聋哑人与正常人之间的交流方式，使得聋哑人能以常人交流的方式与正常人之间进行交流。
5.为了实现上述目的，本发明采用的技术方案如下：
6.第一方面，本发明提供了一种基于数字人系统的无障碍交流系统，包括：
7.正常人客户端，包括语音捕捉模块、语音识别模块、文字转语音模块、换脸模块、数字人系统和显示屏模块；
8.所述的语音捕捉模块用于捕捉正常人说话的音频；语音识别模块用于将正常人说话的音频转为文字信息并发送至聋哑人客户端；文字转语音模块用于接收聋哑人客户端发送的对应手语的文字信息并转为音频；换脸模块用于接收聋哑人客户端发送的聋哑人的面部信息数据并替换到数字人系统中的数字人模板中；数字人系统用于根据对应手语的音频驱动换脸后的数字人模板；显示屏模块用于播放换脸后的数字人模板说话的动画；
9.聋哑人客户端，包括手部动作捕捉模块、手语识别模块、文字转手语模块和显示屏模块；
10.所述的手部动作捕捉模块用于捕捉聋哑人的手部动作；手语识别模块用于将聋哑人的手部动作对应的手语识别为文字信息并发送至正常人客户端；文字转手语模块用于接收正常人客户端发送的对应正常人说话音频的文字信息并转为手语动画；显示屏模块用于播放手语动画。
11.第二方面，本发明提供了一种聋哑人向正常人无障碍交流的方法，包括：
12.采集聋哑人面部信息数据，将其传输至正常人客户端的换脸模块；
13.采集聋哑人手部动作，以手语方式提示聋哑人手部动作不能超出录制范围；
14.正常人客户端接收聋哑人客户端发送的面部信息数据后，将数字人系统中的数字
人模板的脸换成当前的聋哑人的脸，换脸后的数字人模板展示在正常人客户端的显示屏模块上；
15.聋哑人客户端上的手语识别模块识别手部动作，将手部动作翻译为文字信息，将其传输至正常人客户端；
16.正常人客户端中的文字转语音模块接收文字信息，将文字信息转换为音频后传输至正常人客户端中的数字人系统，利用转换后的音频驱动数字人系统中换脸后的数字人模板说话，说话动画实时展示在正常人客户端的显示屏模块上，同时播放用于驱动数字人模板的音频。
17.第三方面，本发明提供了一种正常人向聋哑人无障碍交流的方法，包括：
18.采集正常人语音，传输至正常人客户端中的语音识别模块，将语音转为文字信息，将其传输至聋哑人客户端；
19.聋哑人客户端中的文字转手语模块接收到文字信息，将文字信息转为手语动画，开启震动提示聋哑人观看；
20.聋哑人客户端的显示屏模块上播放手语动画。
21.第四方面，本发明提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述的方法。
22.第五方面，本发明提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，用于实现上述的方法。
23.本发明具备的有益效果是：本发明采用2d数字人技术，可以将手语转换为正常人说话的动画视频，同时也可以将正常人的语音转换为手语信号，这使得正常人与聋哑人的沟通更加方便。此外，正常人客户端和聋哑人客户端之间仅传输文字和聋哑人的面部信息，降低了数据传输量，可实现实时通讯。
附图说明
24.图1是本发明实施例示出的基于数字人系统的无障碍交流系统的框架示意图；
25.图2是本发明实施例示出的基于数字人系统的无障碍交流系统的功能示意图；
26.图3是本发明实施例示出的聋哑人向正常人无障碍交流方法的流程图；
27.图4是本发明实施例示出的正常人向聋哑人无障碍交流方法的流程图；
28.图5为本发明实施例示出的聋哑人-正常人双向无障碍交流方法的电子设备终端结构示意图。
具体实施方式
29.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
30.相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的
描述也可以完全理解本发明。
31.除非另有定义，本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本发明所使用的术语“或/和”包括一个或多个相关的所列项目的任意的和所有的组合。
32.本实施例提出的基于数字人系统的无障碍交流系统，包括：
33.手部动作捕捉模块，用于捕捉人的手部动作，其通过api接口与手语识别模块实现数据传输，保证手部动作捕捉模块采集到的手部动作视频能够传输至手语识别模块。
34.手语识别模块，用于将聋哑人的手语转为文字信息，其通过api接口与手部动作捕捉模块和文字转语音模块实现数据传输，接收手部动作捕捉模块传输来的手部动作视频，将其转换为文字信息后，再将其传输至文字转语音模块。
35.文字转语音模块，用于将文字转为语音信号，其通过api接口与手语识别模块和数字人系统实现数据传输，接收手语识别模块传输来的文字信息，将其转换为语音信号后，再将其传输至数字人系统；
36.换脸模块，用于将任意数字人模板换成为采集到的聋哑人的脸，其通过api接口与数字人系统实现数据传输，将采集到的聋哑人的脸替换数字人系统中的数字人模板中的人脸；
37.数字人系统，用于使用语音驱动2d数字人说话，其通过api接口与换脸模块和文字转语音模块实现数据传输，展示换脸后的数字人，并接收文字转语音模块传输来的语音信号驱动换脸后的数字人动作；
38.语音捕捉模块，用于捕捉正常人说话的音频，其通过api接口与语音识别模块实现数据传输；
39.语音识别模块，用于将语音转为文字信息，其通过api接口与语音捕捉模块和文字转手语模块实现数据传输，接收语音捕捉模块传输来的正常人说话的音频，将其转换为文字信息后，再将其传输至文字转手语模块。
40.文字转手语模块，用于将文字信息转为手语，其通过api接口与语音识别模块实现数据传输，接收语音识别模块传输来的文字信息，将其转换为手语，用于展示给聋哑人观看。
41.显示屏模块，用于播放换脸后的数字人说话的动画以及手语动画。
42.在本发明的一项可选实施中，手部动作捕捉模块可采用摄像头实现，该摄像头还具备采集聋哑人面部图像的功能，将采集到的聋哑人面部图像传输至换脸模块。
43.在本发明的一项可选实施中，语音捕捉模块可采用麦克风实现。
44.上述用于实现手语识别、文字-语音转换、语音识别、文字-手语转换等功能的模块均可通过现有技术实现，此处不再赘述。
45.上述无障碍交流系统还可以嵌入任意智能设备内部，例如将其嵌入智能手机，手部动作捕捉模块可由智能收集的摄像头实现，语音捕捉模块可由智能收集的麦克风实现，在双向交流过程中，可以通过运营商线路或者网络流量实现通讯，网络数据传输方式包括4g、5g、wifi以及有线网络。
46.如图3所示，针对聋哑人一方，需要能分辨出系统上的聋哑人向正常人传达信号的
入口，以实现聋哑人向正常人无障碍交流的方法，包括以下步骤：
47.s11.聋哑人设备启动摄像头，优先采集聋哑人面部信息数据，在显示屏上以手语方式提示聋哑人调整位置，将面部置于采集框内，采集面部信息数据后，将其传输至正常人设备中的换脸模块；同时，以手语方式提示聋哑人手部动作不能超出摄像头的录制范围。
48.s12.正常人设备上的换脸模块接收聋哑人设备发送的面部信息数据后，将数字人系统中的2d数字人模板的脸换成当前的聋哑人的脸，换脸后的2d数字人模板展示在正常人设备的显示屏模块上。
49.s13.聋哑人打手语，聋哑人设备上的摄像头捕获手部动作，传输至聋哑人设备上的手语识别模块，将手部动作翻译为文字信息，将其传输至正常人设备中的文字转语音模块。
50.s14.正常人设备中的文字转语音模块接收文字信息，传输至正常人设备中的文字转语音模块，将文字信息转换为音频后传输至正常人设备中的数字人系统，利用转换后的音频驱动数字人系统中换脸后的2d数字人模板说话，说话动画实时展示在正常人设备的显示屏模块上，同时还会播放用于驱动2d数字人模板的音频，使得聋哑人能以常人交流的方式与正常人之间进行交流。
51.如图4所示，针对正常人一方，需要能分辨出系统上的正常人向聋哑人传达信号的入口，以实现正常人向聋哑人无障碍交流的方法，包括以下步骤：
52.s21.正常人设备上的麦克风捕获正常人语音，传输至正常人设备中的语音识别模块，将语音转为文字信息，将其传输至聋哑人设备中的文字转手语模块；
53.s22.聋哑人设备中的文字转手语模块接收到文字信息，将文字信息转为手语动画，开启震动提示聋哑人观看；
54.s23.聋哑人设备的显示屏模块上播放手语动画。
55.基于上述无障碍交流的方法，聋哑人与正常人之间数据传输的形式仅为文字和聋哑人的面部信息，降低了数据传输量，可实现实时通讯。基于此，可以将系统划分为正常人客户端和聋哑人客户端，如图1所示，所述的正常人客户端中包含语音捕捉模块、语音识别模块、文字转语音模块、换脸模块、数字人系统、显示屏模块；聋哑人客户端中包含手部动作捕捉模块、手语识别模块、文字转手语模块、显示屏模块。
56.如图2所示，正常人客户端的功能包括：捕获正常人语音、将正常人语音转为文字信息并发送至聋哑人客户端、接收聋哑人客户端发送的面部信息并将其换脸至数字人模板上、接收聋哑人客户端发送的文字信息并转换为音频、利用音频驱动换脸后的数字人动画、播放音频和换脸后的数字人动画等。
57.聋哑人客户端的功能包括：采集聋哑人面部信息并发送至正常人客户端、捕获聋哑人手部动作、将手部动作翻译为文字信息并发送至正常人客户端、接收正常人客户端发送的文字信息并转为手语动画、播放手语动画等。
58.在本发明的一项可选实施中，所述的换脸模块采用deepfake换脸神经网络，可以将a的脸转换为b的脸，a是2d数字人模板中的脸，b是目标聋哑人的脸。采集的聋哑人面部信息数据包括但不限于图片和视频数据。所述的deepfake换脸神经网络可以使用deepface lab、faceswap等。
59.在本发明的一项可选实施中，利用音频驱动数字人说话属于本领域公知技术，一
种可选的实现方式如下：
60.将由聋哑人的手语转换得到的音频作为用于驱动数字人的控制指令；
61.根据控制指令，输出嘴部变形动画和表情动画；
62.对嘴部变形动画和表情动画进行滤波得到平滑后的动画数据，融合在数字人模板中。
63.本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
64.本发明实施例还提供一种电子设备，包括存储器和处理器；
65.所述存储器，用于存储计算机程序；
66.所述处理器，用于当执行所述计算机程序时，实现上述的基于数字人系统的无障碍交流方法。
67.从硬件层面而言，如图5所示，为本实施例提供的一种硬件结构图，除了图中所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
68.本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的基于数字人系统的无障碍交流方法。
69.所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、sd卡、闪存卡(flash card)等。进一步地，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。
70.显然，以上所述实施例和附图只是本技术的一些例子，对本领域的普通技术人员来说，也可以根据这些附图将本技术适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本技术披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本技术公开的内容不足。在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

当前第1页1