移动端多源融合图像语义内容生成系统及方法

本系统与方法涉及云计算、物联网和人工智能技术领域，具体地说是一种移动端多源融合图像语义内容生成系统及方法。近年来，人工智能技术发展迅速，其商业化速度超出预期，人工智能将会给整个社会带来颠覆性的变化，已经成为未来各国重要的发展战略。以深度学习为核心的算法演进，其超强的进化能力，在大数据的支持下，通过训练构建得到类似人脑结构的大规模卷积神经网络，已经可以解决各类问题。而云计算和大数据的发展，特别是海量数据的出现，从大数据中进行深度学习，打破传统方式，对各个领域产生颠覆性的变革。

移动互联网(Mobile Internet,简称MI)是一种通过智能移动终端，采用移动无线通信方式来获取业务和服务的新兴业务，特别是4G和5G时代的来临，宽带无线接入技术和移动终端技术不断成熟，为移动互联网的发展注入巨大的能量，人们迫切希望能够随时随地乃至在移动过程中都能方便地从互联网获取信息和服务，移动互联网应运而生并迅猛发展，而随着物联网的发展，万物互联的时代已经到来，移动通信设备、物联网终端设备等各类异构设备连接到互联网，产生了新的商业模式，带来新的商业机会。

随着移动终端智能化的提高，除了传统语音装置以外，已经具备定位装置、拍照装置等多种传感能力，为用户提供了更加丰富的使用体验。另外，互联网上出现了海量移动端APP，产生出各种创新应用。移动端通过拍照产生了海量的图像数据，这些非结构化的数据蕴含着丰富有价值的语义信息，要提取出这些语义信息，需要大量的人工标注分析。图像拍摄过程产生的多源数据可以通过算法自动形成文字保留下来，为图像形成新的语义数据，用于更高级的图像分析处理。在这种情况下，如何有效的利用深度学习技术进行图像识别，并充分考虑移动端图像拍摄相关数据，实现移动互联网多源融合分析，生成满足用户情感化的语义文字成为亟须解决的问题。

专利号为CN107608943A的专利文献公开了融合视觉注意力和语义注意力的图像字幕生成方法及系统，通过卷积神经网络从每个待生成字幕的图像中提取图像特征，得到图像特征集合；建立LSTM模型，将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型，得到时序信息；结合图像特征集合和时序信息，生成视觉注意力模型；结合图像特征集合、时序信息和前一时序的单词，生成语义注意力模型；根据视觉注意力模型和语义注意力模型，生成自动平衡策略模型；根据图像特征集合和待生成字幕的图像对应的文本，建立gLSTM模型；根据gLSTM模型和自动平衡策略模型，利用多层感知机模型MLP生成待生成字幕的图像对应的单词；将得到的所有单词进行串联组合，产生字幕。但是该技术方案不能有效的利用深度学习技术进行图像识别，并充分考虑移动端图像拍摄相关数据，实现移动互联网多源融合分析，生成满足用户情感化的语义文字。

发明内容

本系统与方法的技术任务是提供一种移动端多源融合图像语义内容生成系统及方法，来解决如何有效的利用深度学习技术进行图像识别，并充分考虑移动端图像拍摄相关数据，实现移动互联网多源融合分析，生成满足用户情感化的语义文字的问题。

本系统与方法的技术任务是按以下方式实现的，一种移动端多源融合图像语义内容生成系统，该系统包括云数据中心、图像云平台和移动终端，图像云平台部署在云数据中心上；图像云平台通过无线或者有线网络连接移动终端，图像云平台与移动终端进行数据交互；

其中，云数据中心用于利用云中心聚集大量计算资源，提供基础云能力，并对接外部搜索服务实现关键字语义搜索；

图像云平台用于提供计算、存储、网络、安全的基础服务，同时提供人工智能服务，并且图像云平台与多个外部搜索服务对接，实现基于关键字语义的智能搜索；同时根据用户移动终端个性化的需求，提供个性化的人工智能计算服务，实现多源融合图像的语义文字生成以及提取用户移动终端拍摄照片的特征和采集移动终端传感数据；

移动终端用于提供图像采集、声音采集、位置定位、时间采集、文字录入的功能，并将采集的图像及传感数据进行压缩，通过安全信道发送给图像云平台进行存储，图像云平台结合图像及生成语义数据的历史信息，完成文字生成；同时图像云平台将图像识别的语义内容发送给移动终端，用户可以通过人工来进行评判修改，并将结果上传到图像云平台，用于生成语义模型的持续优化。

作为优选，所述图像云平台还用于完成对移动端的安全认证，并将移动终端采集的图像及传感数据进行存储，根据移动终端用户的不同要求，利用用户个性化数据基于通用模型进行训练，形成个性化的模型，进行多源融合的图像语义文字生成，再将结果反馈给移动终端。

作为优选，所述传感数据包括图像拍摄时间、拍摄地点、语音输入数据和输入文字数据；人工智能服务包括图像识别、情感识别、语音识别、文字识别、自然语言理解以及基础的深度学习算法的服务。

更优地，所述移动终端是具备有线LAN或无线网络联网功能的移动设备，移动终端采用手机、平板或物联网智能终端设备。

更优地，所述图像云平台采用k8s和docker架构，为每一个服务分配一个容器，将个性化的模型存储为镜像，动态加载。

一种移动端多源融合图像语义内容生成方法，该方法是将图像云平台部署在云数据中心，图像云平台对移动终端进行安全认证，将移动终端采集的图像及传感数据进行存储，根据移动终端用户的不同要求，利用用户个性化数据基于通用模型进行训练，形成个性化的模型；图像云平台进行多源融合的图像语义文字生成，将图像识别的语义内容反馈给移动终端，用户可以通过人工来进行评判修改，并将结果上传到图像云平台，用于生成语义模型的持续优化。

更优地，所述步骤S3中移动终端通过语音输入采集音频或者文字录入功能添加相关文字数据，移动终端将获取的输入文字数据上传到图像云平台，图像云平台利用语音识别服务对上传的语音进行识别或文字识别服务对上传的文字进行识别，生成文字数据；图像云平台将得到的文字数据采用LSTM进行文字生成。

更优地，所述图像识别和目标检测采用Faster-CNN算法。

更优地，所述文字识别采用LSTM算法。

本系统与方法的移动端多源融合图像语义内容生成系统及方法具有以下优点：

(一)、发明利用云中心聚集大量计算资源，形成图像云平台，提供云基础能力、人工智能能力，综合移动端图像采集多源数据，充分考虑图像拍摄历史数据，并且结合时间、位置、关键人物等数据利用搜索服务，在互联网中获取相关兴趣点、热门事件及场景数据，补充图像语义数据，产生更加完整，符合用户喜好的图像语义内容；图像云平台针对具体的用户训练个性化的模型，并在图像云平台容器加载，使得识别率更高，生成的语义更符合客户需求；

(二)、移动终端会对生成文字进行评价修改反馈，形成闭环持续优化模型，同时为图像文字增加了情感信息，更加有效提取出非结构化图像数据蕴含的语义价值信息；

(三)、本系统与方法综合移动终端图像采集多源数据，考虑图像拍摄历史数据，利用深度学习等图像识别方法提取图像语义数据，并结合时间、位置、关键人物等数据在互联网中获取相关热门事件及场景数据，同时考虑图像的情感数据，产生更加完整、符合用户喜好的图像语义内容。

参照说明书附图和具体实施例对本系统与方法的一种移动端多源融合图像语义内容生成系统及方法作以下详细地说明。

如附图1所示，本系统与方法的移动端多源融合图像语义内容生成系统，该系统包括云数据中心、图像云平台和移动终端，图像云平台部署在云数据中心上；图像云平台通过无线或者有线网络连接移动终端；其中，云数据中心用于利用云中心聚集大量计算资源，提供基础云能力，并对接外部搜索服务实现关键字语义搜索；图像云平台用于提供计算、存储、网络、安全的基础服务，同时提供人工智能服务，并且图像云平台与多个外部搜索服务对接，实现基于关键字语义的智能搜索；同时根据用

户移动终端个性化的需求，提供个性化的人工智能计算服务，实现多源融合图像的语义文字生成以及提取用户移动终端拍摄照片的特征和采集移动终端传感数据；图像云平台还用于完成对移动端的安全认证，并将移动终端采集的图像及传感数据进行存储，根据移动终端用户的不同要求，利用用户个性化数据基于通用模型进行训练，形成个性化的模型，进行多源融合的图像语义文字生成，再将结果反馈给移动终端。图像云平台采用k8s和docker架构，为每一个服务分配一个容器，将个性化的模型存储为镜像，动态加载。移动终端用于提供图像采集、声音采集、位置定位、时间采集、文字录入的功能，并将采集的图像及传感数据进行压缩，通过安全信道发送给图像云平台进行存储，图像云平台结合图像及生成语义数据的历史信息，完成文字生成；同时图像云平台将图像识别的语义内容发送给移动终端，用户可以通过人工来进行评判修改，并将结果上传到图像云平台，用于生成语义模型的持续优化。移动终端是具备有线LAN或无线网络联网功能的移动设备，移动终端采用手机和物联网智能终端设备。其中，传感数据包括图像拍摄时间、拍摄地点、语音输入数据和输入文字数据；人工智能服务包括图像识别、情感识别、语音识别、文字识别、自然语言理解以及基础的深度学习算法的服务。

本系统与方法的移动端多源融合图像语义内容生成方法，该方法是将图像云平台部署在云数据中心，图像云平台对移动终端进行安全认证，将移动终端采集的图像及传感数据进行存储，根据移动终端用户的不同要求，利用用户个性化数据基于通用模型进行训练，形成个性化的模型；图像云平台进行多源融合的图像语义文字生成，将图像识别的语义内容反馈给移动终端，用户可以通过人工来进行评判修改，并将结果上传到图像云平台，用于生成语义模型的持续优化

移动终端将获取的输入文字数据上传到图像云平台，图像云平台利用语音识别服务对上传的语音进行识别或文字识别服务对上传的文字进行识别，生成文字数据；

S10、图像云平台将步骤S7生产的句子、步骤S8得到的POI兴趣点数据、热门事件和场景数据、步骤S9生产的历史数据以及得到的文字数据采用LSTM进行文字生成，图像云平台对生成的文字重新排列，得到最终的语义内容；

S11、图像云平台将中间数据及最终的语义内容进行保存，用于个性化模型的训练；图像云平台利用用户个性化数据基于通用模型进行训练，形成个性化的模型，进行多源融合的图像语义文字生成，

再将个性化模型的训练结果反馈给移动终端；

S12、移动终端将得到的文字进行评价和修改，重新上传到图像云平台；

S13、图像云平台保存评价信息及修改后的文字，利用用户移动终端存储的数据进行训练优化模型，同时增加了文字的情感偏好，下一步跳转至步骤S1或步骤S5。其中，图像识别和目标检测采用Faster-CNN算法。文字识别采用LSTM算法。

最后应说明的是：以上各实施例仅用以说明本系统与方法的技术方案，而非对其限制；尽管参照前述各实施例对本系统与方法进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本系统与方法各实施例技术方案的范围。

移动端多源融合图像语义内容生成系统及方法

Wireshark 安装+使用（一）

基於文本情感分類的語音識別控制系統

基於圖片生成的腦電信號情感識別方法及裝置

一種基於圖卷積神經網絡的腦電情感識別方法

Tensorboard可視化：基於LeNet5進行面部表情分類

一種基於對抗學習的端到端的跨語言語音情感識別方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結