大数据环境下海量多媒体信息过滤技术改进
杨艳     
吕梁学院 物理系, 山西 吕梁 033000
摘要: 传统的多媒体信息过滤技术算法陈旧,存在过滤不准确,过滤逻辑算法不严谨,多数据涌入易造成崩溃的严重后果.为此,提出大数据环境下海量多媒体信息过滤技术改进方法,分别对算法更新优化,使其支持识别最新多媒体信息格式.通过加强算法逻辑性,使算法能够满足应对大数据环境下多媒体信息共涌状况.采用多媒体特征识别过滤引擎,增强多媒体信息过滤准确度.实验证明,经过改进的大数据环境下海量多媒体信息过滤技术具有识别度高、过滤准确、稳定性好等优点,满足大数据环境下海量多媒体信息过滤的应用要求.
关键词: 大数据     多媒体信息过滤     多媒体格式ID    
Improvement of mass multimedia information filtering technology in big data environment
YANG Yan     
Department of Physics, Luliang University, Luliang 033000, China
Abstract: The traditional multi media information filtering algorithm is not accurate and rigorous, and multiple data is easy to cause the collapse.Thus, under the big data environment, improved mass media information filtering technology is proposed.The algorithm optimization is made to support the latest multimedia information format identification.Strengthening the algorithm logic makes the algorithm deal with large data under the environment of multimedia information surge condition.The multimedia feature recognition filter engine is used to enhance the filtering accuracy.The experiment proves that the improved filtering technology has the advantages of high degree of recognition, filtration accuracy, good stability, etc.It can meet the filtering application requirements.
Key words: big data    multimedia information filtering    the media format ID    
0 引言

近年来, 随着互联网技术飞速发展, 网络建设不断完善.大数据环境下出现诸多新的信息数据封装、编码格式[1-2], 识别各类文件类型, 对其进行批量过滤是大数据研究人员首要关注的问题.大数据环境下海量多媒体信息过滤技术的出现解决了庞大数据资源中多媒体信息文件的识别、分类、提取、过滤的问题[3-4].但随着信息的多元化与大数据环境自身的多包容性, 出现了许多数字多媒体信息格式, 如音频多媒体信息文件的APE、FLAC, 视频多媒体信息文件的mkv、HDTV、QXGA等[5].传统的大数据海量多媒体信息过滤技术无法识别上述新出现的多媒体信息文件编码封装格式, 导致多媒体信息过滤不准确, 无法应对庞大信息数据的共涌[6].为此,提出大数据环境下海量多媒体信息过滤技术改进方法.扩充算法底层数据, 加入动态多媒体学习编码, 使其能够支持多媒体信息全格式, 拥有自我升级学习特性.优化算法逻辑性, 使算法更加严谨, 采用添加辅助逻辑算法改进设计, 应对大数据环境下多数据共涌形象的发生.同时, 加入多媒体信息特征识别过滤引擎, 提高大数据环境下海量多媒体信息过滤的准确度, 提高技术处理多媒体信息效率.仿真实验测试证明, 改进后的大数据环境下海量多媒体信息过滤技术具有过滤准确、多媒体信息识别范围广、易操作、稳定性强等特点, 可满足大数据环境下对多媒体信息过滤的要求.

1 过滤技术改进

通过对算法的扩充性、严谨性和多媒体信息特征识别过滤引擎进行优化, 完成大数据环境下海量多媒体信息过滤技术的改进.

1.1 算法扩充优化

传统大数据环境下多媒体信息过滤技术中的底层算法支持库过于陈旧, 无法识别大数据环境下新出现的数字高清新型编码封装格式[7], 导致诸多新多媒体信息资源无法识别、过滤.为此,采用动态编码算法替换, 进行对原有算法底层支持库的更新.动态编码算法根据大数据环境下多媒体信息共有特征排列规律进行精炼总结, 具有自我升级、自我学习的特性[8-9].动态编码算法表达式为

$fd = \frac{{{2^e}}}{s}({f_{(e \in link)}}{e^2})\sum\limits_{e = 1}^{{f_s}} { \to \mathop \prod \limits_{link}^{1/2} d} .$ (1)
$fd' = \frac{{{{({f_{(e \in link)}}{e^2})}^{2e}}}}{2}\sum\limits_{e = 1}^{{f_s}} { \to \prod\limits_{link}^{1/2} d } .$ (2)
$fd'' = \frac{{{{({f_{(e \in link)}}{e^2})}^{2e}}\sum {\prod d } }}{{2{f_s}}} \Rightarrow \frac{1}{{{2_{link}}}}s.$ (3)

其中:d为大数据空间;s为大数据空间数据量;f(elink) e2为大数据空间特征函数.

上述动态编码算法表达式是稳定状态动态编码算法表达式, 随着ds值的变化, 动态编码算法表达式进行自我衍生转换, 实现自我升级、自我学习的功能.通过对动态编码算法进行扩大, 获得新的动态编码算法[10-11], 动态编码算法的自我衍生转换代码如下所示:

import fsrrsd.util.ArrayList;

import drf.util.Arrays;

import fser.util.List;

public class FindKNeighbors implements Base{

/**

* This method is used to find the nearest K neighbors to the un-scored item

* @param score

* @param i

* @param similarityMatrix

* @return

*/

public List<Integer>findKNeighbors(int[] score, int i, double[][] similarityMatrix) {

List<Integer>neighborSerial=new ArrayList<Integer>();

double[] similarity=new double[similarityMatrix.length];

for (int j=0; j<similarityMatrix.length; j++) {

至此, 大数据环境下海量多媒体信息过滤技术底层支持库更新完毕[12].改进后的底层支持库支持的常见多媒体信息编码封装格式如表 1所示.

表 1 改进后的底层支持库支持的常见多媒体信息编码封装格式 Table 1 Common multimedia information coding encapsulation format of improved the bottom support library support
视频多媒体信息编码封装格式 视频多媒体信息编码封装格式
3gp, 3g2, avi, dv,
dif, mov, qt, swf,
mp2, mp3, ogg,
aac, m4a, nut, ac3,
h261, h264, m4v,
yuv, mp4, rm, ra,
ram, rmvb, wma, wm
v, mkvasfmkv, mp
g, mpeg, mpa, vob,
dat, ape, cue, mkv,
wav, aiff, au, cda,
avs, psp, smk, nsv
.aa.ape.aac.a52.
ac3.aif.aifc.aiff.
au.snd.cda.cu
e.dts.dtswav.fla
.flac.mid.midi.
rmi.it.mod.mt
m.s3m.stm.um
x.xm.ape.mac.
mp1.mp2.mp3.
mp3pro.mpa.m
4a.mp4.mp+.m
pc.ra.rm.tak.tta.
ogg.wav.wma
1.2 算法逻辑严谨性改进

大数据环境下传统多媒体信息过滤技术算法存在逻辑性不够严谨, 逻辑bug动态出现的问题.当大数据环境中数据量突增, 逻辑检索异常, 导致传统算法崩溃、停止, 多媒体信息数据迸发共涌现象[13].

针对这一问题, 对上述动态编码算法添加辅助逻辑算法来加强算法稳定性与逻辑严谨性, 解决大数据环境下数据异常共涌导致的崩溃现象.辅助逻辑算法(ALA)根据大数据环境内部多媒体信息资源特有封装标签, 对标签下信息内部排列进行检索、分析、识别、确认、提取一系列过程.结果数据自动回传总算法.即动态编码算法进行识别确认[14-15].辅助逻辑算法表达式如下所示.

$\text{sin}kmv=\varphi \Rightarrow fw\frac{{{c}^{2}}}{link\to \prod{d}}.$ (4)
$ = \varphi \prime \Rightarrow {f_1}w\prime \frac{{{c^2}}}{{link \to \prod {d_1}}}.$ (5)
$ = \varphi _{_1}^\prime \Rightarrow {f_2}w_1^\prime \frac{{{c^3}}}{{link \to \prod {{d_2}} }}.$ (6)
$\text{sin}km{{v}^{n}}=\varphi _{i}^{m}\Rightarrow fw_{i-1}^{\prime }\frac{{{c}^{2\wedge m}}}{link\to \prod{{{d}_{i}}}}.$ (7)

其中:n, m, i取值范围由网络空间中大数据资源系数决定, 且满足限制条件(nm∈大数据空间资源量, i≠0);f1w′表示动态数据的第一个约束条件; f2w1表示动态数据的第二个约束条件; fwi-1表示第i-1个动态数据的约束条件; c表示动态数据的检索过程; φ′表示第一个动态数据; φ1表示第二个动态数据; φim表示第m个动态数据; link→∏di表示动态数据的映射过程.

f1w′表示动态数据的第二个约束条件.

当大数据环境下出现新的多媒体信息数据封装格式, 辅助逻辑算法会根据新出现的多媒体封装格式编码数据排列方式进行特征处理, 并将处理后的新型多媒体信息封装特征标签回传底层编码支持库, 达到自我升级功能[16].改进的辅助逻辑算法执行代码中添加主动执行代码, 保证辅助逻辑算法实时扫描大数据环境中多媒体信息数据动态.为后续过滤引擎的准确提取提供保障.

辅助逻辑算法执行代码如下所示.

Matrix Matrix::operator+(Matrix & b)

{

//特征重载函数

if(m!=b.m||n!=b.n)

{

cout≪"\n编码或容器不匹配";

exit(0);

}

Matrix c;

c.m=m;

c.n=n;

c.p=new double[m*n];

int i, j;

for(i=0;i<m; i++)

for(j=0;j<n; j++)

c.p[i*c.n+j]=p[i*c.n+j]+b.p[i*c.n+j];

Out(c);

return c;

}

Matrix Matrix::operator-(Matrix & b)

{

//检索重载函数

if(m!=b.m||n!=b.n)

{

cout≪"\n编码或容器不匹配";

exit(0);

//调取支持库重载函数

Matrix c;

c.m=m;

c.n=n;

c.p=new double[m*n];

if(m!=b.n)

{

cout≪"\n编码或容器不匹配";

exit(0);

}

int i, j, k;

for(i=0;i<m; i++)

for(j=0;j<b.n; j++)升级”

for(c.p[i*b.n+j]=0, k=0;k<b.n; k++)

c.p[i*b.n+j]+=p[i*b.n+k]*b.p[k*b.n+j];

Out(c);

return c;

}

至此, 大数据环境下海量多媒体信息过滤技术改进的算法逻辑优化全部完成.优化后的技术算法工作原理如图 1所示.

图 1 优化后的技术算法工作原理 Figure 1 The optimized technology algorithm working principle
1.3 多媒体信息特征识别过滤引擎

大数据环境下海量多媒体信息过滤技术改进方法中增加了多媒体信息特征识别过滤引擎的设计, 用以增强改进后的技术过滤效果.多媒体信息特征识别过滤引擎由多媒体信息特征比对模块与特征过滤分类模块两部分组成.

多媒体信息特征比对模块, 根据动态编码算法下传信息数据, 对信息中的信息数据进行多媒体信息特征标签身份DNA比对绑定处理.符合绑定条件的多媒体信息将被发送至特征过滤分类模块做过滤分类处理, 未能通过多媒体信息特征比对模块认证绑定的信息, 由初始模块重新识别.

多媒体信息特征比对模块, 采用多媒体信息内核NDA构造算法, 较传统过滤算法具有识别率高、准确率高的特点.同时, 算法会在已识别的多媒体信息数据底层写入一串动态身份代码.代码本身不会影响原有多媒体信息所在数据内容, 只作为身份识别使用, 且只有本技术可识别到此代码.多媒体信息内核NDA构造算法如下所示.

$\begin{array}{l} \quad {\rm{chvd}} \Rightarrow /{\rm{sd}}/{\rm{sw}}/{\rm{acw}}/{\rm{da}}/{\rm{aawa}}/\exists * \\ {\rm{link}} \to {\rm{DNA}} \leftrightarrow \smallint {\rm{a}}\,{\rm{or}}\,{\rm{b}} * \\ {\rm{run}}/{\rm{lad}}{[{\rm{dad}}.{\rm{far}}]_ - }{\rm{exit}}\\ {\rm{chint}} - {\rm{jsffitc}}; * {\rm{g}}\prime \{ ?\} \\ {写入识别代码_ - }\left. {\rm{t}} \right\rangle . \end{array}$ (8)

特征过滤分类模块, 作为大数据环境下海量多媒体信息过滤技术改进中最后一项改进设计模块中组成部分, 有着重要的作用.它采用与多媒体信息内核NDA构造算法相配套的内核DNA漏照算法, 对写有身份识别代码的多媒体信息数据进行信息漏照处理, 使同类多媒体信息经过滤后集中排列, 免去后期整理操作.

内核DNA漏照算法采用多媒体构造量排列序帧不同的原理, 进行不同类型多媒体信息数据排列序帧反交排列, 形成巨大的反交序帧网, 经过身份认定的多媒体信息数据, 根据引导通过不同反交序帧网空隙, 没带有身份认定代码的数据无法通过, 由此完成大数据环境下海量多媒体信息过滤分类操作.内核DNA漏照算法执行代码如下所示.

Function RemoveDNA(strDNA)

Dim objRegExp, Match, Matches

Set objRegExp=New Regexp

objRegExp.IgnoreCase=True

objRegExp.Global=True

'取底层代码的<>

objRegExp.Pattern="<.+?>"

'进行匹配

Set Matches=objRegExp.Execute(strDNA)

'遍历匹配集合, 并过滤掉匹配的项目

For Each Match in Matches

strHtml=Replace(strDNA, Match.Value, "")

Next

RemoveDNA=strDNA

Set objRegExp=Nothing

End FunctionID3

改进后的大数据环境下海量多媒体信息过滤工作流程图如图 2所示.

图 2 改进后的海量多媒体信息过滤工作流程图 Figure 2 Information filtering flow chart of improved huge amounts of multimedia
2 实验与分析

仿真实验分为限时测试与指定测试样本测试, 分别测试改进后的大数据环境下海量多媒体信息过滤技术的准确度与耗时.技术准确度是指信息过滤结果与需要过滤的信息量真值之间一致的程度信息过滤量与区需要过滤信息量之比; 过滤有效率是指有效信息过滤量与全部需要过滤的信息量之比.

实验1设置测试平台配置为i5 4460 CPU主频3.5 Hz, 内存8 G, windows 7操作平台.测试时间为60 min, 每10 min为一组, 共6组, 与传统多媒体信息过滤技术自由操作, 对比时间内过滤数量.分别采用传统多媒体信息过滤技术与改进后多媒体信息过滤技术, 对信息进行过滤, 获得信息过滤数量, 并计算过滤准确率, 具体参数如表 2所示.

表 2 效率测试对比参数 Table 2 Comparison parameters of efficiency test
组别传统多媒体信息过滤技术过滤量/条改进后多媒体信息过滤技术过滤量/条
13 5004 800
23 5824 860
33 6755 162
43 4585 348
53 7525 482
64 2045 681
准确率/%82.999.5

实验2设置测试平台配置为i5 4460 CPU主频3.5 Hz, 内存8 G, windows 7操作平台.测试例样为40 000条多媒体信息, 分为8组进行测试, 对比改进后大数据环境下多媒体信息过滤技术与传统多媒体信息过滤技术所用时间与过滤效果.具体参数如表 3所示.

表 3 用时效果测试参数 Table 3 Test parameters of time-taking effect
组别 传统多媒体信息过滤技术 改进后多媒体信息过滤技术
耗时/min 有效率/% 耗时/min 有效率/%
11581799.6
215836.899.8
31781.26.299.8
416875.999.6
515.2855.8100
61885.45.199.8
72088599.6
818.2835100

表 1, 2测试数据表明, 大数据环境下海量多媒体信息过滤技术改进方法具有多媒体信息过滤准确率高、识别效果好、过滤耗时少、效率高、稳定性强等特点.能够满足大数据环境下多媒体信息过滤要求.

3 结束语

大数据环境下, 针对传统多媒体信息过滤技术存在的算法陈旧、逻辑缺乏严谨性等一系列问题做了相应的优化与改进.采用算法扩充与设计添加辅助逻辑算法解决传统过滤技术中算法所存在的问题.增加多媒体信息特征识别过滤引擎设计, 用以增强改进后的大数据环境下海量多媒体信息过滤技术的准确率.仿真实验测试证明提出的海量多媒体信息过滤技术改进方法具有多媒体信息过滤准确率高、识别效果好、过滤耗时少、效率高、稳定性强等特点,能够满足大数据环境下多媒体信息过滤要求.

参考文献
[1] 周凯, 朱一杰, 龚松杰, 等. 互联网环境下大数据多媒体信息检索研究[J]. 科技资讯, 2015, 13(24): 23-24.
ZHOU Kai, ZHU Yijie, GONG Songjie, et al. Big data under the Internet environment of multimedia information retrieval research[J]. Science & Technology Information, 2015, 13(24): 23-24.
[2] 于田宝. 浅谈多媒体数据库的几项关键性技术问题[J]. 魅力中国, 2014, 6(2): 110-117.
YU Tianbao. Introduction to several key technical problems of multimedia database[J]. Charming China, 2014, 6(2): 110-117.
[3] 李全鑫, 魏海平. 基于聚类分类法的信息过滤技术研究[J]. 电子设计工程, 2014, 22(20): 14-16.
LI Quanxin, WEI Haiping. Research of the information filter based on clustering launched classification[J]. Electronic Design Engineering, 2014, 22(20): 14-16. DOI:10.3969/j.issn.1674-6236.2014.20.004
[4] 王春艳, 李玉福. 垂直搜索引擎中信息过滤技术的研究[J]. 情报科学, 2014, 12(3): 93-97.
WANG Chunyan, LI Yufu. The study of the information filtering technology of the vertical search engine[J]. Information Science, 2014, 12(3): 93-97.
[5] 黄微, 李瑞, 孟佳林. 大数据环境下多媒体网络舆情传播要素及运行机理研究[J]. 图书情报工作, 2015, 29(21): 38-44.
HUANG Wei, LI Rui, MENG Jialin. Study on dissemination elements and operational mechanism of multimedia network public opinion under the big data environment[J]. Library and Information Service, 2015, 29(21): 38-44.
[6] 庄毅. 海量网络多媒体信息高效处理:概念与技术[M]. 北京: 科学出版社, 2013.
ZHUANG Yi. Vast network multimedia information efficient processing:Concepts and techniques[M]. Beijing: Science Press, 2013.
[7] 吉亚云, 刘新, 叶德建. 商用多媒体信息发布系统持久层设计与优化[J]. 计算机工程, 2015, 41(1): 261-265.
JI Yayun, LIU Xin, YE Dejian. Design and optimization of persistence layer for commercial multimedia information publishing system[J]. Computer Engineering, 2015, 41(1): 261-265.
[8] 令狐新荣. 多媒体网络负面信息分类方法研究与仿真[J]. 计算机仿真, 2016, 33(8): 260-263.
LINGHU Xingrong. Based on multimedia network negative information model of optimizing SVM classification method research[J]. Computer Simulation, 2016, 33(8): 260-263.
[9] 董薇. 云平台多媒体视频信息防冲突调度算法仿真[J]. 计算机仿真, 2015, 32(7): 340-343.
DONG Wei. Cloud platform multimedia video information conflict prevention scheduling algorithm simulation[J]. Computer Simulation, 2015, 32(7): 340-343.
[10] 邓一贵, 伍玉英. 基于文本内容的敏感词决策树信息过滤算法[J]. 计算机工程, 2014, 40(9): 300-304.
DENG Yigui, WU Yuying. Information filtering algorithm of text content-based sensitive words decision tree[J]. …Computer Engineering, 2014, 40(9): 300-304.
[11] 陈志刚, 鲁晓波. 大数据背景下信息与交互设计的变革和发展[J]. 包装工程, 2015, 10(8): 6-9.
CHEN Zhigang, LU Xiaobo. Reformation and development of information and interaction design based on the big data[J]. Packaging Engineering, 2015, 10(8): 6-9.
[12] 付海燕, 郭艳卿, 孔祥维, 等. 多媒体信息安全实践平台建设和启发式教学模式探索[J]. 实验室科学, 2015, 18(6): 117-120.
FU Haiyan, GUO Yanqing, KONG Xiangwei, et al. Multimedia information security experiment platform building and heuristic teaching model exploration[J]. Laboratory Science, 2015, 18(6): 117-120.
[13] 郑杰慧, 汪蕾, 陆强, 等. 信息过滤与不确定决策:基于认知加工视角[J]. 管理工程学报, 2016, 30(1): 205-211.
ZHENG Jiehui, WANG Lei, LU Qiang, et al. Information filtering and decision-making:In view of cognitive processing[J]. Journal of Industrial Engineering and Engineering Management, 2016, 30(1): 205-211.
[14] 李云玮, 马蕾. 基于SVM的物联网大数据有效信息过滤挖掘[J]. 控制工程, 2016, 23(10): 252-263.
LI Yunwei, MA Lei. Big data effective information filtering mining of Internet of things based on SVM[J]. Control Engineering of China, 2016, 23(10): 252-263.
[15] 高凌洁. 实时互联网信息过滤系统的设计及实现研究[J]. 电子设计工程, 2016, 24(19): 115-121.
GAO Lingjie. The design and implementation of real time Internet information filtering system[J]. Electronic Design Engineering, 2016, 24(19): 115-121.
[16] 赵伟, 李俊锋, 韩英, 等. Hadoop云平台下的基于用户协同过滤算法研究[J]. 计算机测量与控制, 2015, 23(6): 2082-2085.
ZHAO Wei, LI Jiongfeng, HAN Ying, et al. Research on user-based collaborative filtering algorithm on Hadoop platform[J]. Computer Measurement & Control, 2015, 23(6): 2082-2085.
西安工程大学主办。
0

文章信息

杨艳
YANG Yan
大数据环境下海量多媒体信息过滤技术改进
Improvement of mass multimedia information filtering technology in big data environment
西安工程大学学报, 2017, 31(4): 569-575
Journal of Xi′an Polytechnic University, 2017, 31(4): 569-575

文章历史

收稿日期: 2016-10-25

相关文章

工作空间