教学工作的资源分享

大数据中的语义识别数据

智慧职教icve

智慧职教icve

大数据中的语义识别

【摘要】数据管理是商业和政府中越来越重要的课题。 数据的质量代表着巨大的课题。 因为数据质量不高造成的间接损失非常大。 大数据是企业决策的基础,但简单的数据量积累对企业没有任何好处。 只有建立相应的分析模型,运用相应的技术手段,有效地对海量数据进行深加工,发现和利用海量数据中隐藏的信息,指导企业相关决策,才能最大限度地发挥大数据的真正效用。 高质量的数据是大数据发挥效能的前提和基础,而强大而高端的数据分析技术是大数据发挥效能的重要手段。

【关键词】数据量、大数据、数据质量分析、数据字典、正则表达式

有效分析大数据,前提是保证数据质量。 专业的数据分析工具只能在高质量的大数据环境中提取隐含、准确、有用的信息。 否则,无论数据分析工具多么先进,大数据环境下也只能提取出毫无意义的“垃圾”信息。 大数据的意义是什么? 因此,数据质量在大数据环境中尤为重要。 为了提高数据质量,现在提出了对数据附加意义的方法,帮助用户识别大数据的模式。 该方法的独特性利用了数据的语义价值,检测到数据后,通过数据语义分析提出数据模型,可以更方便地处理数据。

1 .数据语义介绍

在业务管理中,职业经理人必须有统一的视野和有价值的信息,才能及时做出正确的决策。 数据质量管理在企业中变得非常重要,其目的是通过使用指针这种容易交流、廉价且容易计算的技术,提供高精度、全面且及时的信息。 在大数据时代,包括许多数据源在内的信息质量是一个巨大的挑战。

在数据质量和语义方面很少加入论文文献。 目前的困难是在语义学上提高数据质量。 在制定纠正数据错误的策略时,对数据模式的误解是成功解决问题的主要障碍。 频繁使用元数据还不足以正确理解数据的真正含义。

针对某些数据源s,我们的方法是提出语义数据分析,以更好地理解数据定义,提高错误数据的检测和纠正。

但是,没有可用于理解数据含义的模式。 不能说改正错误。 现在,几乎所有的数据工具都可以将字符串" pekin " "法语"北京"的意思"识别为" Beijing ",将" Londres " "法语"伦敦"的意思"识别为" London " 为了理解表示这些相同类别和子类别的信息的字符串,还需要其他信息。 还有其他16种情况吗? C的意思被理解为16。

将s作为一个非结构化数据集,组合多种类型的数据,结果s用分号分隔,也可以看作是由列项包围的字符串集合,各记录s的数据结构。 我们定义的s没有明确的结构,会引起语义数据操作的问题。 s可能含有矛盾。 在这种情况下,什么是字符串语义? 有必要回答这三个问题。 应该用什么语言? 哪些值可用,哪些值不可用(即,值的有效性和无效性)。

图1显示了s的样本

图1 :数据源s示例

可以看出数据源s包含几个列项目,s表示(Coli,i=1; 7 )这种形式。

在s中,观察第4列,“Beijing”和“London”在语法上和语义上均有效,但“pekin”和“Londres”在语法上有效,但在语义上无效。

由于COL2列大多是显示的日期信息,因此其中的' 13 '被视为无效。 s不仅包含日期信息,还包含许多其他未知信息,证明需要理解更多的含义,纠正错误的数据。

2 .元信息

定义:元素提供相关页面的元信息(元信息),如搜索引擎和更新频率的说明和关键字。 标记位于文档的开头,不包含任何内容。 标记的属性定义与文档相关联的名称/值对。

meta是html语言头部区域的辅助标签。

我们需要深入研究基于语义的新类型大数据ETL (提取、转换、加载),使其能够进行数据分析、数据清理、数据扩展。

数据分析是数据处理过程的第一步骤(图2 ),是数据源用于确定数据质量问题的分析,是描述性分析,例如包括模式、表、域、数据源的定义的定量分析。

图2 :数据质量管理工具

当前的数据分析工具提供统计数据的分析,没有解决数据语义的相关分析。 本节介绍了用于扩展分析过程的语义指示器。

在语义数据处理方面,提出了使用各数据源、错误报告、更新的日志、元信息的新语义结构。 错误报告包含数据源中的各种异常。 同一列中有多个类别和语言、不一致的数据格式、副本和空值。

更新的日志是数据源中使用的更新行为的集合,如翻译语言、平均格式等。

中职学校

中职学校

为了在列之间及时更新,必须使用函数相关的概念。 接下来,描述语义数据分析过程的细节,特别是元信息。 图3

图3 :语义的数据分析过程

元信息有三个组件:数据词典、正则表达式和指示符列表。

2.1元模式集成)。

作为一个信息集,数据库可以用多种方式来描述。 这个差异主要是概念和属性。 MSO是为了容纳元结构中所有的等价记述[图4]

图4:MSO统一建模语言系统图

MSO是可以作为本体管理的知识集,本体是正式的语言,定义各内容之间如何配合使用是一种语法。 MSO可以创建许多实例,例如“个人”、“组织”和“邀请”这三个概念。 他们各自有很多同义词。 例如,作为人的同义词的顾客、大人、孩子等,"人"的概念由几个属性(例如,"姓名、地址、出生年月日" )来定义

主体使用开源protege工具显示。 (图5 )

知识可以通过数据库的不同描述进化,表示元知识库。

图5:Protg下的MSO示例

2.2元知识库(MR )。

元知识库包含数据词典、正则表达式和指示符的列表。

有效字符串可以合并为一个类别,这些字符串可以使用多种语言。 由此形成的这些类别的集合可以视为数据词典。 例如,通常包含机场、大学、餐馆或医院名称字符串的类别将成为数据字典。 将catext作为被扩展定义的范畴的集合,catext={cati,i=1; n},其中cati属于{国家、性别、网站、电话. },每个cati子类别subcati={catij,j=1; m}现在可以定义了。 将数据词典定义为类别、信息、语言3种(图6 )

图6 :数据词典示例

2.2.2正则表达式(

通过使用正则表达式定义类别Kati,它负责检查字符串的语法和语义,Katint就是此类别的集合。 RE可以定义为{类别,RE}的集合。 re={catregexi/catregexi(Kati,Regexij ); i=1.p,j=1.q}的例子如图所示

图7 :正则表达式集合示例

2.2.3指示灯

语义数据分析的研究基于应用数据源的指示器集合,该集合由三种指示器组成。 统计指示器{Istati,i=1; p )、语法指示器(isy n1,2,2 )和语义指示器(ise m1,2,2 )如图8所示。

图8 :指示灯集合

3 .语义数据分析过程

首先给出语义数据分析算法一些符号和定义。 属于数据源s的每个列Ci都有一组具有数据类型(如{String,Number,Date,Boolean} )的值VI(I=1.n )。

定义1,值v的语法有效性:如果v RE且vwDD,则v在语义上有效。

定义2,值v的语法无效性:如果v? RE且v? DD在v意义上无效。

定义3,主类:将CATI(v )作为一个给定属性在语义上正确的数值数,在CATI ) v ) Catj(v ) v )的情况下,CATI ) v )是主类,' Number of categories '是检索

定义4,值v的语义有效性:如果v Cati,则v语义上有效,且Cati是主类。

定义5、值v的语义无效性:如果v? Cati,v在语义上无效,Cati是主类。

3.1算法分析

语义数据分析算法的原理是检查值是否属于元数据库,目的是判断V的语法和语义的有效性。 如图9所示

图9 :语义数据分析算法

输入数据源s和一些元信息,该算法返回几个表(Tk,k=1,7 ),其中包括指针结果、无效语义数据、无效语法数据、有效语法数据和新语义结构。 语义识别结构函数为使用RE或DD的每个数据查找类别和语言。 接下来的三个步骤说明函数的原理。

第一步:通过以上定义检查v在语义和语法上是否有效。

第二步:分别处理语义无效值和语法无效值。

步骤3 :用几种方法处理语法上正确但语义上错误的值。 例如平均化、翻译、标准化等。

总之,语法无效的值很容易找到,可以利用正则表达式进行判断,处理后的结果可以用于充实数据词典。

教学质量分析

教学质量分析

函数的详细情况如下。

函数统计信息(计算) )。

//returnstatisticalindicatorsresults

比根

For each Id from I do //d=1.18

add(id ) c ),T1c ) ) ) )。

//statistic indicators 3360 totalnumberofvalues,number of null

佛斯.

end for

企业管理系统

请参见----------------------------------------- -

函数管理语言(数据来源' ) )。

//return the dominant language

比根

foreachlanguageifromT7(I=1.n )//T7 is the semantic structure

ni :=countthenumberofoccurrences (language I ) )。

End for

域语言3360=语言wheremax (ni ) )。

最终消息类别

功能管理目录(columnc )。

//returnsyntacticandsemanticindicatorsresultsandsemanticstructure

比根

foreachvjfromcdo//j=1. m (mnumberoftuples ) )。

Ifvj RE

thenadd(VJ,Catj,Langj )//vjCatjandvjLangj

elseifvjcheckSpelling=true

//verifiessomeregularexpressionsforstrings

then if vj w DD //w a value from DD

thenadd(VJ,Catj (,Langj (,Langj ) )//vjCatj ) ) ) ) ) ) ) ) ) ) ) ) then add ) ) ) ) ) ) ) 652

andvjLangj '; j'j

ELSEadd(VJ,CatUNKNOWN ) )。

//vjUnknown Category

ADD(VJ,T3c )//vj is a candidate to enrich DD

end if

ELSEadd(VJ,T2c ) )。

3.2分析结果

在上述说明中,最终会返回几个表。 第一个表包含指示符的结果,每列包含统计摘要、无效语法值和有效语法值的数量以及类和语言的数量。 拼写错误的值会自动添加到语法无效的表中,即第二个表中。 第三个表存储不属于元知识库的值。 这些值在语法上是正确的。

数据源中的每一列至少包含两个类别,必须选择更大的类别才能确定主类。 的计算基于属于此类别的正确值的数量。 如果两个类的占有率相同,请从数据源中选择另一个示例,并使用语义数据进行分析。

不属于主类的值作为语义上无效的类值存储在第四个表中。 不属于主语言的值作为语义上无效的语言值存储在第五个表中。

s的各列最初被视为字符串,以识别其含义为目的(图10 ),主类和语言用于定义数据源的语义结构。

图10:S的语义结构

s可能包含类似的列。 例如,第6列温度-1和第7列温度-2。 如果两列不仅属于同一个类别,而且内容也相同,则其中一列应该被删除。

4 .结论

大数据的元数据比传统数据库少,如果数据科学家试图分析这些数据,就会产生麻烦。 数据质量管理工具允许数据科学家识别数据类型(integer、dates、strings )和数据语义(Email、FirstName、Phone )。

目前发展的数据质量管理工具有助于基于语义的大数据ETL (分别表示提取、转换和加载)的新一代发展。 帮助用户:

1 .理解操作数据的更多定义。 在合作和加入操作的过程中,为了完成语义数据的整合,需要区分同义词和同音异义词。 现在普遍使用的工具不考虑语义方面,只考虑语法。 例如,在数据合并过程中,用户可以选择放入两列语法等效但语义不同的数据,但不会报告错误。 这些工具表明允许同义词和同音异义词共存。 (如图11所示)

图11 :数据源s1和s2集成

虽然有整合s1和s2的工具,但是在意义上没有意义。 在这种情况下,本文所述的数据质量管理工具向用户警告不兼容的语义结合操作。

2 .进行清理工作时,上述平差和转化会生成一些副本或删除相似的元组。

该研究提出的方法的独创性在于利用数据本身和MSO实例来推断数据的含义。 此外,这种方法可以自动清除非结构化数据。

数据分析的结果如下:1.产生更易懂的大数据语义内容的数据结构。 2 .更正无效数据后,生成数据更新集合。

处理后的数据如图12所示:

图12 :目标数据

参考文献

[1]A? cha bensalem 1,2,Faouzi Boufares1,sebastiaocorreia2. semanticrecognitionofadatastructureinbig-data [ j ].laboratoratoryliplilipres

[2]程国斌.基于指示语语义扩展的词义识别方法研究[D] .哈尔滨工程大学. 2014

[3]魏来.基于在线词典的folksonomy语义关联识别方法研究[J] .图书情报工作所. 2011

[4]乐小虬,杨崇俊.非限制性文本中深层空间意义的识别方法[J] .计算机工程. 2010

班主任教师的评论

2 .分析文章的创新之处3 .指出论文存在的问题和不足4 .论文格式是否符合要求,参考文献引用是否规范。

成绩

班主任老师签名

年月日

-3-

标签

Tag