大数据中的语义识别数据

智慧职教icve

大数据中的语义识别

【摘要】数据管理是商业和政府中越来越重要的课题。数据的质量代表着巨大的课题。因为数据质量不高造成的间接损失非常大。大数据是企业决策的基础，但简单的数据量积累对企业没有任何好处。只有建立相应的分析模型，运用相应的技术手段，有效地对海量数据进行深加工，发现和利用海量数据中隐藏的信息，指导企业相关决策，才能最大限度地发挥大数据的真正效用。高质量的数据是大数据发挥效能的前提和基础，而强大而高端的数据分析技术是大数据发挥效能的重要手段。

【关键词】数据量、大数据、数据质量分析、数据字典、正则表达式

有效分析大数据，前提是保证数据质量。专业的数据分析工具只能在高质量的大数据环境中提取隐含、准确、有用的信息。否则，无论数据分析工具多么先进，大数据环境下也只能提取出毫无意义的“垃圾”信息。大数据的意义是什么？因此，数据质量在大数据环境中尤为重要。为了提高数据质量，现在提出了对数据附加意义的方法，帮助用户识别大数据的模式。该方法的独特性利用了数据的语义价值，检测到数据后，通过数据语义分析提出数据模型，可以更方便地处理数据。

1 .数据语义介绍

在业务管理中，职业经理人必须有统一的视野和有价值的信息，才能及时做出正确的决策。数据质量管理在企业中变得非常重要，其目的是通过使用指针这种容易交流、廉价且容易计算的技术，提供高精度、全面且及时的信息。在大数据时代，包括许多数据源在内的信息质量是一个巨大的挑战。

在数据质量和语义方面很少加入论文文献。目前的困难是在语义学上提高数据质量。在制定纠正数据错误的策略时，对数据模式的误解是成功解决问题的主要障碍。频繁使用元数据还不足以正确理解数据的真正含义。

针对某些数据源s，我们的方法是提出语义数据分析，以更好地理解数据定义，提高错误数据的检测和纠正。

但是，没有可用于理解数据含义的模式。不能说改正错误。现在，几乎所有的数据工具都可以将字符串" pekin " "法语"北京"的意思"识别为" Beijing "，将" Londres " "法语"伦敦"的意思"识别为" London " 为了理解表示这些相同类别和子类别的信息的字符串，还需要其他信息。还有其他16种情况吗？ C的意思被理解为16。

将s作为一个非结构化数据集，组合多种类型的数据，结果s用分号分隔，也可以看作是由列项包围的字符串集合，各记录s的数据结构。我们定义的s没有明确的结构，会引起语义数据操作的问题。 s可能含有矛盾。在这种情况下，什么是字符串语义？有必要回答这三个问题。应该用什么语言？哪些值可用，哪些值不可用(即，值的有效性和无效性)。

图1显示了s的样本

图1 :数据源s示例

可以看出数据源s包含几个列项目，s表示(Coli，i=1； 7 )这种形式。

在s中，观察第4列，“Beijing”和“London”在语法上和语义上均有效，但“pekin”和“Londres”在语法上有效，但在语义上无效。

由于COL2列大多是显示的日期信息，因此其中的' 13 '被视为无效。 s不仅包含日期信息，还包含许多其他未知信息，证明需要理解更多的含义，纠正错误的数据。

2 .元信息

定义：元素提供相关页面的元信息(元信息)，如搜索引擎和更新频率的说明和关键字。标记位于文档的开头，不包含任何内容。标记的属性定义与文档相关联的名称/值对。

meta是html语言头部区域的辅助标签。

我们需要深入研究基于语义的新类型大数据ETL (提取、转换、加载)，使其能够进行数据分析、数据清理、数据扩展。

数据分析是数据处理过程的第一步骤(图2 )，是数据源用于确定数据质量问题的分析，是描述性分析，例如包括模式、表、域、数据源的定义的定量分析。

图2 :数据质量管理工具

当前的数据分析工具提供统计数据的分析，没有解决数据语义的相关分析。本节介绍了用于扩展分析过程的语义指示器。

在语义数据处理方面，提出了使用各数据源、错误报告、更新的日志、元信息的新语义结构。错误报告包含数据源中的各种异常。同一列中有多个类别和语言、不一致的数据格式、副本和空值。

更新的日志是数据源中使用的更新行为的集合，如翻译语言、平均格式等。

中职学校

为了在列之间及时更新，必须使用函数相关的概念。接下来，描述语义数据分析过程的细节，特别是元信息。图3

图3 :语义的数据分析过程

元信息有三个组件：数据词典、正则表达式和指示符列表。

2.1元模式集成)。

作为一个信息集，数据库可以用多种方式来描述。这个差异主要是概念和属性。 MSO是为了容纳元结构中所有的等价记述[图4]

图4:MSO统一建模语言系统图

MSO是可以作为本体管理的知识集，本体是正式的语言，定义各内容之间如何配合使用是一种语法。 MSO可以创建许多实例，例如“个人”、“组织”和“邀请”这三个概念。他们各自有很多同义词。例如，作为人的同义词的顾客、大人、孩子等，"人"的概念由几个属性(例如，"姓名、地址、出生年月日" )来定义

主体使用开源protege工具显示。 (图5 )

知识可以通过数据库的不同描述进化，表示元知识库。

图5:Protg下的MSO示例

2.2元知识库(MR )。

元知识库包含数据词典、正则表达式和指示符的列表。

有效字符串可以合并为一个类别，这些字符串可以使用多种语言。由此形成的这些类别的集合可以视为数据词典。例如，通常包含机场、大学、餐馆或医院名称字符串的类别将成为数据字典。将catext作为被扩展定义的范畴的集合，catext={cati，i=1； n}，其中cati属于{国家、性别、网站、电话. }，每个cati子类别subcati={catij，j=1； m}现在可以定义了。将数据词典定义为类别、信息、语言3种(图6 )

图6 :数据词典示例

2.2.2正则表达式(

通过使用正则表达式定义类别Kati，它负责检查字符串的语法和语义，Katint就是此类别的集合。 RE可以定义为{类别，RE}的集合。 re={catregexi/catregexi(Kati，Regexij )； i=1.p，j=1.q}的例子如图所示

图7 :正则表达式集合示例

2.2.3指示灯

语义数据分析的研究基于应用数据源的指示器集合，该集合由三种指示器组成。统计指示器{Istati，i=1； p )、语法指示器(isy n1，2，2 )和语义指示器(ise m1，2，2 )如图8所示。

图8 :指示灯集合

3 .语义数据分析过程

首先给出语义数据分析算法一些符号和定义。属于数据源s的每个列Ci都有一组具有数据类型(如{String，Number，Date，Boolean} )的值VI(I=1.n )。

定义1，值v的语法有效性：如果v RE且vwDD，则v在语义上有效。

定义2，值v的语法无效性：如果v？ RE且v？ DD在v意义上无效。

定义3，主类：将CATI(v )作为一个给定属性在语义上正确的数值数，在CATI ) v ) Catj(v ) v )的情况下，CATI ) v )是主类，' Number of categories '是检索

定义4，值v的语义有效性：如果v Cati，则v语义上有效，且Cati是主类。

定义5、值v的语义无效性：如果v？ Cati，v在语义上无效，Cati是主类。

3.1算法分析

语义数据分析算法的原理是检查值是否属于元数据库，目的是判断V的语法和语义的有效性。如图9所示

图9 :语义数据分析算法

输入数据源s和一些元信息，该算法返回几个表(Tk，k=1，7 )，其中包括指针结果、无效语义数据、无效语法数据、有效语法数据和新语义结构。语义识别结构函数为使用RE或DD的每个数据查找类别和语言。接下来的三个步骤说明函数的原理。

第一步：通过以上定义检查v在语义和语法上是否有效。

第二步：分别处理语义无效值和语法无效值。

步骤3 :用几种方法处理语法上正确但语义上错误的值。例如平均化、翻译、标准化等。

总之，语法无效的值很容易找到，可以利用正则表达式进行判断，处理后的结果可以用于充实数据词典。

教学质量分析

函数的详细情况如下。

函数统计信息(计算) )。

//returnstatisticalindicatorsresults

比根

For each Id from I do //d=1.18

add(id ) c )，T1c ) ) ) )。

//statistic indicators 3360 totalnumberofvalues，number of null

佛斯.

end for

企业管理系统

请参见----------------------------------------- -

函数管理语言(数据来源' ) )。

//return the dominant language

比根

foreachlanguageifromT7(I=1.n )//T7 is the semantic structure

ni :=countthenumberofoccurrences (language I ) )。

End for

域语言3360=语言wheremax (ni ) )。

最终消息类别

功能管理目录(columnc )。

//returnsyntacticandsemanticindicatorsresultsandsemanticstructure

比根

foreachvjfromcdo//j=1. m (mnumberoftuples ) )。

Ifvj RE

thenadd(VJ，Catj，Langj )//vjCatjandvjLangj

elseifvjcheckSpelling=true

//verifiessomeregularexpressionsforstrings

then if vj w DD //w a value from DD

thenadd(VJ，Catj (，Langj (，Langj ) )//vjCatj ) ) ) ) ) ) ) ) ) ) ) ) then add ) ) ) ) ) ) ) 652

andvjLangj '； j'j

ELSEadd(VJ，CatUNKNOWN ) )。

//vjUnknown Category

ADD(VJ，T3c )//vj is a candidate to enrich DD

end if

ELSEadd(VJ，T2c ) )。

3.2分析结果

在上述说明中，最终会返回几个表。第一个表包含指示符的结果，每列包含统计摘要、无效语法值和有效语法值的数量以及类和语言的数量。拼写错误的值会自动添加到语法无效的表中，即第二个表中。第三个表存储不属于元知识库的值。这些值在语法上是正确的。

数据源中的每一列至少包含两个类别，必须选择更大的类别才能确定主类。的计算基于属于此类别的正确值的数量。如果两个类的占有率相同，请从数据源中选择另一个示例，并使用语义数据进行分析。

不属于主类的值作为语义上无效的类值存储在第四个表中。不属于主语言的值作为语义上无效的语言值存储在第五个表中。

s的各列最初被视为字符串，以识别其含义为目的(图10 )，主类和语言用于定义数据源的语义结构。

图10:S的语义结构

s可能包含类似的列。例如，第6列温度-1和第7列温度-2。如果两列不仅属于同一个类别，而且内容也相同，则其中一列应该被删除。

4 .结论

大数据的元数据比传统数据库少，如果数据科学家试图分析这些数据，就会产生麻烦。数据质量管理工具允许数据科学家识别数据类型(integer、dates、strings )和数据语义(Email、FirstName、Phone )。

目前发展的数据质量管理工具有助于基于语义的大数据ETL (分别表示提取、转换和加载)的新一代发展。帮助用户：

1 .理解操作数据的更多定义。在合作和加入操作的过程中，为了完成语义数据的整合，需要区分同义词和同音异义词。现在普遍使用的工具不考虑语义方面，只考虑语法。例如，在数据合并过程中，用户可以选择放入两列语法等效但语义不同的数据，但不会报告错误。这些工具表明允许同义词和同音异义词共存。 (如图11所示)

图11 :数据源s1和s2集成

虽然有整合s1和s2的工具，但是在意义上没有意义。在这种情况下，本文所述的数据质量管理工具向用户警告不兼容的语义结合操作。

2 .进行清理工作时，上述平差和转化会生成一些副本或删除相似的元组。

该研究提出的方法的独创性在于利用数据本身和MSO实例来推断数据的含义。此外，这种方法可以自动清除非结构化数据。

数据分析的结果如下：1.产生更易懂的大数据语义内容的数据结构。 2 .更正无效数据后，生成数据更新集合。

处理后的数据如图12所示：

图12 :目标数据

参考文献

[1]A？ cha bensalem 1，2，Faouzi Boufares1，sebastiaocorreia2. semanticrecognitionofadatastructureinbig-data [ j ].laboratoratoryliplilipres

[2]程国斌.基于指示语语义扩展的词义识别方法研究[D] .哈尔滨工程大学. 2014

[3]魏来.基于在线词典的folksonomy语义关联识别方法研究[J] .图书情报工作所. 2011

[4]乐小虬，杨崇俊.非限制性文本中深层空间意义的识别方法[J] .计算机工程. 2010

班主任教师的评论

2 .分析文章的创新之处3 .指出论文存在的问题和不足4 .论文格式是否符合要求，参考文献引用是否规范。

成绩

班主任老师签名

年月日

-3-

大数据中的语义识别数据

智慧职教icve

中职学校

教学质量分析

随机看看

标签

链接