">
1主题词提取研究现状
大量网络数据以文本的形式存在。要获取有效的数据资源,就需要对文本进行分析,获取文本的主题词,即主题词提取。所提取的主题词在对文本进行分析时,被用作文本主题的描述词[3]。主题词是面向信息索引和检索的标准化语言,是信息检索的基础。国内外对主题词提取已开展深入探索和研究。对于小规模文本,通过提出相关的文本内容能够提供主题词提取线索,从而达到从给定文本中提取主题词的目标[4]。在此方法中,由于充分利用了相关文本所提供的线索,从而能同时处理文本摘要和主题词提取。对于英文主题词提取而言,由于英文语言本身的特点,关注点主要是进行词干加工。因此,可以构建出对英文文本的主题词自动提取系统[5],由于不需要进行分词处理,因此系统效率较高。中文文本的主题词提取,可以从语义的角度进行分析,构建出语义网络,使用概念之间的匹配来进行处理[6]。通过这种方法能够解决传统方法以关键词进行主题词提取的缺陷。通过对词频率进行分析,同样可以进行主题词提取。通过增加文本预处理环节,能够进行合成词的识别,进而提高主题词提取的满意度[7]。通过主题词提取,能够获取文本内容的基本描述。现有的主题词提取方法主要关注于一般文本内容,缺少对行业应用领域的背景分析。通过对包装印刷行业产品设计要素进行分析,将产品设计要素与主题词的提取进行关联,从而提高数据资源获取效率,为包装印刷行业产品设计提供参考。
2基于产品设计要素的主题词提取算法
2.1包装印刷行业的产品设计要素分析
包装印刷行业的产品设计要素分析包装印刷行业中的产品设计,不仅是对产品本身特点的关注,与应用场景密切相关,还需要与众多的外在设计要素进行关联。而应用场景往往随着时间而发生变化,这就要求产品设计能适应应用场景的变化,满足新的设计要求。应用场景的变化与热点事件、用户群体特性、时节、地域等多种外在因素相关。这些外在因素往往能在互联网上以文本形式出现,并及时更新。因此,通过分析互联网上的文本,能够及时、有效地了解潜在的设计要求与设计趋势,从而为产品设计提供支持。定义包装印刷行业的产品设计要素合S。S中包含所有的设计要素,共n个,记为E1,E2,E3,…En。每个设计要素Ei具有属性A(Ei)和相关系数C(Ei)。其中,属性A(Ei)表示设计要素所具有的设计属性,是对设计要素Ei的基本描述;相关系数表示设计要素Ei与产品设计之间的关联程度。相关系数C(Ei)实际上表达了设计要素Ei在整个产品设计中的重要程度,是一个权重系数。
2.2文本向量空间模型
文本经过预处理后,可以得到分离出来的词。这些词是从文本当中抽取出来的关键词,用来表示文本的特征项,代表文本的性质和特点。基于产品设计要素的主题词提取算法采用向量空间模型的方法来表示文本。从文本集合向向量空间模型进行映射时,整个文本集合映射为向量空间;文本映射为向量空间中的向量,文本的特征项映射为向量的维度,从而构成完整的文本集合的向量表示形式。
2.3基于产品设计要素的主题词提取算法
主题词提取是文本分析的基础工作。从式(4)可以发现,传统的主题词提取方法往往关注文本本身主题词提取,而包装印刷行业的产品设计,需要关注与行业相关的文本分析。采用传统方法,会得到大量无关的主题词,并获得大量无关的文本,增加文本分析的难度和工作量。因此对式(4)权重计算方法进行优化和改进,基于产品设计要素进行主题词提取算法设计。根据对设计要素的定义,每个设计要素Ep,都有一个C(Ep),表示Ep对于设计的重要程度。为了反映设计要素在文本中的出现频率、重要程度,将C(Ep)作为特征项的一个重要权重系数。
3实验结果与分析比较
CF-TF-IDF与传统的TF-IDF之间在特征项提取上的有效性和效率。实验数据集为从互联网上抽取的5 000篇文本数据集合。实验步骤:首先对数据集合进行预处理,形成基本的特征项集合;然后按照算法步骤进行特征项提取。在预期特征项中,选择与包装印刷设计要素相关的词作为特征项;然后分别由CF-TF-IDF和TF-IDF的特征项提取结果进行对比。具体实验结果如图2所示。显然,DF-TF-IDF在特征项选择上具有比TF-IDF更高的准确率。TF-IDF只根据文本本身的特点进行特征项提取;因此,尽管TF-IDF能够抓住文本的特点,并提取特征项,但由于未考虑包装印刷行业产品设计的特点,所提取的特征项可能无法体现其与设计要素之间的关系。而CF-TF-IDF方法则通过设计要素权重因子,在选择特征项时,直接通过权重来进行筛选,从而使得特征项选择更符合行业应用设计要求。
4结语
以包装印刷行业的产品设计为中心,抽取出设计要素,形成设计要素权重因子,进而构建出CF-TF-IDF权重函数。通过该权重函数,将包装印刷行业产品设计的行业特点纳入到主题词提取过程当中,为面向产品设计的数据分析提供支持,提高设计效率。
作者:胡威 单位:武汉科技大学