《系统功能语言学在自然语言处理中的知识表示研究》笔记

/ 0评 / 0

尽管最后没用到这本书,但多少还是了解了一些信息,也算是开拓视野了。

《系统功能语言学在自然语言处理中的知识表示研究》,李学宁、李向明、宋孟洪著,上海交通大学出版社,9787313201201

系统功能语言学开始于阶与 范畴语法的研究。Halliday在此之前就 应用 “阶”与“范畴”的基本观点对机器翻译和及其词典的语言学原理进行了初步探索。并且,他针对 机器翻译中对等翻译缺失的情况提出了“同义词词库法”。 进入20世纪90年代以后,系统功能语言学开始积极地应用于语料库语言学的研究以及各类语料库的建构,其最终目的仍然是服务于自然语言处理的需要。 Bateman、Baldry等进一步研究了多模态语料库的建构,并成为系统功能语言学在当代自然语言处理应用研究中的一个重要动态和发展趋势。 由此可以说:计算语言学是系统功能语言学的一个重要应用领域;而在计算语言学中的应用反过来深刻地影响了系统功能语言学的发展轨迹,并推动了其自身的理论建设,尤其是相关的形式化研究的开展。 本书聚焦于如何用系统功能语言学理论在自然语言处理中进行知识表示,即采用一些形式化方法将其重新表示出来,为计算机识别和处理提供工具。本书按照跨学科的思路,采用历史文献法和形式化方法。通过文献法,全面梳理系统功能语言学在一些自然语言处理主要领域的应用情况。而形式化方法就是知识表示方法,它是系统功能语言学与计算语言学发生关联的“玄关”。 在应用过程中,系统功能语言学者提出并发展了系统网络,从而丰富了计算语言学和人工智能中的知识表示方法。

随着计算机的诞生,“自然语言处理”逐步成为语言学的一个重要应用领域。由于语言学知识一般用自然语言进行表述,有必要采用形式化方法将其重新表示出来才能为计算机识别和处理。因此,“知识表示”就成为语言学和计算机科学中的一个共同前言课题。

自计算机诞生以后,在一大批语言学家、数学家、计算机专家等不同领域学者的共同努力下,产生了两门新兴的前沿交叉学科——计算语言学Computational Linguistics和人工智能Artificial Intelligence。计算语言学通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以计算机来模拟人的全部或者部分语言能力的目的。而人工智能则试图了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器。其主要研究领域有机器人、语音识别、图像识别、自然语言处理和专家系统等。 显然,这两门学科都有一个共同的研究方向和领域——自然语言处理Natural Language Processing,NLP,它 的研究对象是自然原因,即人们在日常工作和生活中所使用的语言,其最终目的是为了实现人与计算机之间的自然语言通信,因此归属于计算机科学。经过几十年的发展,它形成了自然语言理解Natural Language Understanding和自然语言生成Natural Language Generation两大分支。前者指的是计算机理解自然语言文本的意义,后者指计算机以自然语言文本来表达给定的意图和思想。两者共同构成了人、机自然语言通信的一个完整过程。 在此背景下,语言学理论,尤其是试图应用于自然语言处理的语言学理论面临一个共同的问题:语言学知识一般是通过自然语言形式,即人们日常所使用的语言进行阐述;而这不能为计算机所直接识别和处理。因此,我们有必要采用一定的形式将这些知识表示出来。这样一来,“知识表示”Knowledge Representation就成为语言学和计算机科学共同关注的前沿课题。 计算系统功能语言学指系统功能语言学在计算机上的表示,它是系统功能语言学与计算语言学之间的交叉分支学科。“第一届世界计算系统功能语言学国际大会”于2005年7月在悉尼大学举行。 语料库语言学中所推崇的基于概率和数据驱动的方法开始成为计算语言学的标准研究方法。 一般认为,Halliday的阶与范畴语法正式定型于1961年发表的《语法理论范畴》, 1972年,Winograd,T.研制了一个自然语言处理系统——SHRDULE。在这个系统中,他首次采用Halliday的系统语法建立了一个比较全面的英语语法。自此,许多自然语言生成研究者转而采用系统功能语言学作为理论基础,改变了原来仅关注转换生成语法的状况。 至今为止,系统功能语言学已经成为语篇生成系统中应用最为广泛的语言学理论。 令人遗憾的是,中国的语言文字理论研究与信息技术处理之间的关系远不如国外那样紧密。因此,中文信息处理研究迫切需要上一堂“补习课”,即建立面向汉语自然语言处理的语言学理论和方法论体系。 至今为止,国内学术界的一个基本应对策略是重视语义研究,以句为突破单位将词义与句法规则结合起来,再次基础之上形成了三个流派。 第一个流派是以传统计算语言学为理论框架,从词素入手,进而研究更上一层的单位:词-短语-语段-句子。代表人物为许嘉璐等。 第二个流派是HNC理论及概念层次网络理论,其代表人物为黄曾阳。该理论一个核心的观点是传统的“词-短语-句-句群-篇章”的研究路线比较适合于西方语言,然而在总体上与汉语实际不相吻合。 第三个流派是陆汝占的基于内涵模型论的语义分析。其重要思想是中文信息处理的研究单纯走语法的路子已难有突破,必须充分考虑汉语表达式的内涵性质(陆汝占、靳光瑾,2004)。 与此同时,另一个研究热点是建立各种综合性的语言知识库。例如董振东提出的知网,由中科院、清华大学、教育部语用所发起成立的中文语言数据联盟等。 由于汉语本身的复杂性以及汉语界与计算机界之间的“不相往来”,缺乏直接或经过适当改造就可以应用于中文信息处理的语言学理论和方法。 邵军力等(2002)则重点介绍了系统功能语言学在自然语言生成中的应用情况,并举例说明了它在图书馆资料查询系统中的应用。 曹文洁、宗成庆和徐波(2004)建立了一个汉语语篇生成系统,吴华(2001)探讨了汉语自然语言生成的形式木星及其在自然语言处理中的应用。许庆欣(2007)研制了一个词汇语法拼写校对软件。严恒斌和J.Webster(2011)提出了一个基于云计算平台的协作性标注框架。 程琪龙(2000)关注系统功能语言学与神经认知语言学的关联,试图提出一个认知功能语言学理论模型。

本书的三种形式化方法:数理逻辑的方法,尤其是概率逻辑和模糊逻辑;系统网络,一种图论的方法,与树形图具有一定的类似性;特征分析法,包括特征分析、特征结构分析和类型特征结构分析三种字方法。

其中,与及其翻译密切相关的理论方法是描写语言学和对比描写语言学,前者是一种普通语言学,研究语言的结构模式和工作模式,后者属于应用语言学,运用有关理论方法在不同语言之间开展对比分析。 针对“语言是一种密码”的观点,Halliday认为语言中语义和形式之分并不等同于密码与信息,语义不能独立于语言材料而存在,人们必须通过语篇才能加以研究。 针对“密码在本质上是二进制binary”的观点,Halliday认为二进制并非描写语言的普遍法则。 Halliday明确主张将机器翻译归属于应用语言学的研究范畴,这种提法阐明了语言学理论对于及其翻译研究的指导作用,为及其翻译最终发展成为应用语言学的一个重要分支——及其应用语言学起到了积极的推动作用。 在1990年以前,绝大部分的机器翻译系统都是基于规则的机器翻译新系统。它们的设计方案可以归纳为三种基本的类型:直接翻译、中间语翻译和转换翻译。 直接翻译属于第一代机器翻译系统,主要思路是直接将原文翻译为译文,相关的句法、语义分析非常有限。它的缺陷是不利于多语种互译。此外,由于分析、转换、综合等翻译阶段没有彼此清晰地区分开来,不便于根据情况灵活地调整系统的数据、程序或组成部分,否则就有可能损害整体的有效性。Halliday对于直接翻译持批评态度,它提出了一个重要观点:描写先于翻译,即在翻译之前需要对所涉及的两种语言进行充分的描写和比较。因此,他认为计算机所要执行的是一种比较描写语言学上的复杂操作,而翻译只是其中的一个实例而已。 中间语翻译属于第二代及其翻译系统。它的特点是将原文翻译为中间语,然后通过中间语翻译为目标语。Halliday充分肯定了中间语在机器翻译研究中的重要作用,他认为中间语并非自然语言,也不是人工语言,而是一种数学建构。通过中间语,就可以极大地降低多语种互译中所需编写的程序。此外,开展中间语的研究有助于推动比较语言学的发展,从而为集中语言的对比分析提供一组普遍适用的描写范畴。但Patel Scheider指出:“如果一种元语言(中间语言)能够用来做及其范阿姨,这种中间语言必须把许多语言的用一切可能特征都综合起来进行一体化的雅安就,这样的研究不仅是一个无休无止的人物,而且很可能是没有结果的。这样的系统会很快地变得难以管理,而且由于不堪重负而自行崩溃。” 转换翻译也属于第二代机器翻译系统,在转换翻译过程中,一般明确地划分了三个阶段:第一个阶段是将原文转换为抽象的面向原语的表达式,第二阶段是转换为对应的面向目标语的表示式,第三个阶段是生成最终的目标语文本。 从总体上说,Halliday的设计方案属于转换翻译。他所采用的的描写语言学理论并非当时盛行的美国结构主义语言学,而是自己刚刚提出的阶与范畴语法。在这个语法体系中,他提出了语言描写的三个基本层次:实体、形式和语境,其中形式可以进一步分为语法和词汇两个子层次。此外Halliday还提出了语言的五个基本单位:句、小句、词组(短语)、词、词素。 从这个基本的理论框架出发,Halliday用实例演示了及其发你的基本过程。在第一个阶段,需要对原文的句子进行切分,依次获得其小句、词组(短语)、词和词素。第二阶段是逐层往上进行翻译,即先翻译词素,然后翻译词,以此类推。在每一级阶的翻译中,先在目标语中找到概率最大的等值翻译选项,然后在更高阶层的翻译中根据该词出现的上下文语境进行调整。在第三阶段,根据目标语的内在结构对译文在词汇和语法方面作进一步的调整。例如,“多”在词素层、词层可以暂时译为“many”(形容词,定语)。但是在小句层和句层,则应该基于英语的内部结构规律逐步调整为“there are more than ...”(多了,谓语+状语?) 1990年前后,机器翻译开始在基于规则的技术中引入了语料库的方法,主要包括基于实例的方法和基于统计的方法。 基于实例的方法,其核心思想是利用已有的译文例子作为翻译基础,与“翻译记忆”非常类似,都是将新输入的句子与真实文本数据库中的例子进行匹配,从而自动或半自动地确定最合适的译文。Halliday认为机器翻译的立项单位应该是在句这个阶层,通过一部“句典”,就可以在目标语言中查找到与源语言中所有句子相对应的译文。然而,当时的机器翻译大多在词甚至词素这些阶层上进行,翻译的质量往往令人难以接受。 与此同时,Halliday已经认识到了这种方法存在的局限性,除了在特定文本中具有较高的重复率以外,普通文本的实际重复率是非常低的。因此,他明确提出在科技语篇和其他一些重要语域的语篇中,词汇——语法完全一致的句子的重复率几乎为零。Halliday提出的解决方案是词汇分析与语法分析先独立进行,然后有机地结合起来。试以句a的翻译为例,通过词汇分析,可以发现句c与a、b中部分词汇重复,在此基础上找到平行的日语译文,结合对He buys和a book on international politics的语法结构分析,就能正确地合成句c的译文。

但一般学界认为这种方法的创始人仍然为Nagao,因为他能够进一步采用计算机技术的手段加以实现。

其实就是把主谓宾拆开来,类似于上文所提及的中间语翻译和转换翻译。 基于统计的方法(主流方法),其本质是基于平行文本,计算一种语言中的某个语言单位与另外一种语言中对应语言单位之间的概率。在语法统计分析方面,Halliday 的具体做法是:基于级阶理论,在概率统计的基础上确定源语和目标语相对应的单位,例如源语中的短语一般翻译为目标语的短语;然后,进一步研究该单位的类型及其所体现的语言成分的对应概率,例如源语中的动词短语是否译为目标语的动词短语?源语中体现动词短语的成分是否总能译为目标语中体现动词词组的成分。(有点无法理解?)

Halliday对及其词典展开了研究,他论述了及其词典在机器翻译过程中的重要性,提出了一种先进的机器词典编撰方法——同义词词库法Thesaurus Method,受到了当时机器翻译界的广泛关注。 Halliday从语言学的角度对及其词典进行了研究,所采用的的理论框架为阶与范畴语法。该语法的基本观点如下: 层次,语言描写有三个基本层次:实体、形式和语境,形式和语境被合并称为层次。实体指的是声音的和书面的语言原材料;形式是语言的有意义的组合,包括语法和词汇两个子层次,它们通过音系学和字音学来反映不同的实体;第三个层次为语境,通过语言形式来反映非语言内容的模式。

范畴(一个合成性质的概念,用于描述这个概念的各方面属性),Halliday提出了四个主要的范畴——单位、结构、类和系统。其中,类、结构和单位之间具有紧密的联系:类总是参照上一级单位的结构而进行定义;而结构总是参照下一级单位的类而定义。系统是一系列类似项目的组织,在一个系统中,一般包括多个项目。这些项目可以是语法范畴,也可以是具体的词汇,例如,英语中的体aspect系统包括了进行体、完成体等多个项目。 阶,为了说明上述四个范畴之间的关系,Halliday区分了三个阶scale——级rank、说明exponence和精密度delicacy。级阶主要说明语言单位之间的联系。在英语中,一般区分了五个基本的单位:句、小句、词组(短语)、词和词素,说明阶将范畴与语言材料联系起来,例如the old man的单位是词组,结构是冠词+形容词+名词,类是名词词组。精密度用于表示范畴之间的区别或详细程度,此外,它也用来揭示词汇和语法之间的关系,即词汇被认为是最精密的语法。两者之间的关系是一种连续统,共同构成了一种语言的词汇——语法系统。 Halliday对机器翻译在词汇——语法层出现的问题进行了研究,指出两种语言之间的范畴(包括系统及其项目)在翻译中存在不等值的情况,以英汉体的翻译为例,完成体这个项目是不等值的,甚至连体这个系统本身也是不等值的。因此,有两个子课题:如何设置范畴;如果存在差异,如何进行取舍。 因此,Halliday主张编撰机器语法和机器词典,从而服务于机器翻译的需要。机器语法用于反映目标语中内在的、独特的语法特征,而机器词典是对目标语中词汇的一种系统组织,反映的是目标语中词汇层独特的、起决定作用的特征。 Halliday提出了基于语境原则而非正字法、音位法和语法原则的同义词库,这里的语境原则主要指的是:搭配,即一个词与其他词共同出现的倾向或概率;其余一些非搭配性特征,这些特征可以从文本中抽取出来,而不是完全依赖于情景语境本身。 这样一来,词库就可以在机器翻译中发挥如下两个方面的作用:一是可以为原文中的词语提供一一对等的翻译,二是在对等词缺失的情况下,可以提供一个与之对等的词语串。从阶与范畴语法的角度来看,前者是在词这个级阶上实现源语和目标语的等值翻译,而后者是在更高的级阶中进行实现。 在同义词库中,单次按照语境原则组织成为一个序列,每一个单次是一个或几个序列中的项目。因此,同义词库的编撰包括:为原文的某个单词提供对等的译文;以这组单次为关键词,建立同义词词库。此时,目标语中一般只有一个单次与之对应,在某些情况下,存在多个同义词。在一个同义词库中,相应的词条包括三个主要的组成部分:被释义词、释义词以及所出现的情景语境或语言语境。

左边的例句是被释义词、释义词共同出现的语言语境,而括号内的指示语则表示话语的情景语境。正式在这样一个语境中,被释义词和释义词才能相互替代而不改变意义,即释义词就是被释义词的对等词。 表2.2的词语选择,一方面需要考虑语境因素,尤其是搭配关系的制约,另一发那个面需要考虑该词与其他候选同义词所构成的纵聚合关系。Halliday进一步将同义词的聚合关系分为两大类:明确化specification,即句2、3、4的火车站、车站和站三个词语像话替换后并不产生意义的差别,而只是使得语义更加精确;分类classification,句12、14、16的track、line、railway虽然指称的是相同的实体,但是各词具有不同的内涵。因此,相应的释义词之间就不是一种明确化关系,而是分类关系。沿着这两个维度,就可以在一定程度上对具有聚合关系的同义词进行区分与选择。

Halliday之所以得出这个结论,并非依赖于当时的科学技术,而是取决于他作为一个语言学家的优秀素养:任何一种语言在语法和词汇层次上都有其内在的规律,即使是从其他语言翻译过来的译文,也必须遵循这些规律;在进行跨语言对比与翻译的时候,重点应该放在对目标语的描写上:无论源语是何种语言,对目标语的描写都无需随之发生变动。这种方法在MAsterman等人采用后,在成语、隐喻等翻译方面提高了译文的质量。 直至今天,改进后的同义词库法仍然受到了计算语言学界的重视。 Halliday对英语介词的分类,认为属于一种语法补充形式而不是词组,帮助翻译的进一步精确化。P35 总结,Halliday从层次和系统两个维度进行相关的语言描写。层次就是尚未所提及的形式和语境;而系统指的是由选项、关系和决定性特征三个要素构成的内容,关系有组合聚合关系,聚合就是类似聚合,组合只是机械组合。

Halliday试图将系统观和层次观有机地结合起来,这样一来,系统中的选项就不仅仅可以表示词汇选项,还可以进一步表示语法选项(???什么意思)。此外,他侧重系统中的聚合关系研究,从而推动了阶与范畴语法向“系统语法”的过渡以及系统(网络)表示法的产生与发展。 在当时,Halliday的观点没有被认可,主要原因在于乔姆斯基的语言观点及其转换生成语法理论被支持。

自然语言生成又称为语篇生成,指的是计算机通过自然语言文本来表达人们的意图和思想。而语篇生成系统能够自动地生成可以理解的自然语言文本。已知的系统有汉语句法实现系统Chinese Syntactic Realization System CSRS,PROTEUS,PENMAN等。 另一方面,自然语言生成对于系统功能语言学理论本身的可计算性提出了更高的要求,从计算语言学的角度来看,语言学理论必须进行形式化处理,即通过数理逻辑的方法和手段对原来的理论体系结构进行更加严密和明晰的表征,人们在设计的过程中也发现不能照搬Halliday的系统功能语言学理论框架。 PROTEUS系统是第一个真正意义上的语篇生成系统,其初步具备了一个相对完整的生成结构,包括文本规划、句子规划和句子实现三个基本的组成部分。

PROTEUS系统采用Hudson系统与法,需要先后完成两项工作:语法范畴的明确,通过名词系统片断完成;衔接手段的应用。 为了增强文本的连贯性,PROTEUS系统使用了替代、照应、连接等一系列的衔接手段。例如,用one替代a corner,用that、it照应前面的相关成分,此外还是用了and、but等连接词分别表示小句之间的因果关系和对比关系。 PENMAN系统是一个具有里程碑意义的语篇生成系统,其实现了系统功能语言学与计算机技术的深度结合,并在此基础上提出了著名的NIGEL语法,并且具有良好的可移植性。

PENMAN系统具有两个重要特点:将资源与过程明确区分开来,在PENMAN系统中,资源包括知识库、读者模型、修辞资源、词汇——语法资源,其中修辞资源采用的是修辞结构理论,而词汇——语法资源应用的是系统功能语法;过程是对于资源的调用,其执行方式是串行处理,依次为: -知识选择,从知识库中选择相关的知识 -文本规划,在修辞资源中选择合适的策略,将所抽取的相关知识组织为一个修辞结构 -词汇语法表达,采用系统功能愈发,将文本规划表达为词语 -编辑,采用一个编辑器,对上一个阶段生成的文本进行润色并输出最终文本 在知识选择与文本规划过程中,都需要参考读者模型,从写作过程模型来说,PENMAN的语篇生成在本质上是一种与读者的沟通方式,因此具有社会互动模式的特点。 其中,被进一步塑造成NIGEL语法,包含了两个部分:系统语法、选择与询问界面。

系统语法可以进一步分为系统、实现规则和词库,其中的系统超过了2000个,并提出了一些实现规则比如插入insert、预选preselect等均为后续的一些语篇生成系统所广泛采用。 选择与询问界面是系统语法与环境之间的界面。 环境主要由知识库、文本规划所构成,包含了一些涉及事物语法范畴方面的信息,例如静态、非静态,等等。而选择与询问则向环境提出询问,并根据回答对系统中的特征进行有目的的选择。

CSRS汉语句法实现系统是国内少数几个采用系统功能语言学的语篇生成系统,能够进行书面语和口语的生成,并在口语翻译系统、信息查询系统中得到实际的应用。

CSRS系统中的语义表示是一种扩展了的谓词结构,由谓词信息、必有论元和可选论元三个部分组成。谓词信息包括主要东曹、语义、语态和时态等。必有论元是一个完整句子所需的参与者,可选论元是不受影响句子完整性的信息,包括时间、地点、方式等。

语义表示SR采用的形式是巴科斯努尔范式Baukus Naur Form, BNF,其由许多特征结构feature-structure构成,而一个特征结构为一组特征attribute-值value对。

在CSRS系统中采用了模板与特征方法相结合的方法啊,既保证了通用性,又能实现其灵活性。

什么意思??? 在句法实现部分,CSRS采用系统功能语言学建立了汉语的自然语言生成语法,其针对复句、单句和短语三个句法层面进行了描述,并建立了不同的特征系统网络。 在复句层面,共区分了并列、承接、递进等十个大类,其中大部分复句还可以进一步分为不同的小类。在复句的生成过程中,核心问题是关联词的添加,例如并列复句的关联词为又有、也也等。 在单句层面,重点是建立概念功能、人际功能和语篇功能系统网络。在概念功能系统网络中,建立及物性系统。在人际功能系统中,主要建立时态系统、语气系统和情态系统。在语篇系统中,建立主位结构和信息结构系统。至于小句之间的衔接,则归属到了句子规划部分。 在短语层面,建立了一个功能类型和结构类型合取系统。其中,功能类型(词性)包括名词性短语、动词性短语和形容词性短语。而结构类型(语法结构)包括偏正短语、动宾短语、主谓短语等。例如,当生成“她的衣服”时,需要同时在功能类型中选择名词性短语,并且在结构类型中选择偏正短语。 “组合沟”现象指的是聚合关系在转化为组合关系过程中存在的困难,从系统功能语言学的角度来说,就是语义潜势在体现为功能句法结构的过程中存在障碍。在系统功能语言学中,组合聚合关系演变成为了系统和结构的关系。其中,系统指的是一种特殊的语义,即语义潜势semantic potential,而结构特指功能结构function structure,即功能句法functional syntax。 由于系统功能语言学在聚合关系方面的侧重,尤其是Halliday的语境、层次(以大统小)、系统(网络思想:首要的组织原则是选择而不是结构),且组合关系的问题?P49-50

当小句的功能句法结构进一步体现为词组和词的时候,由于系统功能语言学没有对词、词组和小句三个不同级阶提出一个统一的结构描写框架,需要通过大量的预选手段来逐级加以实现。这些操作尽管在一些技术型不强的应用领域显得无关紧要,但是在进行语篇生成的时候却在一定程度上影响到了系统的运行速度。 以小句的层级分析为例,在系统功能语言学中一般采用句法功能与词类相结合的标注体系,但是各家的具体做法存在差异。与Hudson等人所不同的是,Halliday只对功能进行了明确的标记。至于词类,他采用了层级实现interrealization,即预选preselection的操作来进行指派。 当Halliday的理论框架应用于PENMAN研制的时候,在相应的NIGEL语法中出现了大量的预选操作,因此显得十分累赘。以下为及物性系统中的选择程序。其实,在情态系统和主位系统中也存在类似的情况: Teich试图解决组合沟的问题。P52 在系统功能语言学理论体系中,系统网络中的选择与语言的基本功能,即元功能存在对应关系。在系统功能语言学理论框架中划分了几个层次:语境层、语义层、音系学层等。这些层次均按照原功能的原则进行组织。例如,语境层根据概念功能、人际功能和语篇功能分为了语场、语旨和语式。在语法层的小句级阶上,根据上述三个原功能相应地区分为及物性系统、预期系统和主位系统。 从上述思路出发,Teich试图从原功能的角度来解决“组合沟”现象。她认为问题的症结在于词汇——语法层面的概念功能,更准确地说是逻辑功能的分析。系统功能语言理论框架中划分了5个级阶,从小到大依次为:词素、词、词组(短语)、小句和句。在NIGEL语法中,词素和词合为了一个级阶。它们的一个共同特点是对于句法结构及其内部组成关系的描写缺乏统一性和概括性。 下面,我们在词、词组和小句三个主要级阶上对系统功能语言学和生成语法的句法分析方法进行对比分析。 在生成语法理论体系中,X-bar理论采用如下图示对于各种句法结构的内部结构和共有的结构特征进行了统一的处理。

当X代表N,V,A,Adv,P的时候,所生成的短语结构分别为NP,VP,AP,AdvP,PP。此时,词和词组(短语)之间的关系为投射关系 ,所生成的结构均为向心结构,它们都有一个中心。当X代表I或C的时候,分别生成屈折词短语IP和标句词分句CP,即限定性小句和由if,whther,for,that等词引导的非限定性小句。这些结构与上述词组具有相同的句法结构和特征。 从系统功能语言学的角度来说,X-bar理论中的所有结构类型均为单变结构,并且这个单变结构具有一个中心即X。通过投射关系,清晰地揭示了词、词组和小句等不同层次单位之间的区别和联系。从计算语言学的角度来说,这种统一的处理模式有助于后续的程序编写和执行。 而就系统功能语言学的句法分析方法中,在小句层,出现了切分性、韵律性和突出性三种不同的结构形式。在这些结构形式中,所揭示的是功能成分之间的功能关系,而不是组成成分之间的句法结构关系。在生成句子的时候,需要通过预选操作将功能成分用句法范畴表示出来。此外还需要进行相应的插入insertion和合并conflation操作,才能将功能成分插入句子成分结构之中并与其它成分进行语序的调整。 …… 与X-bar理论中的结构相比,系统功能语言学中的大部分结构类型及其所体现的句法结构缺乏一个共同的中心,因此不是向心结构,而是离心结构。尤为棘手的是,在小句和词组两个级阶之间,功能成分的实现主要依靠各种预选操作,因此在语言学理论体系的一致性方面显得不是很连贯。在计算语言学中,这种处理方式的一个严重后果就是在程序编写的过程中会出现大量的bug。 在自然语言处理的发展中,最先得到广泛采用的是基于乔姆斯基句法理论的短语结构模型。然而,这种模型具有很多局限性,尤其是语法的生成能力太强,区分歧义结构的能力很差。因此,在自然语言生成的时候会产生大量的歧义句。此后,人们提出了一些新的语法理论,例如: -基于合一运算的形式模型,包括Kaplan的词汇功能语法Lexical Functional Grammer, LFG、Martin Kay的功能合一语法Functional Unification Grammer, FUG等 -基于依存和配价的形式模型,包括Tesniere的依存语法和Herbig等人的配价语法 -基于格语法的形式模型? -基于词汇主义的形式模型等?(冯志伟,2010:173-354) 在上述几种形式模型中,Teich借鉴的是基于依存和配价的形式模型。她试图提出一种新的语法模型即依存系统功能语法,目的是对句法结构及其内部组成进行统一的描写与表征。 与短语结构语法相比,依存语法中没有词组这个层次。这样一来,每一个节点都与句子中的单词相对应,因此能够直接处理词与词之间的关系,大大减少了节点的数目。在相应的依存系统功能语言学中,Teich对传统的级阶理论进行了重新表述。

在上图中,首先在精密度上提出了两大类级阶——词汇类和非词汇类。然后,进一步将词汇类分为词汇中心和词汇非中心;将非词汇类区分为小句(从句)、名词词组和介词短语等不同子类。在其理论体系中,同样没有设定词组这个中间层次,保留了依存语法简洁明了的特点。 值得特别关注的是,Teich试图将所有的依存结构处理为一个具有中心词的向心结构。在词汇中心子类中,包含了动词、名词和介词三种代表性词类。在更大的句法结构中,它们分别构成了小句、名词词组和介词短语的中心词。与配价语法结合起来,可以更加精确地揭示依存成分与中心词之间的支配关系。以德语中的名词词组为例,可以更加充分地揭示依存成分与中心词之间存在性、数、格的一致性。 Teich沿用了Bateman 等人的研究思路。然而,她的一个创新之处是采用类型特征结构有效地表征了句法结构的依存关系。例如:采用类型特征结构可以将图3.16中的信息表征如下:

Teich理论的相应评价 P57

Halliday于1991年初步论述了语料库研究与概率语法之间的紧密关系,并进一步提出了将语言视为系统和实例之间存在连续统关系。 在本章中,我们将对Baldry的MCA和Bateman的GeM模型进行研究。这是两种新兴的、具有较大影响力的多模态语篇分析与标注方法。通过这种研究,有助于进一步归纳出系统功能语言学在多模态语料库中的知识表示方法。 MCA-Multimodal Corpus Athoring System是一种针对影视语篇的分析与检索系统。 GeM模型是一种针对版面的分析与检索系统。

陈述表示:一阶谓词逻辑表示,产生式表示,语义网络表示,框架表示, 过程表示:…… ……

这是什么?与系统功能语言学的关系在何处?

?指的是信息的分类与处理么?

发表评论

电子邮件地址不会被公开。 必填项已用*标注