Thunder Bird - IT博客

perl写的双向最大匹配切分拼音串

以前写的一个小东西，当正向最大匹配无法切分开时，就用反向最大匹配来切分，需要读入一个拼音文件
程序：
# !/Perl/bin -w
use strict;
# the spliter for pinyin string
my %dict;
my $maxlength=0;
my $py;
open(DICT,"pinyin.txt")||die;
while(my $line=<DICT>){
chomp $line;
$dict{$line}=length($line);
$maxlength=length($line) if(length($line)>$maxlength);
}
close(DICT);

print "please input the Pin Yin string to be segmented(quit to quit)\n";

while(){
   $py=<STDIN>;
   chomp $py;
   exit if($py eq 'quit');
   my $result;
   $result=spliter($py);
   print "$result\n";

   }
sub spliter{
my ($Input)=@_;#caution the()
my $Segemted;
my $Remained=$Input;
while ( length($Remained) > 0 ){
my $Match=0;
my $i;
for($i=$maxlength;$i>=1;$i--){
my $index=index($Remained," ");
if($index==0) {$Remained=substr($Remained,1);}
my $MatchString=substr($Remained,0,$i);
if ( defined $dict{$MatchString} ){
$Segemted.=$MatchString;
$Segemted.=' ';
$Remained=substr($Remained,$i,length($Remained)-$i);
$Match=1;
last;
                                     }#ednif

                                 }#endfor
if($Match==0){#if can't be matched in regular,reverse match it
   $Segemted=reversesplit($Input);
   last;#to end while
   }
}#endwhile
return $Segemted;
}

#reverse maxmatch
sub reversesplit{
my ($Input)=@_;#caution the()
my $Segemted;
my $Remained=$Input;
while ( length($Remained) > 0 ){
my $Match=0;
my $i;
for($i=$maxlength;$i>=1;$i--){
my $index=index($Remained," ");
if($index==(length($Remained)-1)) {$Remained=substr($Remained,0,length($Remained)-1);}
my $MatchString=substr($Remained,-$i);
if ( defined $dict{$MatchString} ){
$Segemted.=$MatchString;
$Segemted.=' ';
$Remained=substr($Remained,0,-$i);
$Match=1;
last;
}#ednif

}#endfor
}#endwhile
$Segemted=substr($Segemted,0,length($Segemted)-1);
my @seg=split(" ",$Segemted);
$Segemted=join(" ",reverse @seg);
return $Segemted;
}

拼音文件：
a
ai
an
ang
ao
ba
bai
ban
bang
bao
bei
ben
beng
bi
bian
biao
bie
bin
bing
bo
bu
ca
cai
can
cang
cao
ce
cen
ceng
cha
chai
chan
chang
chao
che
chen
cheng
chi
chong
chou
chu
chuai
chuan
chuang
chui
chun
chuo
ci
cong
cou
cu
cuan
cui
cun
cuo
da
dai
dan
dang
dao
de
dei
deng
di
dia
dian
diao
die
ding
diu
dong
dou
du
duan
dui
dun
duo
e
ei
en
er
fa
fan
fang
fei
fen
feng
fo
fou
fu
ga
gai
gan
gang
gao
ge
gei
gen
geng
gong
gou
gu
gua
guai
guan
guang
gui
gun
guo
ha
hai
han
hang
hao
he
hei
hen
heng
hng
hong
hou
hu
hua
huai
huan
huang
hui
hun
huo
ji
jia
jian
jiang
jiao
jie
jin
jing
jiong
jiu
ju
juan
jue
jun
ka
kai
kan
kang
kao
ke
ken
keng
kong
kou
ku
kua
kuai
kuan
kuang
kui
kun
kuo
la
lai
lan
lang
lao
le
lei
leng
li
lia
lian
liang
liao
lie
lin
ling
liu
lo
long
lou
lu
luan
lun
luo
lv
lve
m
ma
mai
man
mang
mao
me
mei
men
meng
mi
mian
miao
mie
min
ming
miu
mo
mou
mu
n
na
nai
nan
nang
nao
ne
nei
nen
neng
ng
ni
nian
niang
niao
nie
nin
ning
niu
nong
nou
nu
nuan
nuo
nv
nve
o
ou
pa
pai
pan
pang
pao
pei
pen
peng
pi
pian
piao
pie
pin
ping
po
pou
pu
qi
qia
qian
qiang
qiao
qie
qin
qing
qiong
qiu
qu
quan
que
qun
ran
rang
rao
re
ren
reng
ri
rong
rou
ru
ruan
rui
run
ruo
sa
sai
san
sang
sao
se
sen
seng
sha
shai
shan
shang
shao
she
shei
shen
sheng
shi
shou
shu
shua
shuai
shuan
shuang
shui
shun
shuo
si
song
sou
su
suan
sui
sun
suo
ta
tai
tan
tang
tao
te
tei
teng
ti
tian
tiao
tie
ting
tong
tou
tu
tuan
tui
tun
tuo
wa
wai
wan
wang
wei
wen
weng
wo
wu
xi
xia
xian
xiang
xiao
xie
xin
xing
xiong
xiu
xu
xuan
xue
xun
ya
yan
yang
yao
ye
yi
yin
ying
yo
yong
you
yu
yuan
yue
yun
za
zai
zan
zang
zao
ze
zei
zen
zeng
zha
zhai
zhan
zhang
zhao
zhe
zhei
zhen
zheng
zhi
zhong
zhou
zhu
zhua
zhuai
zhuan
zhuang
zhui
zhun
zhuo
zi
zong
zou
zu
zuan
zui
zun
zuo

posted @ 2006-04-19 09:11 Thunder 阅读(2063) | 评论 (0) | 编辑收藏

linux文件中的^M问题

当在windows和linux之间进行文件交互时，常常会发生linux在文件的每行结尾都加上一个^M，就是linux下的换行符，非打印字符，但占有一个单位的长度，所以在处理字符串时要注意，可以用perl中的正则表表达式将其替换掉，但^M输入时不能直接输入，要通过Ctrl+V然后CTRL+M来输入：
while(<INFILE>)
{
chomp;
s/^M$//;
}

posted @ 2006-04-18 17:37 Thunder 阅读(1719) | 评论 (5) | 编辑收藏

Google搜索技巧简介（zz）

一，概述
　　搜索已经成为网络生活的一部分。工作需要搜索技术文档、客户信息；购物需要搜索商品信息和指南；娱乐需要搜索相关背景资料和图片。搜索已经变得无处不在，而Google则相应的成了工作和生活中的一个必备工具。
　　Internet对我们的影响至深的还是在于学习方式的变迁。从“预学式”到“即学式”。 “即学式”的前提是海量的信息库和超强的信息检索工具。Internet和以Google为强的搜索引擎正是这两个工具。

二，Google搜索基本语法
　　１，与：“ ”（英文半角的空格）
　　２，非：“-”（英文半角的减号）
　　３，或：“OR”（英文大写的OR）
　　有效缩小搜索范围，迅速找到目的资讯的一般方法：目标信息一定含有的关键字用“ ”连起来，目标信息不能含有的关键字用“-”去掉，目标信息可能含有的关键字用“OR”连起来。
　　４，通配符：Google目前只可以用“*”来替代单个字符，而且包含“*”的全部关键字必须用英文引号括起来。如“"不卑不*"”
　　５，Google对英文字符大小写不区别
　　６，如要搜索整个短语或者句子(原本包含空格的)，把全部关键字用英文引号括起来。
　　７，Google对一些网路上出现频率极高的英文单词，如“i”、“com”、“www”等，以及一些符号如“*”、“.”等，作忽略处理。
　　如果要对忽略的关键字进行强制搜索，则需要在该关键字前加上明文的“+”号。
　　搜索：“+www +的历史 internet”
　　另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”world war I””中，“I”其实也是忽略词，但因为被英文双引号引起来，搜索引擎就强制搜索这一特定短语。
　　注意：大部分常用英文符号（如问号，句号，逗号等）无法成为搜索关键字，加强制也不行。

三，Google高级搜索语法
　　１，site:对搜索的网站进行限制
　　.... site:sitename OR sitename2
　　注意：site后的冒号(英文半角字符)后不能有空格，否则，“site:”将被作为一个搜索的关键字。此外，网站域名不能有“http://”前缀，也不能有任何“/”的目录后缀；网站频道则只局限于“频道名.域名”的多级域名方式，而不能是“域名/频道名”方式。
　　２，filetype:对搜索的文件类型进行限制
　　.... filetype:doc OR filetype:xls OR filetype:ppt
　　目前，Google已经能检索微软的Office文档(小心其中可能有的宏病毒)如.xls、.ppt、.doc，.rtf，WordPerfect文档，Lotus1-2-3文档，Adobe的.pdf文档(最实用的电子化出版标准)，ShockWave的.swf文档（Flash动画）等。
　　３，inurl:搜索的第一个关键字包含在URL链接中，后面的关键字则出现在URL链接链接中或者网页文档中
　　inurl:midi 沧海一声笑
　　注意：“inurl:”后面不能有空格，Google也不对URL符号如“/”进行搜索。例如，Google会把“cgi-bin/phf”中的“/”当成空格处理。
　　allinurl：搜索的全部关键字包含在URL链接中。
　　示例：查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序（这个脚本是不安全的），表现在链接中就是“域名/cgi-bin/phf”。
　　搜索：allinurl:"cgi-bin" phf +com
　　４，intitle:搜索的第一个关键字包含在网页标题中，第二个在标题或者正文中
　　allintitle搜索的全部关键字包含在网页标题中
　　５，inanchor”和“allincnchor”搜索的关键字包含在网页的“锚”（anchor）链点内

四，Google特定搜索语法：
　　１，link:www.xxxx.com搜索所有链接到某个URL地址的网页
　　注意：“link”不能与其他语法相混合操作，所以“link:”后面即使有空格，也将被Google忽略。另外还要说明的是，link只列出Google索引链接很小一部分，而非全部，所以如果你用Google没有搜到链到你的主页的链接，也不必灰心丧气。除了上述功能，link语法还有其它妙用。一般说来，做友情链接的网站都有相似地方。这样，你可以通过这些友情链接，找到一大批具有相似内容的网站。比如说，你是个天文爱好者，你发现某网站非常不错，那么，可以用link语法查一下与之做链接的网站，也许可以找到更多符合你兴趣的内容。
　　２，related: www.sina.com.cn/index.shtml查找与某个页面结构内容相似的页面
　　３，cache从Google服务器上缓存页面中查询信息，通常用于查找某些已经被删除的死链接网页，相当于使用普通搜索结果页面中的“网页快照”功能。
　　４，其它罕用语法如info、stock等

五，Google的图片搜索：images.Google.com
　　AltaVista的检索图片数量比和匹配度比Google好些。但AltaVista国内用户无法正常访问，因此对中国用户而言，Google的图片搜索引擎已经是最好的了。
　　Google图像搜索目前支持的语法包括基本的搜索语法如“ ”、“-”、“OR”、“site”和 “filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似，如JPG，GIF等。
　　如果要搜索的图片是分散于网络中的，则用google图片搜索；如果要搜索的图片通常是处于某个图片集合(如相册)中的，则不适合用google图片搜索，可直接用普通搜索。

六，Google的目录搜索：directory.Google.com
　　如果不想搜索广泛的网页，而是想寻找某些专题网站，可以访问Google的分类目录“http://directory.Google.com/”，中文目录是“http://directory.Google.com/Top/World/Chinese_Simplified/”。分类的网站目录一般由专人负责，分类明确，信息集中。因此读者应该养成这样的习惯：首先考虑所需要的信息能否在一个专门主题的网站上找到。不过需要说明的是，用目录检索，往往需要用户对查询的领域很熟悉。否则，连查询的内容属于哪个类目都不知道，目录浏览也就无从谈及了。
　　目前Google使用的分类目录采用了ODP的内容。“Open Directory Project”是网景公司所主持的一项大型公共网页目录。由全世界各地的义务编辑人员来审核挑选网页，并依照网页的性质及内容来分门别类。因此，在某一目录门类中进行搜索往往能有更高的命中率。另外，Google根据其专业的“网页级别”（PageRank）技术对目录中登录的网站进行了排序，可以让一般的检索更具高效率。
　　示例：查找一下介绍搜索引擎方面的中文网站
搜索：先进入中文简体分类目录，再进入“计算机”目录，再进入“互联网络”子目录，再进入“搜寻”子目录。我们看到在“World > Chinese Simplified > 计算机 > 互联网络 > 搜寻”下，还有两个子目录“分类目录 (33) 搜索引擎 (10)”，以及6个相关网站。显然，这些都是我们所需要的信息。
　　除了用鼠标层层点入，也可以在目录中检索。比如，在上例的“互联网络”目录下，选中“只在互联网络中搜索”选项，在搜索栏内填入“搜索引擎”进行搜索。
结果：在分类Google 网页目录项中搜索搜索引擎。共约有387项查询结果，这是第11-20项。搜索用时0.09秒。
　　可以看到，上述查询结果比普通的检索更有效，因为在分类“互联网络”下进行搜索剔除了很多不相关的诸如新闻之类的无效信息。不过，对于中文用户而言，现在最大的问题是志愿的中文目录编辑太少，导致收录站点太少，因此搜索结果范围显得过于狭隘。但愿这个问题能随着Google以及ODP项目在国内名声的响亮而能得到改观。

七，Google的新闻组搜索：groups.Google.com
　　2001年2月份，Google将新闻组搜索引擎中的佼佼者DEJA收购并提供了所有DEJA的功能。现在，除了搜索之外，Google还支持新闻组的WEB方式浏览和张贴功能。
　　因为新闻组中的帖子实在是多，而且又涉及一些普通搜索所没有的语法，所以建议使用“高级群组搜寻”进入高级搜索界面。新闻组高级搜索提供留言内容、分类主题、标题、留言者、留言代码、语言和发布日期作为条件进行搜索。其中作者项指作者发帖所用的唯一识别号电子信箱。

posted @ 2006-04-17 15:16 Thunder 阅读(613) | 评论 (0) | 编辑收藏

计算语言学术语选编

计算语言学术语选编
源语词典
source language dictionary
机器翻译系统中描述源语言的语音、词法、句法、语义或用法的机器词典，用于源语分析。

目标语词典
target language dictionary
机器翻译系统中描述目标语言的语音、词法、句法、语义或用法的机器词典，用于目标语生成。

多目标语词典
multi-target language dictionary
机器翻译系统中描述两个或更多目标语言的语音、词法、句法、语义或用法的机器词典。用于一对多的机器翻译系统。

词典结构
dictionary configuration
机器词典中词项以及词项具有的各种信息的组织形式。

词典信息
dictionary information
机器词典对每个词项的语音、词法、句法、语义特征或用法的形式化描述。

词法信息
morphological information
对词的结构属性或形态特征的描述。

句法信息
syntactic information
对词组合成句子的规律的描述。

语义信息
semantic information
对词汇意义、语言成分之间的逻辑意义、语法意义的描述。

超文本置标语言
①hyperText markup language ②HTML
标准通用置标语言（SGML）的一种文件类型。它对一类特定的文件定义描述信息的方法，用于互联网上电子文本的传输和共享。
超文本标记语言
词法歧义
morphological ambiguity
由于形态学上的多重意义使得一个语言单位表达一种以上的意义。

句法歧义
syntactic ambiguity
在句子中同一个结构形式表达一种以上的结构关系。

消歧
disambiguiation
证明一个歧义句有几种可供选择的结构解释，或依靠语调、句法分析、上下文中的意义来消除歧义的过程。

分析器
analyzer
根据词法、句法、语义等信息对语句进行形态、语法或语义分析的计算机程序。

句法剖析器
parser
按照语言规则分析句子的句法结构的计算机程序。

中间语言
①interlingua ②intermediate language
独立于任何特定自然语言的中介表达式，能够统摄机器翻译所需的句法和语义信息，在机器翻译系统中表示源语和目标语之间的联系。
中介语
词汇驱动
lexicon-driven
一种分析语句的方法，根据机器词典提供的词汇信息来控制操作流程。

文法驱动
①grammar-driven　②
syntactic-rule-driven
一种分析语句的方法，根据语法规则控制操作流程。
语法规则驱动
逻辑语义
logical semantics
语句中各成分所表达的概念之间或概念组合而成的事件之间的逻辑关系，例如：施事、受事、因果等。

逻辑语义结构
logical semantic structure
表示一个语言单位内全部逻辑语义关系的抽象表达式。

转换词典
transfer dictionary
在采用转换法翻译策略的机器翻译系统中，描述源语和目标语之间差异的机器词典。

词汇转换
lexical transfer
在采用转换法翻译策略的机器翻译系统中，把源语的词语置换为目标语的词语的过程。

结构转换
structural transfer
在采用转换法翻译策略的机器翻译系统中，把源语的句法结构置换为目标语的句法结构的过程。

自然语言理解
natural language understanding
在研究自然语言的机制和实现过程的基础上，用计算机分析口语或书面语，弄懂它们所表达的意思。

预处理
preprocessing
在进入自然语言信息系统的主要处理流程之前对输入的信息进行整理的过程。

后处理
postprocessing
对已经过自然语言信息系统的主要处理流程后的信息进行再处理的过程。

二值化
binarization
把一组数据按一定的规则映射为0或1的过程。

特征抽取
feature extraction
根据输入的信息产生一个n维向量的过程，这个n维向量反映出被识别模式的本质。

启发式搜索
heuristic search
一种优先求解方法，在问题的状态空间中对解进行搜索时，利用一些启发信息用来引导搜索过程，减少搜索空间，提高问题求解的效率。

隶属度
membership
一个元素属于某一模糊集的大小程度。

统计识别方法
statistical recognition method
一种利用统计进行识别的方法。将识别对象看作一个整体，其所有的特征是从这个整体上经过大量的统计而得到的，然后按照一定准则所确定的决策进行分类判定。

神经元网络识别法
cell meshed recognition method
一种利用神经元网络进行识别的方法。神经元网络是一种具有学习和自组织能力的智能机构，通过神经元网络来进行判定和识别。

贝叶斯判决规则
Bayes decision rule
统计中的一个基本规则。用该规则进行分类时要求各类别总体的概率分布是已知的，并且要决策分类的类别是一定的，贝叶斯判决规则包括最小错误率贝叶斯判决规则和最小风
险贝叶斯判决规则等。
贝斯判决规则
匹配
matching
测试两个数据项是否相等或查找一个与关键字完全相同的数据项的过程和方法。

属性文法
attribute grammar
一种形式文法。是以语法的巴科斯范式说明为基础，在普通的上下文无关文法的基础上，对每一个终结点或非终结点加上一些属性和一些对这些属性进行估值的语义规则所形成
的文法。其中的属性由<属性名字，属性值>有序对组成。

文法推断
grammar inference
确定词在句子中的语法范畴和作用的过程。

计算语音学
computational phonetics
计算语言学的一个分支学科。是通过建立形式化的数学模型利用计算机来处理语音的一门学科。

隐式马尔可夫模型
hidden Markov model
是描述连续符号序列的条件概率的一个统计模型，是马尔可夫模型的扩展。该模型由两个随机变量序列组成：一个是观测不到的马尔可夫链，另一个是可以观测到的随机序列。

语音信号处理
processing of speech signal
语音信号输入计算机后对其进行分析处理的过程。语音通过话筒转换成电信号，再经放大或转换变成数字信号，用模式分类方法分析和识别这些信号。

神经网络
neural net
神经系统的一种逻辑及数学模型，是一种具有学习和自组织能力的智能机构。模仿生物神经系统的神经元建立，试图模拟大脑处理信息、学习和记忆的方式，主要用于模式识别、
语音识别和语音综合等领域。

识别率
recognition rate
被正确识别的输入模式的数量占被识别的所有输入模式的总数的百分比，是衡量模式识别系统性能的重要指标。

语图
sound spectrogram
将一定长度的语音信号或其他声音信号的动态频率用图形的方式表现，既可以是时间－频率－强度的三维显式，也可以是在某一时间断面上的频率－强度的二维显式。

人工言语
artificial speech
言语合成所产生的输出。

合成言语
①synthesized speech ②synthethic speech
在言语合成中产生的人工言语。

类比学习
learning by analogy
机器学习中的一种方法。用类比的方法获取新的事实或技巧等知识是通过采取如下方式进行的：将与所需的概念或技巧等知识非常相似的现有的知识转换与扩展到新环境中。

分词单位
unit of word segmentation
汉语信息处理使用的、具有确定的语义和（或）语法功能的基本单位。

概念依存理论
conceptual dependency theory
一种语言自动分析方法。它试图用有限数量的基本概念（语义元）组成各种集合，表示语句的意义，称为概念表达式，并具有推理的能力。
概念从属理论
分词规范
standard of word segmentation
规定分词原则和方法的一系列规则。

规则合成
rule-based synthesis
规则合成是一种利用规则进行语音合成的方法。在这种语音合成方式中，合成语音库中是较小的语音单位（如音素或音节等）在声学上的合成参数。合成时，输入一串代码来指
定每一语音单位的音色、音高、音强和音长，合成系统中有一套合成规则，对其合成参数进行必要的修改和调节，然后由语音合成器合成出连续的语句来。

语音合成器
speech synthesizer
在参数式分析合成和规则合成系统中，能将语音合成参数转变为语音波形的软件或硬件，称为“语音合成器”。

合成单元
synthetic unit
事音合成系统所处理的最小语音基本单元，称为“合成单位”，合成语音库就是所有合成单元的集合。按由小到大的顺序，音素、双音素、半音节（声母和韵母）、音节、词、
短语和句子都可用作合成单元。

分词标记
mark of word segmentation
分词时可以利用的标记。书面语的分词标记主要有两种，一是自然的分词标记，如标点符号等；另一种是非自然的分词标记，如没有构词能力的单音节单纯词。

人机界面
man-manchine interface
人（用户）与计算机系统之间进行通信的方式与手段，尤指对那些具有支持软件的输入输出设备的使用。
人机接口
分词精度
precision of word segmentation
自动分词的正确率，切分正确的数占应分词总数的百分比。

最大匹配分词方法
maximum match segmentation
一种分词方法，是基于字符串匹配原理的一种机械匹配方法。每次从字串中取长度为最大词长的子串与词表中的词匹配，若成功则该子串为词，然后继续匹配，否则子串长度逐
次减1进行匹配，直至成功为止。

最小匹配分词方法
minimum match segmentation
一种分词方法，是基于字符串匹配原理的一种机械匹配方法。每次从字串中取长度为最小词长的子串与词表中的词匹配，若成功则该子串为词，然后继续匹配，否则子串长度逐
次加1进行匹配，直至切分完毕。

分词标记方法
mark method of word segmentation
利用分词标记进行分词的一种方法。

双向最大匹配分词方
法
bidirectional maximum match segmentation
同时使用正向最大匹配分词方法和逆向最大匹配分词方法。分别从两个方向进行处理，如果得到相同的结果，则这种切分正确，否则系统报错，需要通过另外的措施处理。

逆向分词方法
reverse segmentation method
一种分词方法，与正向分词相反的方向取字符串进行匹配。

机械分词方法
mechanical segmentation method
一种分词方法。主要基于字符串匹配的原理进行，即以“足够”大的词表为依据，采用一定的处理策略将汉语文本中的字串与词表中的词逐一匹配，若成功，便认定该字串为词。

汉语分词系统
Chinese word segmentation system
用来把汉语句子自动切分为词的系统，特殊情况下分词结果包括少数词组和语素。

汉语信息统计
Chinese information statistics
采用统计的方法研究汉语的信息，包括汉字或词语的频率统计，以及汉语句型统计等。

汉语字频统计
Chinese character frequency count
采用统计的方法研究汉语中字的使用频率。

汉语词频统计
Chinese word frequency count
采用统计的方法研究汉语中词的使用频率。

信息量
information content
信息理论中的一个基本概念，指的是对信息确定程度的量度。

熵
entropy
随机试验结局的不肯定性程度的大小。

条件熵
conditional entropy
考虑符号出现概率之间相互影响后的熵，这种熵随机试验前面的结局对于后面的结局有影响。

汉字熵
entropy of Chinese character
汉字所包含的信息量的多少。

计算机辅助教育网络
network in computer assistant education
以电子计算机为主要教育媒介，利用它的逻辑运算、信息存储等功能来为教育服务的一种方式。它包括计算机辅助教学、计算机辅助学习、计算机管理教学和计算机教育行政管
理等功能类型。

智能计算机辅助教学
intelligent CAI
利用人工智能技术进行计算机辅助教学。该系统通常由四部分组成：表达教程内容的专门知识模块，体现教师经验的教导策略模块，表示学生对课程理解程度的学生模型，计算
机与学生之间用自然语言进行教学对话的智能接口或友好界面。

产生式规则表示法
production rule representation
一种知识表示方法。产生式规则由左部的模式和右部的动作两部分组成，左部的模式确定该规则可应用的条件，右部描述应用该规则时要采取的行动，得到的结论或状态。

语义网络表示法
semantic network representation
一种知识表示方法。语义网络由一些用有向图表示的三元组（结点1，弧，结点2）连接而成，结点表现为自然语言的词和短语的概念，弧是结点之间的语义关系。

框架表示法
frame representation
一种知识表示方法，以框架方式表示将特征与表达概念或实体的结点联系在一起，其中特征借助于槽和它们的值来描述。

谓词逻辑表示法
predicate logic representation
利用谓词逻辑表示自然语言知识的方法。谓词表示对客体的描述，谓词的项则代表某个领域的客体。

知识表示系统
knowledge representation system
用来表示知识的形式化系统，包括语言学知识（如句法、语义等）和外部世界知识（如常识和领域知识等）。

人工智能
artificial intelligence
利用计算机系统模拟与人类智能有联系的功能的过程和方法。

专家系统
expert system
一种人工智能系统。它根据从专家们的专门知识获得的知识库进行推理来解决特定应用领域中的问题。

知识工程
knowledge engineering
以知识为处理对象，以能在计算机上表达和运用知识为主要手段的应用性研究和技术。主要包括知识表示、知识应用和知识获取的方法，实现知识处理的工具和技术等。

知识模型
knowledge model
各种知识结构的统称。知识结构指的是知识表示方法，已有的知识结构有框架、脚本、定型和规则模型等形式。

知识获取
knowledge acquisition
在系统所要处理的问题域范围内，对该问题域客观存在的事物，以及所要解决的问题有全面的理解和把握，包括弄清事物的各种关系并找出解决问题的方法。

元知识
metaknowledge
关于知识的知识，规定系统如何使用它所知道的知识及其限制。例如在专家系统中，元知识告诉系统如何运行或推理。

元规则
metarule
描述一组给定的规则在何种条件、顺序或方式下可以运用的一种规则。

原型
prototype
专家系统试验模型的简称。专家系统不必等到所有的非形式化知识都形式化之后才建立，可以在将某些知识形式化之后就先输入至知识库，在有一定数量和典型的知识输入之后
就可以试验运行专家系统，此时的专家系统仅仅是专家系统模型。

回溯
backtrack
一种搜索过程。在此过程中根据推测选择了某一结点，当这一选择导致不能接受的结果时，搜索则回到原始结点以作出另一选择。

事件驱动
event-driven
基于当前问题状态的正向链求解的方法。使用事件表去启动知识源，知识源能够建立或改变假设元素并且把一些新的事件放到事件表中，系统的运行状况是“机会主义”的：用
最近发现的东西去指导运行状况，而不是用符合于目标需要去指导系统的运行状况。

评价函数
evaluation function
1.在博弈树中格局的得分数。2.在搜索图中，一个节点处于最佳路径的概率。3.在搜索图中任意节点与目标集之间的距离度量或者差异度量。

形式语言理论
formal language theory
用数学方法研究自然语言和人工语言的语法的理论，只研究语言的组成规则，不研究语言的含义。

框架
frame
一种数据结构。它与特定领域的知识有关，由槽组成，槽能接受特定属性的值，称作侧面，从这些侧面，借助于适当的过程可引出推理规则。

数据驱动
data-driven
一种问题求解方法。从初始的数据或观测值出发，运用启发式规则，寻找和建立内部特征之间的关系，从而发现一些定理或定律。

目标驱动
goal-driven
一种问题求解方法，从目标出发进行反向推导。

汉字编码
Chinese character encoding
给汉字规定一种便于计算机识别的代码，使每一个汉字对应于一个数字串或符号串，从而把汉字输入计算机。

汉字信息处理
Chinese character information processing
用计算机对汉字表示的信息进行操作和加工，如汉字的输入、存储、识别、生成和输出等。汉字信息处理是中文信息处理的一个重要组成部分。

汉字识别
Chinese character recognition
计算机或其他装置对汉字进行的识别。由于汉字的复杂性，汉字识别比拉丁字母识别要困难一些。汉字的印刷文本通过电子扫描而进入系统之后，还要进行预处理工作，例如笔
划的细化工作，抽取特征之后再进行识别。

判定树
decision tree
一种具有树结构的判别网络。其中结点代表一些确定分类的具体条件。它实际是一种分类规则，通过它对输入的对象集合进行分类。
决策树
连续语音识别
continuons speech recognition
对连续语音（无中断的）进行识别的过程。这是人机之间最为自然的对话方式，在连续语音流中存在着大量的协同发音和语音段的丢失，特别在大词汇量系统中更为严重。解决
连续语音识别的难题不能单纯靠信号处理和模式匹配技术，还要充分利用语法学、语音学、语义学和语用学等知识，

启发式规则
heuristic rule
在人工智能的问题求解时，为了减少搜索而使用的经验性知识等信息或规则。这些规则有助于使搜索过程向最有利于达到目标的方向进行。

树结构
tree structure
用树形式组织信息的方法。

条件概率
conditional probability
在概率统计中，条件A在事件B发生的情况下发生的概率，称为条件概率，记作P（A|B）。

训练集
training aet
用来设计或测试的样本集合。

知识库
knowledge base
为了满足求解问题的需要，按照一定的知识表示方式在计算机系统中组织、存储和使用的互相联系的知识集合。

形式文法
formal grammar
形式化语法规则的集合。这些规则是采用特殊符号写成的。用尖括号<>将语法成分的名字括起来；随后用::=表示“其范例是”；接着是其具体范例的表达式或符号。如果有多个
范例，则在两个范例之间用符号“|”分隔开来。

汉字输入
Chinese character input
根据汉字的形、音等信息，通过各种方式，把汉字转换成计算机内部的数字形式的过程。

定向匹配
directed matching
语音理解系统的字假设器所采用的一种匹配方法，字假设器的目标是为每个未知语音部分找到一个包括正确字在内的最小语音相似空间。至少有三种方法可以用来寻找该最小空
间。它们是迭代匹配假设，定向匹配假设和按数据匹配假设。

语言知识库
Language knowledge base
在计算机内存储的语言知识的集合。它是计算机从语音、文字、词汇、句法、语义、语用等角度对语言进行信息处理的基础。

语言模型
language model
语言客观事实的形式化模拟。语言模型是语言客观事物的近似物，语言模型与语言客观事物之间的关系，与数学上的抽象直线与客观世界中存在的各种各样的直线之间的关系类
似。

概念树
concept tree
知识组织的一种表达形式。树中每一节点表示基本概念，节点间的联线表示基本概念间的相互关系，前一节点代表的概念为后一节点所代表概念的先决条件。

汉字输出
Chinese character output
将计算机内部以数字形式表示的汉字用计算机外部设备（例如显示终端、打印机等）输出的过程。

汉字内部码
Chinese character internal code
汉字在信息处理系统内部最基本的表达形式，供存储、处理、传输汉字用。它与汉字交换码有一定的对应关系，通常借助于某种特定标识信息来表明它与单字节字符的区别。

汉字交换码
Chinese character code for information
interchange
汉字信息处理系统之间或者信息处理系统之间进行汉字信息交换的代码。

语音输入
speech input
通过下述过程所实现的数据输入：通过人机接口接受并识别一种特定的语音信号，然后将其转换为一种代码，传送给计算机。计算机接收这种数据，如同键入的一样。

机器翻译
machine translation
用计算机将一种自然语言（源语言）转换成另一种自然语言（目标语言）的过程。包括书面语机器翻译和语音机器翻译。
自动翻译
机器翻译系统
machine translation system
实现机器翻译的计算机应用程序。有基于规则的机器翻译系统，通常包含机器词典、规则库、源语分析器、目标语生成器及翻译支援程序等部分。也有基于统计语言模型的机器
翻译系统。
自动翻译系统
源语言
source language
从一种语言转换为另一种语言时，原来的语言称为源语言。对机器翻译系统来说，源语言是输入的语言。

目标语言
target language
从一种语言转换为另一种语言时，新的语言称为目标语言。对于机器翻译系统来说，目标语言是输出的语言。

语言对
language pair
机器翻译中参与翻译的一种源语言和一种目标语言的合称。

受限语言
restricted language
在词汇、句法、语义及语用等方面受到人为限制的自然语言的真子集。

转换法
transfer approach
经过源语分析、源语到目标语的转换和目标语生成三个阶段来实现机器翻译的策略和方法。

中间语言法
interlingua approach
一种实现机器翻译的策略和方法。利用独立于任何特定自然语言的某种中介表达式来统摄翻译所需的句法和语义信息，表示源语和目标语之间的联系。
中介语言法
语法标注
grammatical tagging
给自然语言文本中的语言单位按形式、功能或意义标明语法类别的过程。

机器词典
machine dictionary
以供人使用的词典为基础，对词条的语音、词法、句法、语义、用法等信息进行规范化或形式化描述，存储在计算机里的词典。可为各种用途的自然语言处理系统提供语言知识
资源。

人用电子词典
human-oriented ED
存储在磁盘、光盘或集成电路等媒体上供人使用的词典。

机器可读词典
machine-readable dictionary
存储在磁盘、光盘或集成电路等媒体上的词典，可以在计算机上读取。

频率词典
frequencydictionary
按指定语言单位在使用中出现的频次或分布情况统计编纂的词典。

用户词典
user specific dictionary
自然语言信息处理应用系统中为特定用户设计的、便于该用户使用和维护的机器词典。

双语词典
bilingual dictionary
词目和释义分别用两种语言表达的词典。

单语词典
monolingual dictionary
词目和释义用同一种语言表达的词典。

自然语言生成
natural language generation
在研究自然语言的机制和实现过程的基础上，用计算机把想说的意思以口语或书面语的形式表达出来。

可扩展置标语言
①extensible markup language ②XML
标准通用置标语言（SGML）的子集。用来定义电子文件的类型，制作和管理用SGML定义的文件，以便在网上传输和共享这些文件。
可扩展标记语言
文本校对系统
①text-critiquing system　②text
proofreading system
自动发现文本的录入或书写错误、发出警告并提供修改建议的计算机应用软件系统。
文本校勘系统
基于知识的推理
knowledge-based inference
根据语言知识或客观世界的知识，从某些已知事实依照推理规则得到另外一些结论的过程和方法。

短语结构语法
phrase structure grammar
对形式语言或自然语言的形式化定义。它包括四个部分：语言中所有词（或符号）的集合T；所有语法范畴的集合N；重写规则的集合P；起始符号S（是N中的元素）。短语结
构语法既能生成语言成分序列，也能对语言成分序列进行结构分析。

范畴语法
categorical grammar
本世纪50年代由几位语言学家和逻辑学家发展起来的一类形式语法。利用句法类型演算方法，通过有穷步骤判定句子是否合乎语法。分析语言时只从两个基本范畴（名词和句子）
出发进行操作，其他范畴均由此派生而成，操作都以这些范畴的句法分布为依据。

格语法
case grammar
生成语法总框架内的一种语法分析方法。用深层结构的“格”表示句子成分之间的语义关系。深层结构由“情态”和“命题”组成。前者是与整个句子相关的时、语气、体、否
定等特征；后者以动词为中心，结构成分可能充当的各种语义角色依动词而定。

系统语法
systemic grammar
一种语法理论。它重视言谈者为体现不同的社会交际功能而在不同语言形式中所作出的选择，旨在建立一个由语言的各个分系统组成的层级网络，用来解释整个语言中全部相关
的语义选择。

概率语法
probabilistic grammar
用概率统计的方法分析文本中语言成分之间的关系、推断句子结构的语法分析方法。

扩充转移网络语法
augmented transition network grammar
在有限状态文法基础上进行了扩充的一种语言自动分析方法。它不仅能识别有限状态的语言，还能识别上下文自由的语言。

语义语法
semantic grammar
主要以语义范畴为非终结符的一种上下文无关语法。

蒙德鸠语法
Montague grammar
美国数理逻辑学家R.Montague七十年代提出的一种用数理逻辑方法研究自然语言的理论。它用内涵逻辑模型论描述和计算句子的语义。强调句法与语义的同构对应原则、句法和
语义规则的递归定义和组合原则、以及合成语言成分时的数学运算原则。
蒙太古语法、蒙太
古语义学
上下文无关语法
context-free grammar
不管上下文如何，所有规则全都适用的一种短语结构语法。
上下文自由语法、
二型文法
上下文有关语法
context-sensitive grammar
规则应用时受上下文限制的一种短语结构语法。
上下文敏感语法、
一型文法
功能语法
functional grammar
一种语言学理论。把语言互动视为合作活动的一种形式，说明支配这种互动的规则和支配作为这种活动工具的语言表达的规则（包括句法、语义和音系规则）。

词汇功能语法
lexical functional grammar
一种语言学理论。其中词库起中心作用，各种语法功能作为基元。句子的句法结构包括一个成分结构（C-结构）和一个功能结构（F-结构），后者表示表层的各种语法关系。

功能合一语法
functional unification grammar
一种用于自然语言处理的语法理论。其中词项、句法规则、语义信息以及句子的结构和功能都采用复杂特征集来表示，既可用于语句分析，也可用于语句生成。

词性标注
part of speech tagging
在给定的语句中判断每个词的语法范畴，确定其词性并加以标注的过程。通常指采用规则或统计方法进行的自动标注。是语料库加工的基本任务，其难点是兼类词的歧义排除问
题。

未登录词
①unknown word ②unlisted word　③
unregistered word
词典中没有收录的词语。通常在汉语自动分词中指没有在分词底表中登录过的人名、地名、机构名、译名和新词语等。

树邻接语法
tree adjoining grammar
用树结构表示语言成分之间的关系、通过树的替换和附加操作来生成句子的语言自动分析方法。又称树邻接语法。

广义短语结构语法
generalized phrase structure grammar
一种语言学理论。建立在上下文无关短语结构语法的基础上。由句法规则、特征限制和语义解释三个部分组成。句法范畴以X阶理论为基础，由重写规则推导出句子的树形结构，
再通过特征限制进行合格性条件检验，限制过强的生成能力，然后用蒙德鸠语法的方法得到句子的语义解释。

逻辑语法
logic grammar
用形式逻辑方法描述语言的句子结构的语言分析方法。

定子句语法
definite clause grammar
仅使用上下文自由语法规则的逻辑语法。既可以描述语言的句子结构，也可以表示分析句子的推理方法。其基本思想是：语法的符号不仅是原子符号，而且可以是广义的逻辑项。

外位语法
extraposition grammar
在定子句语法的基础上引入“间隔”等规则扩充而成的逻辑语法。

元语法
metagrammar
可以用来生成一个语法的一组元规则的集合。通过元规则来揭示语法中规则之间存在的规律。

计算语言学
computational linguistics
语言学的一个分支。用计算机科学技术来阐释语言学和语音学问题。可以应用于自然语言理解和生成、语音识别与合成、机器翻译、文本检索和考释、语言统计、计算机辅助语
言教学和词典编纂等。

计算语义学
computational semantics
借助数学方法（主要是数理逻辑方法）构建语义模型，把语义分析作为一个计算过程来研究的理论。

计算词汇学
computational lexicology
计算语言学的一个分支。用计算技术从意义、形态、结构等方面研究自然语言的词汇系统，建立面向各种应用目标的机器词典和语料库。

数理语言学
mathematical linguistics
语言学的一个分支。用数学方法研究语言现象，通常采用统计学、代数、概率论、信息论和计算分析等方法。

代数语言学
algebraic linguistics
数理语言学的主要内容之一。把语言学作为现代科学的演绎系统来研究，用一般的符号系统建立语言模型，对语言事实进行抽象的数学描述和理论上的精确分析。

统计语言学
statistical linguistics
语言学的一个分支。研究统计方法、概率方法和信息论方法在语言学理论和描写中的应用，包括分析语言单位在篇章中出现的频率和分布，确立某些关于语言统计特点的一般规
律等。

计量语言学
quantitative linguistics
语言学的一个分支，也称数量语言学。用统计技术研究语言单位的频率和分布，研究这些语言单位在使用方式上的统计规律，并应用这些处理风格区别、作者鉴定等实际问题。

语料库语言学
corpus linguistics
语言学的一个分支。把大规模的自然语言数据（书面文本或言语录音的转写）作为语言学描写、验证语言假说、或建立语言学统计模型的依据。

自动机
automaton
离散数字动态系统的数学模型。按照存储量是否有限分为有限自动机和无限自动机两类。

图灵机
Turing machine
由一个控制部件、一条存储带和一个读写头构成的抽象机器。在理论上能够模拟现代数字计算机的一切运算，可以看作现代数字计算机的一种数学模型。通过对这种模型的研究，
可以揭示数字计算机的性质。

乔姆斯基层级
Chomskian hierarchy
指生成形式语言的能力逐次增加的一系列形式语法，相互之间的包含关系是：3型文法 2型文法 1型文法 0型文法。由它们生成的语言也具有相应的包含关系。
乔姆斯基等级
语言串理论
linguistic string theory
用结构主义观点描述语言的自动句法分析方法。在语言串分析法中，每一个句子都可以看作由若干个基本串通过附加、连接和替换等方式组合而成。在组成句子的这些基本串中
至少有一个是中心串（center string），中心串代表句子的基干。每一个句子都由一个中心串加上零个或多个基本附加成分(elementary adjuncts) 组成，从中心串出发，通过
逐渐扩展的方式，可以生成语言中无限多的、任意复杂的句子。

基于合一的语法
unification-based grammar
在语言描写、分析机制和操作原则上以合一的思想为基础的语法理论，广泛应用在自然语言处理领域。例如，广义短语结构语法、词汇功能语法、功能合一语法、范畴合一语法
等。它们的共同特点是：语句分析的过程是一个对递归定义的特征结构进行合一运算的过程。

语料库
corpus
大量机器可读的自然语言连续素材的集合，这些素材是书面文本或言语录音的转写。可以为自然语言信息处理的研究提供语言数据，也可以应用于语言教学、词典编纂等。

汉语分词
①Chinese word segmentation ②Chinese
word tokenization
在以连续字串的形式表达的汉语书面语语句中，把词逐个自动识别出来的过程。特定情况下分词的结果也包括一些词组和语素。
汉语自动分词、汉
语切词、汉语自动
切词
句法范畴
syntactic category
在句法结构中，表示各个语言单位之间的结构关系的类别。如，主语、谓语、宾语、补语等。

依存语法
dependency grammar
在句子的各个成分之间建立各种类型的依存关系，用来解释各种语法关系的一种形式语法理论。又称从属关系语法。依存关系由支配词语和从属词语联结而成，例如在一个小句
中，动词是支配词语，从属词语是名词短语，它们由属于动词的配价指派。

链语法
link grammar
用链的方式描写句子中相邻成分中心词之间的连接关系的语言自动分析方法，其生成能力等价于上下文无关语法。

优选语义学
preference semantics
用语义公式表示词义、用语义模式表示短语或句子、用语义优先选择的方式表示词语之间的语义限制的语言自动分析方法。

词频
word frequency
在一定范围的语料中统计词语的实际使用情况而得到的绝对频度和相对频度。绝对频度是词语出现的次数；相对频度是该次数与整个语料所含的总词次数之比。

长距离依存
long-distance dependency
句子中在逻辑上有依存关系的两个成分被其他成分分隔开来的现象。
长距离对应
特征共现限制
feature coocurrence restriction
广义短语结构语法中用于合格性条件检验的投射原则之一。表示句法特征之间的相互依存关系。

合法性定义
well-formed definition
生成语法中关于句子的合语法性的规定。一个句子如果能由一部语法的规则生成就是合法的，否则就是不合法的。
合格性定义、合式
性定义
最高投射
maximal projection
生成语言学术语，投射指一部语法对任何一组给定句子的分析经扩展后也适用于整个语言无穷多潜在句子的能力。有各种不同的短语扩展类型，所有的完整短语（例如AP、NP、
PP）都是最高投射。
最大投射
功能限制方程
constraint equation
词汇功能语法中记录词汇信息的一种形式，它规定该词的某个属性必须是某个指定的值，限制短语结构规则的生成能力。
限制性等式
中心词特征通律
head feature convention
广义短语结构语法中用于合格性条件检验的投射原则之一。表示父结点上的中心语特征应与子结点的中心语所含的特征一致。
中心语特征规约
特征描述默认值
feature specification defaults
在不需作专门选择的情况下，系统自动给复杂特征集中的特征名指派的特征值。在广义短语结构语法中是用于合格性条件检验的投射原则之一。
特征赋值缺省
术语库
terminology bank
存储专业术语的数据库。数据库中的每条记录是一个专业术语和与该术语有关的各种信息，如注释、类别、出处、语言学特征、其他语种的译名等。
术语数据库
电子词典
electronic dictionary
存储在磁盘、光盘或集成电路等媒体上的词典。又分为人用电子词典和机用电子词典（也叫机器词典）。

概率上下文无关语法
probabilistic context free grammar
每一个产生式A→a都被附加了一个概率值的上下文无关语法。对所有的非终结符A，该概率分布必须满足：∑P(A→a)=1。又称随机上下文无关语法。

合一算法
①unification algorithm ②unification
给定两个逻辑项A和B(由函数符、变量或常量组成),如果能够找到这样的逻辑项,用它（们）代换A、B中的变量后，得到完全相同的结果，则称代换的过程和结果是A、B的合
一。实现代换的算法称为合一算法。在计算语言学中，用合一算法进行复杂特征集的属性匹配和赋值运算。

信息抽取
information extraction
利用计算机从一段非结构化或半结构化的文本中抽取指定的一类信息（例如事件、事实），并将其形成结构化数据，填入一个数据库中供用户查询使用的过程。
信息自动抽取、信
息提取、信息自动
提取
自动文摘
① automatic text summarization ②
automatic abstraction
利用计算机自动地给指定的文章做摘要的过程。常见的是机械文摘，即根据文章的外在特征（词和短语的频率、文章的结构信息等）抽取能够表达该文中心意思的部分原文句子，
并把它们组织起来形成连贯的摘要。

文本分类
①text categorization ②text
classification
在给定的分类体系下，利用计算机根据文本的内容自动判别文本类别的过程。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映
射可以是一一映射，也可以是一对多映射（通常一篇文本可以同多个类别相关联）。
文本自动分类
标准通用置标语言
①standard generalized markup language　
②SGML
置标语言是描述书面自然语言的文档结构的语言。标准通用置标语言（SGML）由国际标准化组织制定的定义电子文件结构和内容描述的标准。目的是促进语言信息格式的标准化，
便于自然语言文本信息的交换。一个SGML语言程序由三部分组成：语法定义、文件类型定义和文件实例。语法定义部分给出文件类型定义和文件实例的语法结构；文件类型定义
部分给出文件实例的结构和组成结构的元素类型；文件实例是SGML语言程序的主体部分。在计算机处理过程中，置标语言的标记既可以作为数据，也可以作为控制语句来使用。
标准通用标记语
言
信息检索
information retrieval
计算机根据要求自动地从语料库或数据库等信息源中查询和提取有关信息的过程。

概念词典
conceptual dictionary
通过揭示词汇单位之间的各种语义关系，构成语言知识库的语义描写系统，并使之与某个具体知识领域的概念层级系统对应起来的词典。
意念词典义类词
典
语义词典
semantic dictionary
是为建立某种语言的词汇语义分类体系，从而为自然语言处理系统提供语义知识支持的词典。词典中的语义信息可以用来进行多义词的义项判别和歧义排除，增强对句子中词汇
语义理解的准确性。

类型和类例关系
relation between type and token
在一个语篇中类型（不同词）的全部数目与类例（实际出现的词）的全部数目的关系。
类型和标记关系
复杂特征集
set of complex features
在功能合一语法中，复杂特征集用功能描述来表示。功能描述由一组描述元组成，每个描述元是一个成分集、一个模式或一个带值的属性，其中最主要的是“属性/值”偶对。描
述元的值可以是原子，也可以是另一个功能描述。所有的描述元都写在一个方括号里，书写顺序无关紧要。
#####
静态属性表
static attribute list
词类特征、单词的固有语义属性、单词的固有语法属性都是可以在词典中独立地给出来的，它们是单词本身所固有的属性，由这些属性构成的表叫做静态属性表。

动态属性表
dynamic attribute list
词组类型属性、句法功能属性、语义关系属性、逻辑关系属性并不能表示单词本身的固有特性，它们是单词与单词之间发生联系时才产生出来并同时被记录在树形图结点上的属
性，由这些属性构成的表叫动态属性表。

推导树
derivative tree
从起始语符开始，连续运用规则，生成的终端语符列的树形图。

节点
node
图中连结一条或一条以上边的点。多用于树形图、有向图或线图中。
结点
弧
arc
在有向图或线图中用来连结两个节点，表示其间关系的线段。

线图
chart
能够把剖析过程中在局部上正确的中间结构保存下来的非成圈有向图。
活性线图
边
edge
线图中的弧，叫做边。

终极符号
terminal symbol
树形图中不支配其它节点，处于树的最底部的节点。
终端符号终端成
分
非终极符号
non-terminal symbol
树形图中支配其它节点的节点。
非终端符号非终
端成分
有向图
directed graph
由一组节点和一组带有方向的连线所构成的图。

槽
slots
1.一种知识表示法中待填项的格式，通常由槽名和槽值构成。2.语法分析中，一个结构式中可以插入某一类语项的位置，也叫槽位。例如在句子“他____书”中，横线标出的是
槽，可以填入“看、读、买、写”等动词的一个子类。用槽分析句子结构是法位学语法的特点。
槽位
填充项
filler
可以填入到槽中的语言项目。

类属关系
class hierarchy
上位概念和下位概念之间的关系。

基元动作
①primitive acts ② primitive actions
从动词中抽象出来的表示基本动作的概念要素。不同理论中，基元动作的种类和数量不同。

概念图
concept graph
用图形的方式来描述概念之间关系或概念表达式的知识表示法。

概念网络
conceptual network
用网络的方式来描述概念之间关系或概念表达式的知识表示法。

属性继承
property inheritance
表示属性或特征的信息从某一结构体传承到另一结构体。
特性继承
上位概念
superordinate concept
外延完全包含另一个概念的外延，且该概念的外延仅仅是其外延一部分的概念。与下位概念相对。在上下义关系中表示较概括意义的那个概念。

下位概念
subordinate concept
外延完全包含于另一个概念之中，并仅仅成为该概念外延一部分的概念。与上位概念相对。在上下义关系中表示较具体意义的那个概念。

逻辑语义学
logical semantics
20世纪发展起来的、主要从逻辑角度研究语义问题的一门学科。

数理逻辑语义学
logical and mathematical semantics
运用数学和逻辑运算符号即用数理逻辑方法来分析语义现象的交叉学科。

可能世界
possible world
可能世界语义学中把一个句子所遇到的各种情况和各种条件的集合称为该句的可能世界。

isa关系
isa hierarchy
语义网络图中用“isa”连接的两个节点所具有的上下义的关系。
上下位体系
上下文意义
contextual meaning
语言单位在一定的上下文中与其他词语或句子搭配时所表示的意义，也叫语境意义。

内涵意义
intensional meaning
语义学中区分出来的一种意义类型，与“认知意义”相对。指语言单位所反映出的人们对事物的非本质特征的认识，是语言单位通过所指事物传递的意义。

外延意义
extensional meaning
语言单位所反映出的人们对其所指事物范围的认识。

外延
denotation
概念所反映的对象的总和。

内涵
connotation
概念所反映的对象的特有属性、本质属性。

上下义关系
hyponymy
词项或概念之间所具有的具体和一般的涵义关系，也叫类属关系、种属关系。
类属关系种属关
系
语义基元
semantic primitive
从词语中抽象出来的表示行为或状态的最基本概念，可以用它们和它们的组合来描述句子内部的语义关系。

语义特征
①semantic feature ②semantic property
从词义中分析出来的、能将词分类的最小意义成分，也称语义成分、义素。
语义成分义素
语义因子
semantic factor
从语言中抽象出来的最单纯、最基本的概念。如果按一定的方式组合起来，可以构成复合概念。

语义标记
semantic marker
1.用来描述词义的一组带有正负值的语义成分，也称为语义特征。 2.一种用语义成分来描述词义的形式化语义描述方法。
语义特征语义成
分
语义模式
semantic pattern
用来确定语段中词与词语义关系的格式。在优选语义理论中是“实体——动作——实体”的三元组合。

语义范畴
semantic category
语句中词与词之间语义关系的类别。
语义类别
语义场
semantic field
按一定的语义关系组成的大小不等的词项集合。在一个语义场内的所有词项要具有一定的共同语义特征。

语义解释
semantic interpretation
根据语义规则对句法部分生成的句法结构所表达的意义的说明。又称语义表达、逻辑式。
语义表达逻辑式
音文转换
speech to text
利用计算机分析、识别给定的语音信息并将其转换成与其等价的文本形式的过程。
音转文
文语转换
text to speech
利用计算机根据给定的文本产生与之等价的相应的语音形式的过程。
文转音
交集型歧义切分字段
overlapping ambiguous segmentation
（OAS）？
在字符串ABC中，AB是词，BC也是词，如“会诊断”中，“会诊”是词，“诊断”也是词，因此在自动分词中可能产生错分。这样的字段叫交集型歧义切分字段。

组合型歧义切分字段
combination ambiguous segmentation
（CAS）？
在字符串AB中，AB是词，A是词，B也是词，如“将来”中，“将来”是一个词，“将”也是一个词，“来”也是一个词，因此在自动分词中可能产生错分。这样的字段叫组合
型歧义切分字段。
多义型歧义切分
字段
受控语言
controlled language
在词汇规模和语言结构复杂度上受到有意控制以便于识别和处理的自然语言。也叫受限语言。
受限语言
文本对齐
text alignment
从组织在一起的同一文本的不同语言的译文中识别等价的词项、短语、句子或表达式的过程。

双语对齐
bilingual alignment
在双语语料库中建立原文和译文的相同语法单位之间的对应关系。双语文本之间存在着多层次的对应关系，包括段落之间、句子之间、短语之间以及词语之间的对齐。

组块分析
chunking
在词分析的基础上对短语的识别和分析，也叫基本短语分析或浅层分析。

知网
hownet
董振东等人创建的以汉语和英语词语所代表的概念为描述对象，揭示概念之间以及概念属性之间关系的语言知识库。

词义自动标注
word sense tagging
在计算机上运用逻辑运算和推理机制，对出现在一定上下文中的词语的语义进行判断，自动确定其义项并加以标注的过程。
语义自动排歧
知识表示
knowledge representation （KR）
用形式化的表达方式表示常识、知识和推理过程。目的是让计算机能够自动分析自然语言中体现的常识知识及特定的语言交际环境中出现的具体知识。

选择限制
selectional restrictions
是一种利用语义消解歧义的方法。它规定可共现语义是合法组合，而剖析过程中产生的不合法表达式要被排除掉。

黑箱评测
black box evaluation
只关注工作结果不关注工作过程的系统评测方法。

词义消歧
word sense disambiguation （WSD）
是对出现在具体语境中的多义词确定一个合适的义项的过程。

歧义结构
ambiguous structure
是具有潜在歧义的抽象句法结构。其结构项包括常项和变项，常项是具体词语，变项是词类或句法范畴类。
歧义格式
玻璃箱评测
glass box evaluation
既关注工作结果又关注工作过程的系统评测方法。
透明评测
自学习
self-learning
用机器模拟和实现人的智能行为的自学习特性的过程，即按照一定的推理机制通过学习已有知识不断获取新的知识，然后在已有知识和已学新知识基础上重新获取新知识的过程。

机器学习
machine learning
研究怎样使用计算机模拟实现人类学习活动的一门科学,是计算机科学人工智能领域的一个重要分支。学习意指系统在不断重复的工作中对本身能力的增强或者改进，使得系统在
下一次执行同样任务或相似任务时，会比现在做得更好或效率更高，而这对计算机来说，就是根据其记忆或经验修改程序，或改变逻辑通路及参数值的过程。

信息
information
广义的说，信息就是消息。一切存在都有信息。用文字、图像、声音、现象、情景等表示的内容，都称为信息。信息可以被储存和使用。

信息处理
information processin
获取信息并对其进行加工处理、使之成为有用信息并发布出去的过程，称为信息处理。

智能
intelligence
指人类认识客观事物并运用知识解决实际问题的能力。它包括感知、记忆、抽象概括、学习知识、积累经验和解决问题的能力，所以是一种复杂的综合精神活动的功能。

消息
message
具有各种内容和编码类型，并可以以存储转发方式传送的信息。

数值数据
numerical data
数据(Data)是表达和传播信息的载体或工具。从实际使用的角度看，数据分为两类："数值数据"和"非数值数据"。"数值数据"是指具有"量"的概念的数据，可比较大小，它常常
带有量词。而"非数值数据"是指具有"陈述"意义的数据，它常常是对对象的一种"描述"或"表达"。

检索系统
retrieval system
对结构化和非结构化数据包括多媒体信息进行储存、索引、查询和管理的系统。

特征/标记系统
tag system
标记系统是一个规则集，它定义了固定数量的元素（它们要么是通常被定义过的，要么从一个序列开始处移去）以及一套附加元素集（它们是基于那些从开始处移去的元素）。

同态
homomorphism
代数系统(G,*)和(S, °)，f是从G到S上的一个映射. 对于任意a,b属于G，有f(a*b)=f(a) °f(b)，则称f是由(G,*)到(S, °)的一个同态映射. 并称G与S同态。

推导
derivation
生成语法术语，指一组形式上可识别的阶段，构成从起始符号到终端语符列的句子生成过程，即一整套已经应用的短语标记规则、转换规则等。

推理规则
rule of inference
非终极符重写和替换的规则或者公式。

无限制文法
unrestricted grammar
短语结构文法的规则在生成符号串的过程中没有附加任何限制，这种文法称为无限制文法。
0型文法、短语文
法
无限制语言
unrestricted language
应用无限制文法所定义的语言叫做无限制语言。

无向树
undirected tree
连通无回路的无向图称为无向树，简称树

无向图
undirected graph
若图G中的每条边都没有方向，则称为无向图。

无序图
unordered graph
指图中结点之间没有次序排列，则称为无序图。

相邻弧
adjacent arcs
同一回路中有且仅有一个公用节点的两个弧称为相邻弧。

相邻项
adjacent vertices
由无向图G中一条边连接两个项，称为相邻项。

映射
mapping
两个集合元素之间的一种对应规则。映射有时又称函数。

有限图
finite graph
设G＝(P, L)为图。如果P是点的非空集合，L是连接某些不同点对的边集合，并且任意一对不同点之间最多有一条边。当P为有限集时，G称为有限图。

有序树
ordered tree
指树中同层结点从左到右有次序排列，它们之间的次序不能互换，这样的树称为有序树，否则称为无序树。

有序图
ordered graph
指图中结点从左到右有次序排列，它们之间的次序不能互换，这样的图称为有序图。

语法范畴
grammatical category
根据某些语法意义的共同内容，把语法意义概括为几个基本类别，这种语法意义的类就叫作语法范畴。语法范畴可以大致分为词法范畴和句法范畴两大类。

语法规则
grammatical rule
是一种语言中由小的音义结合体组合成大的音义结合体所依据的一套规则。

范畴
category
就是分类，是人的思维对客观事物的普遍本质的概括和反映。

源程序
source program
由程序员应用各种程序语言编写的程序。这种程序一般需要编译成机器语言后才能在计算机上运行。

源词
source word
机器翻译中被翻译的语言的词。

真值语句
truth value expression
一个语句的值或者是真或者是假，则这个语句称为真值语句。

正则集
regular set
设有字母表Σ，Σ上的正规表达式及其值称为正规集，其递归定义为：
（1）ε和Φ都是Σ上的正规表达式，它们所表示的正规集分别为{ε} 和Φ；
（2）任何a∈Σ，a是Σ上的一个正规式，它所表示的正规集为{a}；
（3）假定U和V都是Σ上的正规式，它们所表示的正规集分别记为L（U）和L（V），那么，（U|V）、（U·V）和（U）*也都是正规式，它们所表示的正规集分别为L（U）∪L
（V）、L（U）·L（V）（连接积）和（L（U）*（闭包）。

正则文法
regular grammar
是乔姆斯基短语结构文法分层里的3型文法。可用四元组G=(V,Σ,P,S)表示，其中V是变元的有限集合，Σ是终结符的有限集合，S∈V，称为开始符号，P是由形为A→w和A→
wB(A→Bw)产生式组成的有限集。

正则语言
regular language
由正则文法生成的语言。

终极树
terminal tree
不能再解析的树。

重言式
tautology
恒取真值的命题公式称为重言式。

转换
transformation
从一种句法结构到另外一种句法结构的转变。

转换规则
transformational rule
对句法结构进行转换的规则。

转换语言
transformational language
由转换语法生成的语言。

自反性
reflexivity
对所有a∈A，如果有(a，a)∈ R，则称R是A上的自反关系。

自然语言
natural language
是与编程语言或者其他人机交互语言相对立而言的，用于人和人之间交流的书面语或者口语。

族
family
数理语言学中，具有相同词干而词尾不同的一组词。一般表示为{ai}，其中I I，I是一个非空集合，称为索引集，ai即表示族中索引为I的一个词。

自然语言处理
natural language processing
用计算机对自然语言的音、形、义等语言文字信息进行的加工和操作，包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各
方面的处理技术。它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。

元理论
meta theory
D.Hilbert采用分层理论的办法，把理论分为两层，一层是需要证明其相容性的那个系统，叫做对象理论；另一层是作为证明工具的那个系统，叫做元理论。元理论必须简单清
晰，正确可靠，没有任何疑问。

语言的随机模型
stochastic model of language
用概率统计的方法来揭示语言单位内在的统计规律的模型。常用的有N元语法以及马尔可夫模型等。

语言归约
language reduction
自动机的读头自左向右扫描输入串，一边把输入符号移入栈内，一边检查位于栈顶部的一串符号是否与某产生式右部相同，如相同就把栈顶的符号替换成相应的产生式左部非终
结符，这种替换称之为归约。

自动索引
automatic indexing"
利用计算机自动从文章（或文本段落）中提取能代表主题的单词或短语的过程。

自动分类
automatic classifying
利用计算机根据某种特征对元素进行划分和聚类的过程。

自动检索
automatic retrieval
利用计算机从众多的文献资料中找出符合特定需要的信息的过程。

词汇统计法
lexicostatistics
指年代语言学使用的一种方法，用来对假定有亲缘关系的语言一组组相关词项的变化速度作定量比较，从而推算这些语言分离后的时间差距。

马尔可夫链模型
Markov-chain model
一个随机过程{Xn,n?0}，若已知现在时刻t的状态Xt，如果将来状态Xu(u>t)取值（或取某些状态）的概率与过去状态Xs(s0，有
P{Xn=in|X0=i0,X1=i1,…,Xn-1=in-1}=P{Xn=in|Xn-N=in-N,…,Xn-1=in-1}
称其为马尔可夫链，其中i0,i1,…,in,in+1分别为马尔可夫链的状态，N称为马尔可夫链的阶。

转移概率矩阵
transtion-probablity matrix
"I,j?S，称P(Xn+1=j|Xn=I)=pij(n)为n时刻的一步转移概率。若对"I,j?S，pij(n)=pij，即pij与n无关，则称{Xn,n?0}为齐次马尔可夫链。记P=(pij)，称P为{Xn,n?0}的一
步转移概率矩阵，简称为转移矩阵。

0阶马尔可夫链
zero-order Markov chain
若在特定情况下，系统在时间t的状态与其历史状态均不相关，即N=0，则该系统构成一个离散的0阶马尔可夫链，P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1} = P{Xn=in}

1阶马尔可夫链
first-order Markov chain
若在特定情况下，系统在时间t的状态只与其在时间t-1的状态相关，即N=1，则该系统构成一个离散的1阶马尔可夫链。P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1} =
P{Xn=in|Xn-1=in-1}。

2阶马尔可夫链
second-order Markov chain
若在特定情况下，系统在时间t的状态与其在时间t-2,t-1的状态均相关，即N=2，则该系统构成一个离散的2阶马尔可夫链。P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1} = P{Xn=in|
Xn-2=in-2，Xn-1=in-1}。

高阶马尔可夫链
higher-order Markov chain
若在特定情况下，系统在时间t的状态与其在时间t-N,…,t-1(N>2)的状态均相关，则该系统构成一个离散的高阶马尔可夫链。P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1} = P{Xn=in|
Xn-N=in-N，…，Xn-1=in-1}。

最大似然估计量
maximum-likelihood estimator
最大似然估计量是对未知参数的一个估计值，使获得当前样本的可能性最大。

信息论
information theory
关于信息的本质和传输规律的科学理论。它是研究信息的计量、发送、传递、交换、接收和储存的一门新兴学科。

消息源
message source
消息源用来发出某个消息或关于某个消息的状态。

语言羡余
language redundancy
原为信息论术语，现用来分析造成语言学中对立的各种特征。一个特征（语音的、语法的等）如果为识别一个语言单位所不必出现的，就是羡余的。不被认为是羡余的特征是区
别性特征。

方差
variance
设X为一可积随机变量，则随机变量(X-EX)2的期望E(X-EX)2称为X的方差。

统计分布
statistical distribution
对随机变量取值的估计，以显示其发生的观察或理论频率。

绝对频率
absolute frequency
在给定统计范畴内的观察数目。

词长分布
distribution of word length
单词长度（即组成单词的单字个数）的概率分布。

离散分布
discrete distribution
随机变量均取离散值的分布。

单词概率
word probability
单词出现的概率分布，即一个单词出现的可能性。

单词类型复现率
repeat rate of word type
某个词型在真实文本中的重复出现比率。

复现率估计
estimation of repeat rate
某些统计特征量重复出现的概率估计。

语言多样性
linguistic diversity
世界上各个国家和民族在语言文化上的差异（包括词语，发音，语法等），称为语言多样性。

词汇容量
size of vocabulary
词汇容量是指一个系统所能处理的词汇总数。

词汇集中度
vocabulary concentration
词汇在文本中集中出现的频度。

词汇差异度
vocabulary diversity
词汇在形态、语义、句法功能等方面上的差异性。

总体样本
population sample
通常把研究对象的全体成为总体样本。

相对频度
relative frequency
绝对频度和数据点总数的比率。

齐普夫假设
Zipf's hypothesis
该假设的描述是：由于单词（或事件）出现的概率通常是开始较高，然后逐渐减小，因此只有少部分单词（或事件）是经常出现的，而大多数单词（或事件）很少出现。

统计推断
statistical inference
根据对样本信息的统计而进行推断或做出结论的过程。

期望值
expectation value
又称均值，是随机变量按其取值概率的加权平均，表征其概率分布的中心位置。

分布函数
distribution function
设随机变量X取值小于实数x的可能性。即，设X为(Ω,F,Ρ)上的随机变量，对任一实数x，定义
F(x)=P(X?x)=P(X?(-￥,x])，则称F(x)为X的分布函数。

语言年代学
glottochronology
根据核心词汇在发展中遗留下来的百分比计算语言发展年代和亲属关系的一种科学方法。它主要建立在语言中核心词汇按恒定比率（第１０００年后平均保留约８１％）发展变
化的假设基础上，可用于根据亲属语言（后人发展应用于方言）中共有的同源词百分比来推算它们从原始母语中分化出来的年代及亲缘关系的远近，因而可用于测定同源民族分
离的年代和关系的亲疏。

词汇分化
lexical divergence
词汇分化是这样一种语言现象，即一个语言中的主动词在翻译成另一个语言时却使用了意义不同的另一个动词。例如，英语句子 “They run into the room.” 其北印度语翻译
为“woye daurte huye kamre mein ghus gaye.” 这里，英语句子的主动词是“run”（跑），北印度语句子中的主动词是 “ghus” (进入)，而“run”的意思仅作为一个分词
在句中出现。

样本容量
sample size
按一定规则从总体中抽取若干个个体，这些个体称之为样本，样本中所含个体的数目称为样本容量。

抽样
sampling
按照一定规则从总体中抽取样本的过程。对于有限总体，可分为有放回抽样和无放回抽样。

样本频度
sample frequency
单位时间（或距离）内抽取样本数据（或获得测量数据）的次数。

文本检索
text retrieval
根据用户提出的查询，在文本库中寻找相关文本的过程。

跨语言信息检索
cross-language information retrieval
在信息检索中，如果用户的提问用一种语言表示，而文本库中的文本用另外一种语言表示，这样的信息检索过程称为跨语言信息检索。

信息过滤
information filtering
根据某些特定的要求，截流或删除互联网某些敏感信息的过程。

问答系统
question answering system
系统根据用户的自然语言提问，从大规模文本库中提取相关信息并用自然语言给出精确的答案，这种系统称为问答系统。

召回率
recall
是信息检索等领域的一种系统性能测试指标，指检索到的正确样例数与实际存在的正确样例数总数的比值。

F值
F-measure
是信息检索等领域的一种系统性能测试指标，是综合召回率和精确率的一种系统评价指标。

搜索引擎
search engine
是一个对互联网上的信息资源进行搜集整理供用户查询的系统，它包括信息搜集、信息整理和用户查询三部分。

文本校对
text checking
利用自然语言处理技术，对文本进行核对和校正以检测文本的拼写、句法等是否正确的过程。

词网
WordNet
WordNet是Princeton大学认知科学实验室开发的一个在线的英语词汇参考系统，它的设计基于心理语言学中的人类词汇记忆理论（psycholinguistic theories of human lexical
memory）。WordNet将英语的名词、动词、形容词和副词组织成同义词集，每个同义词集表示一个词汇概念。同义词集之间用各种不同的关系联系起来。

知网
HowNet
是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。由董振东教授领导的研究组提出和建
立。

言语识别
①speech recognition②automatic speech
recognition ③ASR
运用电子技术分析和识别人类言语并作出适当响应的过程。通常是用计算机把口语的语音形式自动转换成文本形式。
自动言语识别、语
音识别
言语合成
speech synthesis
运用电子技术产生能让人听得懂的人工言语的过程。通常是用计算机把文本转换成语音。这一过程使用的设备称作言语合成器（speech synthesizer）。
语音合成
n元模型
N-gram
是一种概率模型，其中规定当前元素（如：词，词性等）出现的概率只同它前面出现的N-1个元素有关。N=1时就是一元模型(unigram)，N=2时就是二元模型(bigram)。

脚本
script
是描述人类某种活动的事件序列，是已成陈规的事件序列的知识。

Brown语料库
Brown Corpus
始建于20世纪60年代初，由W.N.Francis和H.Kucera发起，在美国Brown大学建立了世界上第一个根据系统性原则采集样本的标准语料库，规模为100万词次，主要代表了当
代美国英语。

LOB语料库
LOB Corpus
始建于20世纪70年代初，由英国Lancaster大学的著名语言学家G.eoffrey和倡议，由挪威Oslo大学的Stig Johansson主持完成，最后装在挪威Bergen大学挪威人文科学计
算中心（LOB语料库也因此以三家单位的首字母缩写得名）。规模与Brown语料库相当，主要代表了当代英国英语。

COBUILD语料库
COBUILD Corpus
是80年代第一个以词典编撰为应用背景构建的大规模语料库，是英国Birmingham大学与Collins出版社合作的结果，规模达到2000万词级。语料库名称也是两家单位的首字母
缩写（Collins Birmingham University International Language Database）。

Upenn树库
Upenn treebank
美国Pennsylvania大学80年代末90年代初开始发起了树库计划，对百万词级的语料进行句法结构标注。该项目由Pennsylvania大学计算机系M.Marcus主持，到1993年，完
成了对近300万英语词的句子的基本法结构标注。

文-语转换系统
text to speech system
将文本形式转换为语音形式的语音合成系统，称为“文-语转换系统”。这一系统的运作过程是，先对一输入文本作形态和音系分析，分析时考虑到规则和不规则形式这类问题。
然后由字母-语音转换规则和其他一些专门特征生成词平面上的音系表征式，后者再转换成语音表征式（容纳连续言语的特征，包括句子韵律）。合成的实现靠一个基于规则的系
统，输出由一个终端模拟合成器提供。

语音清晰度
diction
一个人说话时的发音清晰程度。

倒谱平滑
cepstral smoothing
一种处理语图的方法，它消除嗓音纹理，得到一条突出主要频带的平滑曲线。

模数转换器
①analog-to-digital converter ②ADC
一个变换模拟信号为数字信号的电子器件。它通过很高的频率对模拟信号采样完成模数转换。根据采样定律，如果信号采用频率不低于两倍的信号最高频分量马厩不会有信息丢
失，原始信号能够由采样值精确地重建。

模拟信号
analog signal
一个连续变化的波形，因此它从一个值变到另一个值时经过其中的一切数值。通常的声波是一个模拟信号。

信号
signal
在利用声波或电子技术进行信息的传播和重建过程中，指有意要传输和重建的信息。它与伴随的噪声相对立。

Longman语料库
Longman corpus
Longman语料库建于80年代，由三个大语料库构成，规模达到5000万词级。包括LLELC语料库（Longman/Lancaster英语语料库）、LSC语料库（Longman口语语料库）和LCLE
（Longman英语学习语料库）。该语料库的主要目标之一是编撰英语学习词典，为外国人学习英语服务。

ACL/DCI语料库
ACL/DCI corpus
ACL/DCI是由美国计算语言学会（The Association for Computational Linguistics，简称ACL）倡议发起的语料库项目，收集语料范围相当广泛，包括华尔街日报、Collins
英语词典、Brown语料库、Pennsylvania大学开发的树库，以及一些双语和多语文本等。既有标注的语料，也有未标注的生语料。ACL/DCI最初构建语料库时，制定了语料文件
的格式标准，所有收集的语料文本都用SGML语言进行描述，语料标注则依照TEI（Text Encoding Initiative）标准进行，为语料库在不同计算机环境下进行数据交换奠定了基
础。

双语语料库
bilingual corpus
包含两种语言文本的语料库，可以分为平行语料库（Parallel Corpus）和比较语料库（Comparable Corpus）两种类型。其中，平行语料库指的是语料库中的文本构成译文关系，
根据标注层次可以细分为：文本级对齐平行语料库、段落级对齐平行语料库、句子级对齐平行语料库、词语级对齐平行语料库等；比较语料库指的是将表述同样内容的不同语言
文本收集在一起形成的语料库，这些不同语言文本之间并不构成翻译关系。

基于实例的机器翻译
example-based machine translation
以双语对照的翻译实例库作为主要知识源的机器翻译方法。实例库保存大量源语言句子和该句对应的译文。每当输入一个源语言句子S时，系统利用S和实例库中的源语句子进
行比较，找出其中和S最为相似的句子S’，并模拟S’的译文T’生成S的译文T，然后输出。

基于规则的机器翻译
rule-based machine translation
以表达语言学知识的符号系统——规则系统为主要知识源的机器翻译方法。翻译过程在规则的驱动下完成。

基于统计的机器翻译
statistical machine translation
建立在统计语言模型基础上的机器翻译方法。这种方法认为，机器翻译问题是一个噪声信道问题，一种语言S经过了一个噪声信道而发生了变形，从而在信道的另一端呈现为另
外一种语言T，翻译实际上就是如何根据观察到的T，恢复最为可能的S的问题。用Pr(S|T)表示S翻译成T的概率，那么翻译问题就成为：在观察到T的前提下，寻找一个S，
使得Pr(S|T)取最大值。即，利用贝叶斯公式，有，因Pr(T)和S无关，故有。其中Pr(S)称为语言S的语言模型，Pr(T|S)称为S到T的翻译模型。

词频索引
word frequency index
为改进单词索引，同时采用非用词表和用词词表两种办法建立索引。其处理过程是，首先进行词频统计，然后用非用词表删除非用词，去掉高频词，建立用词词表，从而抽取用
词，按字母排序生成词频索引。

概念描述
concept description
使用描述符描述概念，在研究计算机的归纳学习时,大量的研究是让学习系统具有从给定的例子或观察出发，使用一些转换规则，最后得到某个概念，无论是初始的例子还是经规
则转换得到的中间结果以及最终的概念，都需要一定的符号表示，这些符号就是描述符。
概念描写
语义对立
semantic opposition
概念上的对立在词汇意义上的反映，包括义位的对立和义素的对立，前者如“冷”与“热”，“大”与“小”，后者如“简”与“牍”，“颈”与“项”。

语义范围
semantic coverage
某一词语的语义能够在一定范围内对其它词语产生词义影响，如“我们也去北京”中的“我们”和“北京”均在“也”的语义范围之内，都有可能称为该句的信息中心，产生歧
义的表达。

语义连续统
semantic continuum
语义的连续性序列关系，如“冷”、“凉”、“温”和“热”这四个概念并没有一个离散的标准，而是一个连续的序列。

故事树
story tree
用来描述故事语法的树结构图，包括背景和各种情节，主要用于研究记忆和语篇理解。

焦点
focus
话语的关键部分，是交际过程中受话者注意力的所在，发话者详细描述的部分。

长时记忆
long term memory
1.理解一个句子所需的各种背景知识，这些知识是人们在长期的实践中逐渐积累起来的。2.短期记忆神经元经过反复刺激后，由于反馈作用存在，致使阀值下降至0，从而成为
长期记忆。

自动记忆
automatic memory
系统自动地、自主地把相关信息保存起来。

拒识率
rejection rate
被拒识的输入模式的数量占被识别的所有输入模式的总数的百分比，是衡量模式识别系统性能的重要指标。

误识率
error rate
被误识的输入模式的数量占被识别的所有输入模式的总数的百分比，是衡量模式识别系统性能的重要指标。

聚类
clustering
把相关对象聚成集合体，用相似性尺度来衡量事物之间的亲疏程度，并以此来分类。

模式
pattern
用计算机或其他装置处理的物体、图象、语音、字符等信息形式。

子模式
subpattern
模式的组成部分，用一些比较简单的子模式组成多级结构来描述一个复杂的模式。

聚类中心
cluster centre
在聚类分析中的一个特殊样本，用来代表某一类，其他样本通过与它计算距离来决定是否属于该类。
群分析
模糊聚类
fuzzy clustering
利用模糊集理论进行聚类分析的过程。根据研究对象本身的属性来构造模糊矩阵，在此基础上根据一定的隶属度来确定分类关系。

模糊集
fuzzy set
一个集合，设X为全域，若A为X上取值[0，1]的一个函数，则A为模糊集。

参量学习
parameter learning
机器学习的一种方法，指学习程序通过对事物的识别经验，对其判别函数的多项式系数进行修改，从而提高其识别率。这种学习的结果体现在参量的修改上，故称参量学习。

先验概率
prior probability
根据训练集样本直接得出的概率，是后验概率的基础。

简单聚类
simple clustering
一种聚类分析，把所有样本直接按属于或不属于某类进行聚类。

特征向量
feature vector
在模式识别的特征空间中，每一个样本对应于一个向量，这个向量称作特征向量，特征向量具有若干个特征分量，表示被抽样物体的若干个特征。
特征矢量
逻辑连词
logical connectives
复合命题中用来连接两个命题，表达某种逻辑关系的联结词。
逻辑联结词
合取
conjunction
设P，Q为两命题，复合命题“P并且Q”称作P与Q的合取式，记作P∧Q，P与Q的合取表达的逻辑关系是P与Q两个命题同时成立。因而，自然语言中常用的联结词：和，不
仅……而且……，虽然……但是……等，都可以符号化为∧。

析取
disjunction
设P，Q为两命题，复合命题“P或Q”称作P与Q的析取式，记作P∨Q，自然语言中的“或”具有二义性，有时表示相容性“或”，有时表示不相容性“或”。

复杂特征
complex features
对一个语言单位具有的语音、语法、语义、语用等各种必要信息所进行的多重性质的描述。

元语言
metalanguage
描述研究对象时使用的语言。可以是自然语言，也可以是人工语言。

多义性
polysemy
一个词项具有多种不同的意义。
一词多义现象
单义性
monosemy
一个词项只有一个意义。

歧义
ambiguity
语言的不同层面上存在的一对多的现象。

歧义排除
disambiguity
对语言不同层面上存在的一对多的现象，运用一定方法，选择其中一种最具可能的解释。
消歧、排歧
同形异义词
homograph
书写形式相同而意义不同的词。

语素变体
allomorph
同一语素在不同环境中的不同形式。
词素变体
模式匹配
pattern matching
将输入模式与样本相匹配的过程。

宽度优先策略
breadth-first strategy
在分析句子的过程中，每一个阶段都要先把处于同一平面上的所有节点可能具有的组合都产生出来，然后再做进一步归约的搜索方法。
广度优先策略
深度优先策略
depth-first strategy
在分析句子的过程中，总是循着一条路径，做垂直扩展，一直走到底，不到终了不回头的搜索方法。

语言工程
language engineering
开发、研制计算机识别、理解、生成人类语言系统的技术和领域。

成分结构
constutuent structure
词汇功能语法术语。是词汇功能语法中句法描写的一个平面，指语言的外部结构，表示句子成分的先后次序，是由一组短语结构规则映射而形成的树型结构。

功能结构
functional structure
词汇功能语法术语。是词汇功能语法中句法描写的一个平面，指语言的内部结构，表述各语言成分之间的关系，代表句子的语义。

功能描述
functional description
词汇功能语法术语。是成分结构向功能结构转换的中介，由一组等式构成，具有形式化的特点，可以很容易地进行计算机编码。

功能等式
functional equation
词汇功能语法术语。由它规定了单词所承载的语法信息的组合方法，在经过有穷步骤的运算之后，能够得到这些语法信息的最终组合结果——功能结构。

句法树
syntactic tree
用短语结构语法分析句子时，从起始符开始，运用短语结构规则一步步推导出句子的符号序列，描述这个推导过程的树形图叫句法树。

剖析树
parsing tree
描述计算机自动识别句子的各个句法单位以及它们之间相互关系的过程的树形图。

层级理论
stratificational theory
动词谓语与角色在语义组合上存在的先后次序和谓语动词一致关系标记的语法化序列存在的先后次序，层次高的谓语动词的组合先于层次低的谓语动词的组合。

带注释树
annotated tree
节点与节点之间的边上带有标记的树形图。

自顶向下剖析
top-down parsing
根据重写规则，从初始符号开始，自顶向下地进行搜索，构造推导树，一直分析到句子的结尾位置。这样的方法叫做自顶向下剖析法。
自顶向下分析
自底向上剖析
bottom-up parsing
从输入句子的句首开始顺次取词向前移进（shift）并根据文法的重写规则逐级向上归约（reduce），直到构造出表示句子结构的整个推导树为止。这样的方法叫做自底向上分析
法。
自底向上分析
翻译工作站
translator's workstation
运用机器辅助系统为经常进行翻译和外语写作的人员提供一个半自动工作环境，以帮助翻译者提高工作效率。

翻译记忆
translation memory
通过自动记忆并使用先前人工翻译结果的方式来构建语言翻译知识系统的机器翻译方法。

人助机译
human aided machine translation
通过人在译前、译后参与编辑的方法或以人机交互方式参与的方法来提高译文质量的机器翻译。

确定性算法
deterministic algorithm
在分析过程中不需要进行回溯或并行，每一局部分析都将成为最终结果的分析方法。
等待观察析句法
（Wait and See
Parsing）
非确定性算法
nondeterministic algorithm
在分析过程中面对多种可能时需要进行回溯或并行、并不是每一局部分析都将成为最终结果的分析方法。

基于模式句法分析
pattern-based parsing
通过建立句子模型，进而采用模式匹配对句子结构进行分析的方法。

试探性句法分析
heuristic parsing
以试探性规则或过程的知识作分析向导的一种并行分析。
启发式句法分析
数据驱动句法分析
data-driven parser
从具体的数据出发，根据数据所提供的信息来控制操作流程的分析方法。

活性线图句法分析
active chart parser
基于活性线图的、自底向上和自顶向下相结合的句法分析。

词专家句法分析程序
word expert parser
根据单词之间的关系分析概念的一种自然语言理解的分析程序。在这样的程序中，语言学知识主要集中在单词本身，并把单词看作与解释过程（the process of interpretation）
相关的语言学单位。

通用句法处理程序
general syntactic processor
美国计算语言学家Kaplan于1973年提出的用于形式描写、分析和生成自然语言符号串的系统，其基本数据结构是线图。简称GSP。
通用句法处理器
依尔利算法
Earley algorithm
美国计算语言学家Early于1970年提出的具有预测、扫描和完成三种功能的句法分析算法。

CYK算法
Cocke-Younger-Kasami algorithm
基于非活性线图的、以乔姆斯基范式为描述对象的并行句法分析算法。CYK算法是Cocke-Younger-Kasami算法的缩写。

LR算法
LR algorithm
由克努特（Knuth）于1965年提出的一种自底向上分析方法。根据分析栈的内容以及向前看k个输入串的符号决定分析动作的方法称为LR（k）算法。LR算法是k取不同值时的
LR（k）算法的总称。

靠左推导
left most derivation
推导句子时，总是扩展重写规则右部（RHS）的第一个非终极符号的推导。
最左推导
靠右推导
right most derivation
推导句子时，总是扩展重写规则右部（RHS）的最后一个非终极符号的推导。
最右推导
有限状态转移网络
finite state transition network
是一种自动形态分析器。它由Q,V,T三部分组成：FSTN=（Q,V,T），其中 Q表示状态的有限的非空集合，V表示语言符号的有限的非空集合，T表示转移函数。简称FSTN。

递归转移网络
recursive transition network
在有限状态转移网络的基础上，根据语言符号的递归性而提出的一种识别器。简称RTN。它由一个或多个网络组成，其弧标识词、词类或语法类，其中语法类是另一个网络的名
称，这造成了可递归的调用条件。

扩充转移网络
augmented transition network
按语法类组合在一起的结构模式，是一个由一个标号、一组状态和结点组成的网络。简称ATN。在RTN上增加一个寄存器，用于存放一系列的结果或全局状态；在其弧上附加一
组测试和一组设置寄存器值的动作。

控制结构
control structure
在语言中，表示控制流程的一种句法模式。常用的控制结构有 if…then…else, while…do, repeat…until, and case.

重写规则
rewriting rules
生成语法的一类规则，形式为X→Y。箭头左边的符号代表单一的组构成分；箭头右边的符号代表一个或多个成分的语符列；箭头指示用Y取代（或“扩展”）X。这类规则习惯
上读作“重写X为Y”。
产生式
产生式
production
运用符号变换规则“A→aA”来表示在某种条件下做某种动作的知识表达方法。

巴科斯-诺尔范式
Backus-Naur form (BNF)
以美国人巴科斯和丹麦人诺尔的名字命名的一种形式化的语法表示方法。它是一种典型的元语言，可以严格地表示语法规则，且描述的文法是上下文无关文法。

文摘
abstract
文献的摘要。摘要又称概要、内容提要。摘要是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文。摘要应具有独立性和自明性，并且
拥有与文献同等量的主要信息，即不阅读全文，就能获得必要的信息。

属性
attribute
指一个事物所具有的不可缺少的性质。

属性关系
attribute relation
指一个事物的各属性之间的内在联系。

自动标引
automatic indexing
使用计算机自动对文献赋予检索标识的技术。

分类标引
classed indexing
对文献按类别进行索引的技术。

组配标引
coordinate indexing
在主题标引过程中，将两个或两个以上的主题词按照一定的逻辑关系加以组织以表达文献主题的技术，叫做组配标引。组配标引是主题标引中准确揭示文献主题的一种基本的标
引方法。

规范词表
controlled term list
列出首选的或允许使用的词的词表。

自由关键词
free keywords
反映一篇论文主题中新技术、新学科并且尚未被主题词表收录的、新产生的名词术语或在叙词表中找不到的词。

类属词
generic word
类属词是表示概念中类属关系的词。又称上下位词。类属词表示的概念必须是具有上下级层次的类属关系，既不能处在同等层次，也不能跨越几个层次，而必须是紧紧相连的上
下层次。

层级关系
hierarchical relation
是一种语义关系，其中一个概念严格地从属于另一个概念，例如：属种关系。

主次关系
hypotaxis
传统语法分析的术语,指用从属连词连接的成分之间的关系。

文献编号
identification number
根据文献应该归入的类目确定的文献的代码。

识别号
identifying number
是某一信息资源的数字标识。一般情况下，一个特定的信息资源只有一个识别号，而一个识别号只代表一个特定的信息资源。

标识符
identifier
用于标识某个数据资源的标记，一般由字母和阿拉伯数字组成。

索引
index
是记录和指示文献事项或单元知识，按一定系统组织起来的检索工具。具体地说就是将图书、报刊等文献中的各种事物的名称，如书名或篇名、人名、地名等，分别摘录出来，
注明其出处页码，按字顺或分类排列而成的一种检索工具。

标引
indexing
所谓标引，系指对文献和某些具有检索意义的特征如：研究对象，处理方法和实验设备等进行主题分析，并利用主题词表给出主题检索标识的过程。标引是检索的前提，没有正
确的标引，也就不可能有正确的检索。

主题词
Subject Word
主题词一般是指从各学科的自然语言词汇中选出来、经过规范化的词，主要用作文献标示主题和检索之用。每篇文章的主题词可以从论文的题目或摘要中最能反映文章主题内容
的词中选取，一般可以提出３～７个。

关键词
keyword
关键词是反映文章主题内容但未经规范化处理的名词和术语。

登录词
posting term
收录在计算机系统的词表中的词。

登录
record
列入;记载

加权标引
weighted indexing
采取统计文献的检索方法，通过给最能体现文献内容词以较高的权值来进行标引的方法。

数据库
data bank
长期储存在计算机内、按一定的数据模型组织、可共享的数据集合。

数据压缩
data packaging
采用特殊的编码方式来保存数据，使数据占用的存储空间比较少，这种技术称为数据压缩。

相关分析
correlation analysis
分析一个独立变量的变化对另一个相关变量的变化的影响程度的过程。

相关索引
correlative index
可引导读者找到更多的相关资料的索引。

查准率
precision
是信息检索等领域的一种系统性能测试指标，指检索到的正确的样例数与检索到的样例总数的比值。

查询
query
在检索系统中，用户对检索内容的提问。

主题检索
subject retrieval
主题检索是以某一主题为匹配原则来查找相关文章的信息检索方式，它是一种方便快捷的检索方式，它利用主题词进行检索，可以快速、准确地检索到所需要的文献，查准率高。

二叉树
binary tree
每个结点至多只有两棵子树的树结构。

子结点
child
树结构中当前结点的各个子树的根称为当前结点的子结点。

父结点
father
树结构中当前结点的上位结点称为当前结点的父结点。

兄弟结点
sibling
树结构中具有同一个父结点的结点称为兄弟结点。

子树
subtree
树结构中以某个结点n的子结点为根结点的树称为结点n的子树。

顶点
vertex
是数学图形中一种特殊的点，位置往往在两条或多条线或边的交接处。

布尔运算符
Boolean operator
在布尔代数中进行运算的符号，几个最基本的布尔运算是：与运算、或运算、非运算、补运算等。

气泡排序
bubble sort
排序方法的一种。其基本思想是逐次进行相邻两个记录的比较，不满足排序要求的则进行交换。

中文字符集
Chinese character set
中文字形的集合。主要作用是为汉字输入设备提供汉字的字形数据。

0型文法
type 0 grammar
0型文法的规则形如：u::=v，其中u,v为符号串，且u非空。0型文法的相应语言称为0型语言，又称为递归可枚举集合。0型语言是不可判定的。

1型文法
type 1 grammar
1型文法的规则形如：xUy::=xuy，其中U为非终结符号，x,y,u为符号串，且u非空。1型文法又称为上下文相关文法。1型文法是可判定的，但是现在没有找到有效的判定方法。

2型文法
type 2 grammar
2型文法的规则形如：U::=u，其中U是非终结符号，u是符号串。2型文法又称为上下文无关文法。一般的程序设计语言的语法都使用2型文法描述。2型文法是可判定的，且有
有效的判定方法。

3型文法
type 3 grammar
文法规则的规则形如：U::=T或者U::=WT，其中U，W是非终结符号，T是终结符号。3型文法又称为正则文法，其语言也称为正则语言。

标记图
labelled graph
标记图是在每条边上加注了标记的图。

标准形式
standard form
对重复性事物和概念所做的统一规定的一种表达方式。

产生式语言
production language
是一种常用的知识表示语言。描述一个(或一些)事件的存在导致另一事件的产生。用符号方法表述如下：
if A then B 或A?→?B
其中A称为前件；B称为后件；→表示由A为真导致B为真。

传递性
transitivity
是关系的一种属性。如果关系R 有传递性，若元素a和b之间有关系R，元素b和c之间有关系R，则推断出元素a和c之间有关系R。在关系图中，有从a到b的弧，有从b
到c的弧，则有从a到c的弧。

词性
part of speech
词的语法属性。

词型
type
词汇研究测量词汇密度时使用的术语。型-例子比例（type-token ratio）是在一个样篇样品中不同的词（型（type））的全部数目与实际出现的词（例（token））的全部数目
的比率。

词例
token
词在文本中表现出的实例。词汇研究测量词汇密度时使用的术语。型-例子比例（type-token ratio）是在一个样篇样品中不同的词（型（type））的全部数目与实际出现的词（例
（token））的全部数目的比率。

词形式
word form
一个单词的发音和原始拼写形式。一般单词的变形形式是由词干和附着在其上的一系列变形词缀组成的。

等价关系
equivalence relation
设R为定义在集合A上的一个关系，若R是自反的、对称的和传递的，则R为等价关系。

递归定义
recursive definition
为了描述问题的某一状态，必须用到它的上一状态，而描述上一状态，又必须用到它的上一状态，……。这种用自已来定义自己的方法，称为递归定义。

短语
phrase
语法分析术语，指单一的结构成分，一般包含不止一个词而又没有一般小句具有的主语-谓语结构。

对称关系
symmetric relation
对于集合A上的某种关系R，如果A中元素a1和A中元素a2有关系R，则a2与a1也有关系R，那么，集合A上的关系R是对称关系。

翻译程序
translator
将源语言翻译为目标语言的程序。

翻译模式
translation scheme
进行机器翻译时所采用的方式。

组合
compositionality
认为语言是由较小单位构成较大单位的一种观点。

基本运算
elementary operation
加、减、乘、除和取整运算中的一种。

链
chain
链是一种数据类型，数据对象实例的每个元素都放在单元或节点中进行描述，每个节点中有包括了与该节点相关的其他节点的位置信息。

链长
length of a chain
链表中所包含的单元或节点的个数。

流程图
flowchart
应用箭头和各种形状的方框表示控制的流程或事件进展的过程，使其直观、易懂的一种图形形式。

命题演算
proposition calculus
由命题与命题联结词构成的更复杂命题，以及这样构成的命题间的推理关系的运算。

模式识别
pattern recognition
所谓模式是指人认识具体事物或现象时，按照规定的相似性抽象出来的分类。所谓模式识别是指按模式抽象对事物或现象进行分类，辨识类的特征而做

posted @ 2006-03-06 17:06 Thunder 阅读(1977) | 评论 (0) | 编辑收藏

CString,string,char*的综合比较（zz）

CString,string,char*的综合比较

(一) 概述

string和CString均是字符串模板类，string为标准模板类（STL）定义的字符串类，已经纳入C++标准之中；

CString（typedef CStringT > CString）为Visual C++中最常用的字符串类，继承自CSimpleStringT类，主要应用在MFC和ATL编程中，主要数据类型有char(应用于ANSI)，wchar_t(unicode)，TCHAR(ANSI与unicode均可)；

char*为C编程中最常用的字符串指针，一般以'\0'为结束标志；

(二) 构造

string是方便的，可以从几乎所有的字符串构造而来，包括CString和char*；

CString次之，可以从基本的一些字符串变量构造而来，包括char*等；

char*没有构造函数，仅可以赋值；

举例：

char* psz = “joise”;

CString cstr( psz );

string str( cstr );

(三) 运算符重载

a) operator=

string是最方便的，几乎可以直接用所有的字符串赋值，包括CString和char*；

CString次之，可以直接用些基本的字符串赋值，包括char*等；

char*只能由指针赋值，并且是极危险的操作，建议使用strcpy或者memcpy，而且char*在声明的时候如未赋初值建议先设为NULL，以避免野指针，令你抓狂；

举例：

char *psz = NULL;

psz = new char[10]; //当然，以上的直接写成char *psz = new char[10];也是一样

memset( psz, 0, 10 );

strcpy( psz, “joise” );

CString cstr;

cstr = psz;

string str;

str = psz;

str = cstr;

delete []psz;

b) operator+

string与CString差不多，可以直接与char*进行加法，但不可以相互使用+运算符，即string str = str + cstr是非法的，须转换成char*；

char*没有+运算，只能使用strcat把两个指针连在一起；

举例：

char* psz = “joise”;

CString cstr = psz;

cstr = cstr + psz;

string str = psz;

str = str + str + psz;

strcat( psz, psz );

strcat( psz, cstr );//合法

strcat( psz, str );//非法，由此可见，CString可自动转换为const char*，而string不行

c) operator +=

string是最强大的，几乎可以与所有的字符串变量+=，包括CString和char*；

CString次之，可以与基本的一些字符串变量进行+=而来，包括char*等；

char*没有+=运算符，只能使用strcat把两个指针连在一起；

d) operator[]

CString最好，当越界时会抛出断言异常；

string与char*下标越界结果未定义；

举例：

char* psz = “joise”;

CString cstr = psz;

cout << cstr[8];

string str = psz;

cout << str[8];

cout << psz[8];

e) operator== 、operator!=、operator> 、operator< 、operator>= 、perator<=

CString与string之间不可以进行比较，但均可以与char*进行比较，并且比较的是值，而不是地址；

cout << ( psz == cstr );

cout << ( psz == str );

cout << ( str == psz );

cout << ( cstr == psz );//以上代码返回均为1

(四) 常用算法

a) 查找

作用 char* string CString
查找指定值 strchr
strstr
strrstr
strspn find Find
第一个匹配的值 fild_first_of FindOneOf 从后面开始查找 ReserveFind 指定匹配方式 find_if

注：find_if中是把范围内的值挨个代入匹配函数直至返回true

b) 比较

作用 char* string CString 查找指定值(区分大小写) strcmp
strncmp
strcoll
_strncoll operator<
operator>
operator<=
operator>=
operator==
operator!= Collate

Compare 查找指定值(不区分大小写) _stricmp
_strnicmp
_stricoll
_strnicoll CollateNoCase

CompareNoCas

注：返回值如果<0则前面的值小于后面的值，反之亦然

c) 替换

作用 char* string CString 查找指定值 _strset
_strnset
replace
replace_copy
replace_copy_if
replace_if Replace

d) 插入

作用 char* string CString 查找指定值 insert Insert

e) 增加作用 char* string CString 动态增加值 strcat push

append Append

AppendChar

AppendFormat

f) 截取

作用 char* string CString 得到部分值用下标操作 substr Left

Mid

Right

Truncate

g) 移除

作用 char* string CString 移除部份值 remove Remove 移除空白值 RemoveBlanks

注：此为ATL提供，非C函数 remove_if Trim

TrimLeft

TrimRig

h) 转换大小写

作用 char* string CString 转换大小写 _strlwr

_strupr MakeLower

MakeUpper

i) 与其他类型转换

作用 char* string CString 转化为数字 atoi

atod

atof Format 转化为char* c_str
GetBuffer

GetBufferSetLen

j) 格式化

作用 char* string CString 格式化 sprintf Format

k) 得到长度

作用 char* string CString
得到长度 strlen length GetLength 得到大小 size GetAllocLength

l) 判断为空

作用 char* string CString 判断是否为空判断是否==NULL或者第一个字符是否是'\0' empty IsEmpty

m) 重定义大小

作用 char* string CString 重定义大小 realloc
new resize GetBufferSetLength

n) 释放资源

作用 char* string CString 释放 free

delete (delete[]) ReleaseBuffer

ReleaseBufferSetLength

(五) 安全性>

CString > string > char*；

(六) 灵活性

CString > string >char*；

(七) 可移植性

char* = string > CString

posted @ 2006-02-21 16:46 Thunder 阅读(9367) | 评论 (1) | 编辑收藏

Nelder-Mead(simplex,“单纯形”)算法

求多维函数极值的一种算法，由Nelder和Mead提出，又叫单纯形算法，但和线性规划中的单纯形算法是不同的，由于未利用任何求导运算，算法比较简单，但收敛速度较慢，适合变元数不是很多的方程求极值，算法的基本思想如下：
给定n个特征，可以构造一个具有n+1个顶点的单纯形，初始化时需(n+1)*n维矩阵(看成是有n+1个顶点的单纯形) ，矩阵的每一行为n元向量，x0为第一行，xi=x0+r*ei，r为对问题的特征长度大小的估计值，ei为单位向量，x0可初始化为全为1的向量，即认为每个特征权重是相同的，然后选取其余的，在选取过程中，r可以取相同的值也可以取不同的值（r可以看作是对第i个特征权重的调整）。
算法运行过程（以机器翻译中的rerank为例）：
假定BLEU=f(特征的和)，对n+1个顶点（n维向量）分别计算BLEU值（取相反数），然后从中选出BLEU(相反数)最大，次大和最小的三个点，算法每次都是把其中的最大点对应的各权重进行调整，使其变小向最小点靠拢，调整完毕后，计算其对应的BLEU，再从这些BLEU中选出BLEU(相反数)最大，次大和最小的三个点，一直迭代下去，直到最高点到最低点的比率范围合适或达到最大迭代次数为止。
源码：
double famoeb(double x[],vector<double> feat)
{//计算所有特征*权重的和
double y=0.0;
for(int i=0;i<FeatNum;i++)
{
  y+=x[i+1]*feat[i];
}
return y;
}
//单纯形算法
void amoeba(double p[],double y[],int mp,int np,int ndim,double ftol,int& iter)
{
int i,j,ihi,inhi,mpts,nmax=20;
double ypr,yprr,rtol,alpha=1.0;
double beta=0.5;
double gamma=2.0;
int itmax=500;
double pr[21],prr[21],pbar[21];
mpts=ndim+1;
iter=0;
do
{
  int ilo=1;
  if(y[1]>y[2])
  {
   ihi=1;
   inhi=2;
  }
  else
  {
   ihi=2;
   inhi=1;
  }
  for(i=1;i<=mpts;i++)
  {//寻找函数值中的最大，最小和次大值
   if(y[i]<y[ilo])
   {
    ilo=i;
   }
   if(y[i]>y[ihi])
   {
    inhi=ihi;
    ihi=i;
   }
   else
   {
    if(y[i]>y[inhi])
    {
     if(i!=ihi)
     {
      inhi=i;
     }
    }
   }
  }//结束寻找各种函数极值
  rtol=2.0*fabs(y[ihi]-y[ilo])/(fabs(y[ihi])+fabs(y[ilo]));//计算从最高点到最低点的比率范围，如合适则返回
  if(rtol<ftol)
  {
   erase(pbar,prr,pr);
   return;
  }
  if(iter==itmax)//如到了最大的迭代次数，则返回
  {
   cout<<"amoeba exceeding maximum iterations."<<endl;
   return;
  }
  iter=iter+1;//进行下一次迭代
  for(j=1;j<=ndim;j++)
  {
   pbar[j]=0.0;
  }
  for(i=1;i<=mpts;i++)
  {
   if(i!=ihi)
   {
    for(j=1;j<=ndim;j++)
    {
     pbar[j]=pbar[j]+p[(i-1)*np+j];
    }
   }
  }
  for(j=1;j<=ndim;j++)
  {
   pbar[j]=pbar[j]/ndim;
   pr[j]=(1.0+alpha)*pbar[j]-alpha*p[(ihi-1)*np+j];//求反射点
  }
  vector<int> BestNo;
  ChooseOneBest(pr,numSentences,alldata,StartEndIndices,BestNo);
  //开始计算BLEU值
  vector<pairnum> initialScore(N_gram);
  double referenceLength=0.0;//参考翻译总长度
  for(int k=0;k<numSentences;k++)
  {
   int sent=BestNo[k];//当前句子的最好候选翻译的序号
   for(int l=0;l<N_gram;l++)
   {
    initialScore[l].left+=alldata[sent].ngram_data[l].left;
    initialScore[l].right+=alldata[sent].ngram_data[l].right;
   }
   referenceLength+=alldata[sent].closest_length;
  }
  ypr=-BLEU(initialScore,referenceLength);//计算本轮lamda所对应的bleu
  if(ypr<=y[ilo])
  {//得到一个比最佳点稍好的结果，用gamma做一次外推
   for(j=1;j<=ndim;j++)
   {
    prr[j]=gamma*pr[j]+(1.0-gamma)*pbar[j];
   }
   vector<int> BestNo1;
   ChooseOneBest(prr,numSentences,alldata,StartEndIndices,BestNo1);
   //开始计算BLEU值
   vector<pairnum> initialScore1(N_gram);
   double referenceLength1=0.0;//参考翻译总长度
   for(int m=0;m<numSentences;m++)
   {
    int sent=BestNo1[m];//当前句子的最好候选翻译的序号
    for(int n=0;n<N_gram;n++)
    {
     initialScore1[n].left+=alldata[sent].ngram_data[n].left;
     initialScore1[n].right+=alldata[sent].ngram_data[n].right;
    }
    referenceLength1+=alldata[sent].closest_length;
   }
   yprr=-BLEU(initialScore1,referenceLength1);//计算本轮lamda所对应的bleu
   if(yprr<y[ilo])
   {//以扩张点prr作为新的单纯形中的点
    for(j=1;j<=ndim;j++)
    {
     p[(ihi-1)*np+j]=prr[j];
    }
    y[ihi]=yprr;
   }
   else
   {//以反射点pr作为单纯形中得点
    for(j=1;j<=ndim;j++)
    {
     p[(ihi-1)*np+j]=pr[j];
    }
    y[ihi]=ypr;
   }
  }
  else
  {//反射点不如最佳点，同次高点比较
   if(ypr>=y[inhi])
   {//反射点不如次高点，取一个中等程度低的点作一次一维收缩
    if(ypr<y[ihi])
    {
     for(j=1;j<=ndim;j++)
     {
      p[(ihi-1)*np+j]=pr[j];
     }
    }
    y[ihi]=ypr;
    for(j=1;j<=ndim;j++)
    {
     prr[j]=beta*p[(ihi-1)*np+j]+(1.0-beta)*pbar[j];
    }
    vector<int> BestNo2;
    ChooseOneBest(prr,numSentences,alldata,StartEndIndices,BestNo2);
    //开始计算BLEU值
    vector<pairnum> initialScore2(N_gram);
    double referenceLength2=0.0;//参考翻译总长度
    for(int s=0;s<numSentences;s++)
    {
     int sent=BestNo2[s];//当前句子的最好候选翻译的序号
     for(int t=0;t<N_gram;t++)
     {
      initialScore2[t].left+=alldata[sent].ngram_data[t].left;
      initialScore2[t].right+=alldata[sent].ngram_data[t].right;
     }
     referenceLength2+=alldata[sent].closest_length;
    }
    yprr=-BLEU(initialScore2,referenceLength2);//计算本轮lamda所对应的bleu
    if(yprr<y[ihi])
    {//以prr作为新单纯形中的点
     for(j=1;j<=ndim;j++)
     {
      p[(ihi-1)*np+j]=prr[j];
     }
     y[ihi]=yprr;//更新当前最高点出的函数值
    }
    else
    {//单纯性太大，缩小原来的单纯形
     for(i=1;i<=mpts;i++)
     {
      if(i!=ilo)
      {
       for(j=1;j<=ndim;j++)
       {
        pr[j]=0.5*(p[(i-1)*np+j]+p[(ilo-1)*np+j]);
        p[(i-1)*np+j]=pr[j];
       }
       vector<int> BestNo3;
       ChooseOneBest(pr,numSentences,alldata,StartEndIndices,BestNo3);
       //开始计算BLEU值
       vector<pairnum> initialScore3(N_gram);
       double referenceLength3=0.0;//参考翻译总长度
       for(int u=0;u<numSentences;u++)
       {
        int sent=BestNo3[u];//当前句子的最好候选翻译的序号
        for(int v=0;v<N_gram;v++)
        {
         initialScore3[v].left+=alldata[sent].ngram_data[v].left;
         initialScore3[v].right+=alldata[sent].ngram_data[v].right;
        }
        referenceLength3+=alldata[sent].closest_length;
       }
       y[i]=-BLEU(initialScore3,referenceLength3);//计算本轮lamda所对应的bleu
      }
     }
    }
   }
   else
   {//反射点好于次高点，以反射点pr作为单纯形中得点
    for(j=1;j<=ndim;j++)
    {
     p[(ihi-1)*np+j]=pr[j];
    }
    y[ihi]=ypr;
   }
  }
}while(1);
}

posted @ 2006-01-17 13:22 Thunder 阅读(11914) | 评论 (10) | 编辑收藏

编辑距离（Levenshtein Distance）

搞自然语言处理的应该不会对这个概念感到陌生，编辑距离就是用来计算从原串（s）转换到目标串(t)所需要的最少的插入，删除和替换的数目，在NLP中应用比较广泛，如一些评测方法中就用到了（wer,mWer等），同时也常用来计算你对原文本所作的改动数。
编辑距离的算法是首先由俄国科学家Levenshtein提出的，故又叫Levenshtein Distance。
Levenshtein distance (LD) is a measure of the similarity between two strings, which we will refer to as the source string (s) and the target string (t). The distance is the number of deletions, insertions, or substitutions required to transform s into t. For example,

If s is "test" and t is "test", then LD(s,t) = 0, because no transformations are needed. The strings are already identical.
If s is "test" and t is "tent", then LD(s,t) = 1, because one substitution (change "s" to "n") is sufficient to transform s into t.

The greater the Levenshtein distance, the more different the strings are.

Levenshtein distance is named after the Russian scientist Vladimir Levenshtein, who devised the algorithm in 1965. If you can't spell or pronounce Levenshtein, the metric is also sometimes called edit distance.

The Levenshtein distance algorithm has been used in:

Spell checking
Speech recognition
DNA analysis
Plagiarism detection

The Algorithm

Steps

Step Description
1 Set n to be the length of s.
Set m to be the length of t.
If n = 0, return m and exit.
If m = 0, return n and exit.
Construct a matrix containing 0..m rows and 0..n columns.

2 Initialize the first row to 0..n.
Initialize the first column to 0..m.

3 Examine each character of s (i from 1 to n).

4 Examine each character of t (j from 1 to m).

5 If s[i] equals t[j], the cost is 0.
If s[i] doesn't equal t[j], the cost is 1.

6 Set cell d[i,j] of the matrix equal to the minimum of:
a. The cell immediately above plus 1: d[i-1,j] + 1.
b. The cell immediately to the left plus 1: d[i,j-1] + 1.
c. The cell diagonally above and to the left plus the cost: d[i-1,j-1] + cost.

7 After the iteration steps (3, 4, 5, 6) are complete, the distance is found in cell d[n,m].

Step	Description
1	Set n to be the length of s. Set m to be the length of t. If n = 0, return m and exit. If m = 0, return n and exit. Construct a matrix containing 0..m rows and 0..n columns.
2	Initialize the first row to 0..n. Initialize the first column to 0..m.
3	Examine each character of s (i from 1 to n).
4	Examine each character of t (j from 1 to m).
5	If s[i] equals t[j], the cost is 0. If s[i] doesn't equal t[j], the cost is 1.
6	Set cell d[i,j] of the matrix equal to the minimum of: a. The cell immediately above plus 1: d[i-1,j] + 1. b. The cell immediately to the left plus 1: d[i,j-1] + 1. c. The cell diagonally above and to the left plus the cost: d[i-1,j-1] + cost.
7	After the iteration steps (3, 4, 5, 6) are complete, the distance is found in cell d[n,m].

Example

This section shows how the Levenshtein distance is computed when the source string is "GUMBO" and the target string is "GAMBOL".

Steps 1 and 2

G U M B O

0 1 2 3 4 5

G 1

A 2

M 3

B 4

O 5

L 6

Steps 3 to 6 When i = 1

G U M B O

0 1 2 3 4 5

G 1 0

A 2 1

M 3 2

B 4 3

O 5 4

L 6 5

Steps 3 to 6 When i = 2

G U M B O

0 1 2 3 4 5

G 1 0 1

A 2 1 1

M 3 2 2

B 4 3 3

O 5 4 4

L 6 5 5

Steps 3 to 6 When i = 3

G U M B O

0 1 2 3 4 5

G 1 0 1 2

A 2 1 1 2

M 3 2 2 1

B 4 3 3 2

O 5 4 4 3

L 6 5 5 4

Steps 3 to 6 When i = 4

G U M B O

0 1 2 3 4 5

G 1 0 1 2 3

A 2 1 1 2 3

M 3 2 2 1 2

B 4 3 3 2 1

O 5 4 4 3 2

L 6 5 5 4 3

Steps 3 to 6 When i = 5

G U M B O

0 1 2 3 4 5

G 1 0 1 2 3 4

A 2 1 1 2 3 4

M 3 2 2 1 2 3

B 4 3 3 2 1 2

O 5 4 4 3 2 1

L 6 5 5 4 3 2

Step 7

The distance is in the lower right hand corner of the matrix, i.e. 2. This corresponds to our intuitive realization that "GUMBO" can be transformed into "GAMBOL" by substituting "A" for "U" and adding "L" (one substitution and 1 insertion = 2 changes).
由于，我在实际应用中要处理中文，每个汉字在内存中占两个字节，如果单纯用上述程序进行比较，就会有一些微小错误容易让人忽视，如汉字的“啊”和“阿”他们就有一个字节是相同的，一个字节是不同的，利用上述程序统计出的更改数除以2就会出现半个字，所以，对于汉英混合文本统计更改数时，需先判断当前进行比较的两个字是汉字还是西文字母，然后填写一个代价矩阵，在填写时，如果是汉字，要把其相邻的两个字节对应的代价矩阵赋为同一个值，具体做法，请看代码：
LD(const char *s, const char *t)
{
int *d; // pointer to matrix
int n; // length of s
int m; // length of t
int i; // iterates through s
int j; // iterates through t
char s_i1; // ith character of s
char s_i2; // ith character of s
char t_j1; // jth character of t
char t_j2; // jth character of t
int *cost; // cost代价矩阵
int result; // result
int cell; // contents of target cell
int above; // contents of cell immediately above
int left; // contents of cell immediately to left
int diag; // contents of cell immediately above and to left
int sz; // number of cells in matrix

// Step 1

n = strlen (s);
m = strlen (t);
if (n == 0)
{
return m;
}
if (m == 0)
{
return n;
}
sz = (n+1) * (m+1) * sizeof (int);
d = (int *) malloc (sz);
cost = (int *) malloc (sz);

// Step 2

for (i = 0; i <= n; i++)
{
PutAt (d, i, 0, n, i);
}

for (j = 0; j <= m; j++)
{
  PutAt (d, 0, j, n, j);
}
for (int g=0;g<=m;g++)//把代价距离矩阵全部初始化为同一个值，以后可根据此值判断相应的方格是否被赋过值
{
  for(int h=0;h<=n;h++)
  {
   PutAt(cost,h,g,n,2);
  }
}
// Step 3

for (i = 1; i <= n; i++)
{

s_i1 = s[i-1];
s_i2 = s[i];
bool sbd=false;
bool tbd=false;
if(s_i1>=' '&&s_i1<='@'||s_i1>='A'&&s_i1<='~')
{//s为标点符号或其他非中文符号和数字
sbd=true;
}
// Step 4

for (j = 1; j <= m; j++)
{

   tbd=false;
   t_j1 = t[j-1];
   t_j2 = t[j];
   // Step 5
   if(t_j1>=' '&&t_j1<='@'||t_j1>='A'&&t_j1<='~')
   {//t也为标点符号
    tbd=true;
   }
   if(!sbd)
   {//s为汉字
    if(!tbd)
    {//t也为汉字
     if (s_i1 == t_j1&&s_i2 == t_j2)
     {
      bool tt=false;
      int temp=GetAt(cost,i,j,n);
      if(temp==2)
      {
       PutAt(cost,i,j,n,0);
       tt=true;
      }
      if(tt)
      {//因为st全市汉字，所以把代价矩阵他相邻的未赋过值的三个格赋值
       int temp1=GetAt(cost,i+1,j,n);
       if(temp1==2)
       {
        PutAt(cost,i+1,j,n,0);
       }
       int temp2=GetAt(cost,i,j+1,n);
       if(temp2==2)
       {
        PutAt(cost,i,j+1,n,0);
       }
       int temp3=GetAt(cost,i+1,j+1,n);
       if(temp3==2)
       {
        PutAt(cost,i+1,j+1,n,0);
       }
      }
     }
     else
     {
      bool tt=false;
      int temp=GetAt(cost,i,j,n);
      if(temp==2)
      {
       PutAt(cost,i,j,n,1);
       tt=true;
      }
      if(tt)
      {
       int temp1=GetAt(cost,i+1,j,n);
       if(temp1==2)
       {
        PutAt(cost,i+1,j,n,1);
       }
       int temp2=GetAt(cost,i,j+1,n);
       if(temp2==2)
       {
        PutAt(cost,i,j+1,n,1);
       }
       int temp3=GetAt(cost,i+1,j+1,n);
       if(temp3==2)
       {
        PutAt(cost,i+1,j+1,n,1);
       }
      }
     }
    }
    else
    {//t为符号
     bool tt=false;
     int temp=GetAt(cost,i,j,n);
     if(temp==2)
     {
      PutAt(cost,i,j,n,1);
      tt=true;
     }
     if(tt)
     {
      int temp1=GetAt(cost,i+1,j,n);
      if(temp1==2)
      {
       PutAt(cost,i+1,j,n,1);
      }
     }

    }

   }
   else
   {//s为符号
    if(!tbd)
    {//t为汉字
     bool tt=false;
     int temp=GetAt(cost,i,j,n);
     if(temp==2)
     {
      PutAt(cost,i,j,n,1);
      tt=true;
     }
     if(tt)
     {
      int temp1=GetAt(cost,i,j+1,n);
      if(temp1==2)
      {
       PutAt(cost,i,j+1,n,1);
      }
     }
    }
    else
    {
     if(s_i1==t_j1)
     {
      int temp=GetAt(cost,i,j,n);
      if(temp==2)
      {
       PutAt(cost,i,j,n,0);
      }
     }
     else
     {
      int temp=GetAt(cost,i,j,n);
      if(temp==2)
      {
       PutAt(cost,i,j,n,1);
      }
     }
    }

}

// Step 6

   above = GetAt (d,i-1,j, n);
   left = GetAt (d,i, j-1, n);
   diag = GetAt (d, i-1,j-1, n);
   int curcost=GetAt(cost,i,j,n);
   cell = Minimum (above + 1, left + 1, diag + curcost);
   PutAt (d, i, j, n, cell);
  }
}

// Step 7

result = GetAt (d, n, m, n);
free (d);
return result;

}

posted @ 2005-12-27 20:44 Thunder 阅读(12147) | 评论 (13) | 编辑收藏

仅列出标题

The Algorithm

Steps

Example

Steps 1 and 2

Steps 3 to 6 When i = 1

Steps 3 to 6 When i = 2

Steps 3 to 6 When i = 3

Steps 3 to 6 When i = 4

Steps 3 to 6 When i = 5

Step 7

常用链接

留言簿(8)

随笔档案

相册

搜索

最新评论

阅读排行榜

评论排行榜