课程时长:3天
机器翻译Machine Translation、信息检索Information Retrieval、自动文摘Automatic summarization/abstracting、文档分类Document Categorization、问答系统Question-answering system、信息过滤Information filtering、语言教学Language Teaching、文字识别Character Recognition、自动校对Automatic Proofreading、语音识别Speech recognition
① 形式语法:4元组
② 最左推导、最右推导和规范推导
③ 句型与句子
④ 正则文法
⑤ 上下文无关文法CFG
⑥ 上下文有关文法CSG
⑦ 确定的有限自动机DFA
⑧ 不确定的有限自动机NFA
① 国内语料库:汉语现代文学作品语料库、现代汉语语料库、中学语文教材语料库、现代汉语词频统计语料库
② 布朗语料库、LLC口语语料库、朗文语料库、宾州大学语料库、北京大学语料库、台湾中科院平衡语料库、Chinese LDC、LC-STAR项目
③ 抽取词汇、标注词性、拼音、WordNet、知网
④ 同义关系、反义关系、上下位关系、部分关系
① n阶马尔科夫链语言模型
② 隐马尔科夫模型HMM
③ 概率上下文无关文法
④ 概率链接语法
① 有词典切分/无词典切分
② 基于规则分析方法/基于统计方法
③ 最大匹配法(正向、逆向、双向)
④ 最少分词法
⑤ 基于统计模型法的分词方法
① 规则系统、原则系统
② X理论、格理论、管辖理论、θ理论、约束理论、控制理论、界限理论、
③ 功能合一文法FUG
④ 词汇功能语法、广义的短语结构语法、树连接语法、
⑤ 线图分析法:字底向上chart
⑥ 概率上下文无关文法PCFG
① 语义网络:概念关系、事件语义网络表示、事件的语义关系、基于语义网络的推理分析
② 格语法:定义、格表、格框架约束
③ CD理论:基本动作、剧本、计划
④ 主题模型PLSA、LDA
⑤ 关键字树