6月26日消息,盛大创新院搜索主题院研究员贾文杰和搜狗自然语言处理助理研究员张帆今天做客第165期IT龙门阵,分享了关于自然语言处理的应用和难点。
盛大创新院搜索主题院研究员贾文杰(TechWeb摄)
盛大创新院搜索主题院研究员贾文杰:面向搜索的中文分词系统
盛大创新院搜索主题院研究员贾文杰做了《面向搜索的中文分词系统》的主题演讲。他认为“无论是搜索还是推荐,做中文的互联网智能化处理,分词就是一个必不可少的步骤。”
分词应用的地方第一个是搜索,使用分词使得词表大大扩大,基于词做索引,后面的链条会大幅减少,倒排列表缩减会减少时间;第二个应用是上下文广告,比如推荐系统,“不管是做阅读、视频还是图片,或者是电商,基于内容相似度做推荐,不管是基于空间模型还是短本做推荐,第一步分词。”
贾文杰介绍,中文分词的难点第一个是切分歧义,对于语言单位有多种方法,第二个难点是未登录词,做分词系统没有的词或者是没有出现的词。
基于此,中文分词目前常见的算法包括无指导切分、基于词典的机械分词、基于语言模型的切分,基于字标注的切分。其中基于语言模型的方法是最常用的方法。
“做这样的分词系统有哪些核心工作要做呢?第一个,原子词识别,一些简单的命名实体,包括网址、时间、数字、日期,难点是规则整理,比如时间的表达非常多。第二个模块命名实体识别,除了前面的命名实体,剩下的主要是人名、地名、机构名,基于正则表达式写不出来,怎么来做?基于序列标注方法做,用一些方法把不在词典的词找出来。”
训练语言模型需要收集分词的语料库,目前的语料库有富士通和北京大学做的人民日报语料库,宾州中文树库,台北中研院的树库。
人民日报语料库有1400万词,是最大语料库,但是问题是缺少新词,创立年限太久,表达方式语序发生了很大变化,还有规模仍然不够大。
贾文杰介绍了盛大创新院推出的盛大云分词,它的优点是是分词结果较好,分词更快、而且是活的分词,分词保持不断更新,再者针对搜索进行了优化,最后还支持中英文之外的其他语言分词。
搜狗自然语言处理助理研究员张帆(TechWeb摄)
搜狗自然语言处理助理研究员张帆:搜索查询意图识别
搜狗自然语言处理助理研究员张帆做了《搜索查询意图识别》的主题演讲,他认为意图识别是知道用户想干什么,以便更好地满足用户需求。
现有的搜索引擎分为两类:通用搜索引擎和垂直搜索引擎,两种搜索引擎各有特点。通用搜索引擎抓取互联网上一切有价值的东西、统一建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道为代表。
垂直搜索引擎以一定类别为主题,只抓取与主题相关的信息,更具主题特点有针对性的建立相应的索引检索方式,筛选方式以及展现方式,以机票搜索、地图搜索、购物搜索等为代表。
“通用搜索引擎的缺点是通用,不够准确,垂直搜索引擎的缺点是用户需要记住多个网站。有没有办法将二者结合?”张帆如此表示,“识别查询词对应的垂直搜索,并从中获取结果嵌入到通用搜索引擎中,可以为用户提供很好的体验。”这也就是意图识别用途。
意图识别的难点包括:输入不规范、意图太多、意图强度的区分、语料持续准确获取、搜索结果的可靠性、时效性的问题。
张帆提出了进行意图识别的几个方法:
词表穷举法,最简单直接的方法,通过词表的直接匹配来获取查询意图,它的实现方法是建立白名单系统、建立词表扩展系统、建立词表预处理系统,这种方法优点是简单易实现,缺点是召回比较低,人工比例较高。
规则解析法,适用于一些查询索然不集中淡非常符合规则的类别,通过规则解析查询来做一同识别和关键信息提取的。比如汇率查询、计算器、度量衡等。它的优点是信息提取准确,不足是只适用于规则性较强的类别。
统计模型分类法,一般有两种分类,一种是基于查询词本身的分类,另一种是基于查询词结果进行分类,这种方法适用于一些查询较为分散,且规则不明确的类别。这是最常用的方法,覆盖面最大的方法。这种方法的不足是实现较为复杂,数据获取、更新困难。
张帆介绍称,除此之外,还有一些特殊的意图识别方法,比如微博类意图识别,实现方法是对搜索结果进行时效性判断。
张帆认为,意图识别未来的发展的几个方向是无类别概念的意图识别,个性化意图识别,精准意图识别以及语音应用的意图识别。