自然语言模型 自然语言模型发展史

2025-05-07 04:27 - 立有生活网

关于自然语言模型,自然语言模型发展史这个很多人还不知道,今天小篇来为大家解答以上的问题,现在让我们一起来看看吧!

自然语言模型 自然语言模型发展史自然语言模型 自然语言模型发展史


自然语言模型 自然语言模型发展史


自然语言模型 自然语言模型发展史


1、尽管不同的分布表示方法使用了不同的技术手段获取词表示,但由于这些方法均基于分布说,它们的核心思想也都由两部分组成:词表示是自然语言处理的基础,一个好的词向量在很大程度上决定了后续任务的上限。

2、本文是我最近学习该部分内容的笔记,主要参照的是 基于神经网络的词和文档语义向量表示方法研究 一文,穿插了一些个人理解。

3、内容较多,错误难免,请拍砖~分布表示(Distributional Representation)说 :上下文相似的词,其语义也相似。

4、根据建模方式的不同,主要分为三类:基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。

5、基于矩阵的分布表示通常又称为分布语义模型(distributional semantic models)。

6、这类方法需要构建一个“词-上下文”矩阵,从矩阵中获取词的表示。

7、在“词-上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵中的每个元素对应相关词和上下文的共现次数。

8、在这种表示下,矩阵中的一行,就成为了对应词的表示,这种表示描述了该词的上下文的分布。

9、由于分布说认为上下文相似的词,其语义也相似,因此在这种表示下,两个词的语义相似度可以直接转化为两个向量的空间距离。

10、这类方法具体可以分为三个步骤:的 Global Vector模型(GloVe) 就是基于矩阵的分布表示基于聚类的分布表示又称作分布聚类(distributional clustering),这类方法通过聚类手段构建词与其上下文之间的关系。

11、其中最经典的方法是布朗聚类(Brown clustering)。

12、布朗聚类是一种层级聚类方法,聚类结果为每个词的多层类别体系。

13、因此可以根据两个词的公共类别判断这两个词的语义相似度。

14、基于神经网络的分布表示一般称为词向量、词嵌入(word embedding)或分布式表示(distributed representation)。

15、神经网络词向量表示技术通过神经网络技术对上下文,以及上下文与目标词之间的关系进行建模。

16、由于神经网络较为灵活,这类方法的优势在于可以表示复杂的上下文。

17、在前面基于矩阵的分布表示方法中,最常用的上下文是词。

18、如果使用包含词序信息的n-gram作为上下文,当n增加时,n-gram的总数会呈指数级增长,此时会遇到维数灾难问题。

19、而神经网络在表示n-gram时,可以通过一些组合方式对n个词进行组合,参数个数仅以线性速度增长。

20、有了这一优势,神经网络模型可以对更复杂的上下文进行建模,在词向量中包含更丰富的语义信息。

21、神经网络词向量模型与其它分布表示方法一样,均基于分布说,核心依然是上下文的表示以及上下文与目标词之间的关系的建模。

22、构建上下文与目标词之间的关系,最自然的一种思路就是使用语言模型。

23、语言模型可以对一段文本的概率进行估计,对信息检索、机器翻译、语音识别等任务有着重要的作用。

本文到这结束,希望上面文章对大家有所帮助。

凯迪拉克君豪 凯迪拉克豪越

有一款国产车的车标是抄袭凯迪拉克的,那个叫什么? 君豪??不会是吉利帝豪吧? 凯迪拉克君豪 凯迪拉克豪越 凯迪拉克君豪 凯迪拉克豪越 凯迪拉克君豪 凯迪拉克豪越 不好意思,这波是凯迪拉···

烧包谷2022世界杯 烧包谷世界杯

今天小爱来给大家分享一些关于烧包谷世界杯方面的知识吧,希望大家会喜欢哦 烧包谷2022世界杯 烧包谷世界杯 烧包谷2022世界杯 烧包谷世界杯 1、我理想的中学生活是欢快的,有谈得来的学生;我···

郴州人事考试网 郴州人市考试网

遴选公告都在哪里看? 各主管部门会通过网站(人事考试网等)发布遴选公告,并公布遴选职位表、相关注意事项等文件。除此之外,大型的遴选也会发布相应的遴选考试公告,此时考生们要仔细进行···