分享到微博 分享到人人 分享到LinkedIn 分享到Email
微软亚洲研究院发布Microsoft Concept Graph知识图谱和Microsoft Concept Tagging模型

我们很高兴地宣布,微软亚洲研究院正式发布Microsoft Concept Graph知识图谱和Microsoft Concept Tagging模型,用于帮助机器更好地理解人类交流并且进行语义计算。

Microsoft Concept Graph是一个大型的概念知识图谱系统。其包含的知识来自于数以亿计的网页和数年积累的搜索日志,可以为机器提供文本理解的常识性知识。

人的意识里包含了大量常识性概念,Microsoft Concept Graph试图去复制这些常识性概念。其核心知识库包含了超过540万条概念。除了包含一些被绝大部分通用知识库包含的概念,例如“城市”、“音乐家”等,Microsoft Concept Graph同样包含数百万长尾概念,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些概念在其他的数据库中很难被找到。除了概念,Microsoft Concept Graph同样包含了大量实体空间(每条知识概念都包含一系列的实体)。

Microsoft Concept Tagging模型可以将文本词条实体映射到不同的语义概念,并根据实体文本内容标记上相应的概率标签。例如“微软”这个词可以被自动映射到“软件公司”和“财富500强”等概念,并带有相应的概率标签。这个模型让计算机拥有常识性的计算能力,让机器“了解”人类的意识,从而让机器可以更好地理解人类的文本交流。具体而言,概念化(Conceptualization)模型依据人类的概念推理过程,将实体或者短语映射到大量自动习得的概念空间(向量空间)。相对于一般的词向量(Embedding),这种概念化映射关系是人类和机器都可以理解的。因此该模型能够帮助解决文本理解所需的概念标注、短文本语义相似度等基础功能。

这个模型可以应用于不同的文本处理场景中,包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等。

我们希望Microsoft Concept Graph和Microsoft Concept Tagging模型的发布可以推动知识挖掘、自然语言处理、以及人工智能等领域的发展。了解更多信息,请访问官方网站:https://concept.research.microsoft.com/ .