# 关键词提取 API 文档

雷宗杰 2024-11-06 浏览次数:106

以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供针对 中文(简体) 的关键词提取服务。关键词提取(Keyword Extraction) 是从文本中将与文本意义最相关的一些词抽取出来的技术。早期在全文搜索还未普及时,其在搜索检索领域扮演着不可或缺的角色,随着nlp的发展,关键词提取在文本聚类、分类、摘要等领域中继续起着重要的作用。

# 关键词提取 API 文档

该能力是通过HTTP API的方式给开发者提供一个通用的接口,适用于一次性交互数据传输的AI服务场景。相较于SDK,API具有轻量、跨语言的特点,不过请注意该接口使用的HTTP API协议不支持跨域。

示例demo 请点击 这里 下载。
目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。
也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。

集成关键词提取API时,需按照以下要求。

内容 说明 请求协议 http[s] (为提高安全性,强烈推荐https) 请求地址 http[s]: //ltpapi.xfyun.cn/v1/ke
注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用 请求方式 POST 接口鉴权 签名机制,见授权认证 字符编码 UTF-8 响应格式 统一采用JSON格式 开发语言 任意,只要可以向讯飞云服务发起HTTP请求的均可 适用范围 任意操作系统,但因不支持跨域不适用于浏览器,请在后端调用接口 文本语种 中文简体 文本长度 不超过30000字节

注: 若需配置IP白名单,请前往控制台。IP白名单规则请参照 IP白名单。

  1. 通过接口密钥基于MD5计算签名,将签名以及其他参数放在Http Request Header中,详见下方 请求头 。
  2. 将文本数据放在Http Request Body中,以POST表单的形式提交,详见下方 请求体 。
  3. 向服务器端发送Http请求后,接收服务器端的返回结果,返回结果详见各接口的详细说明。

接口地址示例:

在调用该业务接口时

  • 若关闭IP白名单,接口认为IP不限,不会校验IP。
  • 若打开IP白名单,则服务端会检查调用方IP是否在讯飞开放平台配置的IP白名单中,对于没有配置到白名单中的IP发来的请求,服务端会拒绝服务。

IP白名单规则

  • IP白名单,在 控制台-我的应用-相应服务的应用管理卡片上 编辑,保存后五分钟左右生效;
  • 不同Appid的不同服务都需要分别设置IP白名单;
  • IP白名单需设置为外网IP,请勿设置局域网IP;
  • 如果服务器返回结果如下所示(illegal client_ip),则表示由于未配置IP白名单或配置有误,服务端拒绝服务。

Http Request Header 中配置以下参数。

授权认证

以下参数用于授权认证:

参数 格式 说明 必须 X-Appid string 讯飞开放平台注册申请应用的应用ID(appid) 是 X-CurTime string 当前UTC时间戳
从1970年1月1日0点0 分0 秒开始到现在的秒数 是 X-Param string 相关参数JSON串经base64编码后的字符串,详见业务参数 是 X-CheckSum string 令牌,计算方法:MD5(APIKey + X-CurTime + X-Param),三个值拼接的字符串,进行MD5哈希计算(32位小写) 是

注:

  • APIKey:接口密钥,在讯飞开放平台控制台添加相应服务后即可获取,调用方注意保管,如泄露,可到控制台提交工单联系技术人员重置;
  • X-CheckSum 有效期:出于安全性考虑,每个 X-CheckSum 的有效期为 5 分钟(用 X-CurTime 计算),同时 X-CurTime 要与标准时间同步,否则时间相差太大,服务端会直接认为 X-CurTime 无效;
  • base64 编码采用 MIME 格式,字符包括大小写字母各26个,加上10个数字,和加号 + ,斜杠 / ,一共64个字符。

*X-CheckSum *生成示例:

业务参数

X-Param 为各配置参数组成的 JSON 串经 base64 编码之后的字符串,原始 JSON 串各字段说明如下:

参数 类型 必填 说明 示例 type string 是 服务类型,调用关键词提取功能固定为dependent dependent

X-Param生成示例:

以POST表单的形式提交以下参数:

参数 类型 必须 说明 text string 是 待分析文本(中文简体),长度限制为30000字节

文档所用的text参数示例:

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

返回值为json串,各字段如下:

参数 类型 说明 code string 结果码(具体见SDK&API错误码查询) data json对象 关键词提取结果 desc string 错误描述,会话成功为success sid string 会话ID,用来唯一标识本次会话,如会话报错无法解决,可以提供 sid 给讯飞技术人员分析解决。

data中各字段说明如下:

标记 说明 word 关键词 score 候选词成为关键词的概率

注意:如果data中ke字段内容为空,则表示输入的文本过于简短或者意义不明确,导致引擎无法提取出关键字。

结果示例如下:

失败结果:

成功结果:

注: demo只是一个简单的调用示例,不适合直接放在复杂多变的生产环境使用

关键词提取demo go语言

关键词提取demo php语言

关键词提取demo java语言

关键词提取demo python3语言

关键词提取demo c#语言

关键词提取的主要功能是什么?

答:关键词提取是把文本中包含的信息进行结构化处理,并将提取的信息以统一形式集成在一起。

关键词提取支持什么应用平台?

答:目前关键词提取支持Web api应用平台。

关键字提取报错10105是什么原因?