Textin 文档解析
快速开始
第1步:注册获取 API 凭证
首次使用需要先注册 Textin 账号并获取 API 凭证:
- 1. 访问注册链接:https://www.textin.com/register/code/3EJS7P
- 注册完成后,登录并进入"开发者与账户信息"页面
- 获取
x-ti-app-id 和 INLINECODE1
获取凭证后,告诉我这两个值,我会帮你配置。
第2步:配置凭证
告诉我你的 x-ti-app-id 和 x-ti-secret-code,我会保存到配置文件中。
第3步:解析文档
配置好凭证后,你可以这样使用:
CODEBLOCK0
支持的文件格式
- - 图片:png, jpg, jpeg, bmp, tiff, webp
- 文档:pdf, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf
- 文件大小:最大 500MB
可选参数说明
解析模式 (parse_mode)
- -
auto - 由引擎自动选择,适用范围最广 - INLINECODE5 - 文档统一当成图片解析
- INLINECODE6 - 轻量版,只输出表格和文字结果
- INLINECODE7 - 仅电子档文字解析,速度最快
- INLINECODE8 - 视觉语言模型解析模式
默认: INLINECODE9
表格格式 (table_flavor)
- -
html - 按 HTML 语法输出表格 - INLINECODE11 - 按 Markdown 语法输出表格
- INLINECODE12 - 不进行表格识别
默认: INLINECODE13
获取图片 (get_image)
- -
none - 不返回任何图像 - INLINECODE15 - 返回每一页的整页图像
- INLINECODE16 - 返回页面内的子图像
- INLINECODE17 - 返回整页图像和图像对象
默认: INLINECODE18
标题层级 (applydocumenttree)
- -
1 - 生成标题层级 - INLINECODE20 - 不生成标题
默认: INLINECODE21
公式识别 (formula_level)
- -
0 - 全识别 - INLINECODE23 - 仅识别行间公式
- INLINECODE24 - 不识别
默认: INLINECODE25
去水印 (remove_watermark)
- -
0 - 不去水印 - INLINECODE27 - 去水印
默认: INLINECODE28
图表识别 (apply_chart)
- -
0 - 不开启图表识别 - INLINECODE30 - 开启图表识别,以表格形式输出
默认: INLINECODE31
其他常用参数
- -
pdf_pwd - PDF 密码(加密文档时使用) - INLINECODE33 - 从第几页开始解析(PDF 时有效)
- INLINECODE34 - 解析的页数(默认 1000,最大 1000)
- INLINECODE35 - 坐标基准(72/144/216,默认 144)
- INLINECODE36 - 是否返回 Excel(0 或 1)
- INLINECODE37 - 是否切边矫正(0 或 1)
- INLINECODE38 - 是否返回 detail 字段(0 或 1,默认 1)
- INLINECODE39 - 是否返回 pages 字段(0 或 1,默认 1)
使用示例
基础用法
CODEBLOCK1
指定参数
CODEBLOCK2
错误码处理
常见错误:
- -
40101 - App ID 或 Secret 为空 - INLINECODE41 - App ID 或 Secret 无效
- INLINECODE42 - 余额不足
- INLINECODE43 - 文件类型不支持
如遇错误,请检查凭证是否正确,或咨询用户。
Textin 文档解析
快速开始
第1步:注册获取 API 凭证
首次使用需要先注册 Textin 账号并获取 API 凭证:
- 1. 访问注册链接:https://www.textin.com/register/code/3EJS7P
- 注册完成后,登录并进入开发者与账户信息页面
- 获取 x-ti-app-id 和 x-ti-secret-code
获取凭证后,告诉我这两个值,我会帮你配置。
第2步:配置凭证
告诉我你的 x-ti-app-id 和 x-ti-secret-code,我会保存到配置文件中。
第3步:解析文档
配置好凭证后,你可以这样使用:
解析这个PDF文件
解析这张图片为markdown
提取这个文档的目录结构
支持的文件格式
- - 图片:png, jpg, jpeg, bmp, tiff, webp
- 文档:pdf, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf
- 文件大小:最大 500MB
可选参数说明
解析模式 (parse_mode)
- - auto - 由引擎自动选择,适用范围最广
- scan - 文档统一当成图片解析
- lite - 轻量版,只输出表格和文字结果
- parse - 仅电子档文字解析,速度最快
- vlm - 视觉语言模型解析模式
默认:scan
表格格式 (table_flavor)
- - html - 按 HTML 语法输出表格
- md - 按 Markdown 语法输出表格
- none - 不进行表格识别
默认:html
获取图片 (get_image)
- - none - 不返回任何图像
- page - 返回每一页的整页图像
- objects - 返回页面内的子图像
- both - 返回整页图像和图像对象
默认:objects
标题层级 (applydocumenttree)
默认:1
公式识别 (formula_level)
- - 0 - 全识别
- 1 - 仅识别行间公式
- 2 - 不识别
默认:0
去水印 (remove_watermark)
默认:0
图表识别 (apply_chart)
- - 0 - 不开启图表识别
- 1 - 开启图表识别,以表格形式输出
默认:0
其他常用参数
- - pdfpwd - PDF 密码(加密文档时使用)
- pagestart - 从第几页开始解析(PDF 时有效)
- pagecount - 解析的页数(默认 1000,最大 1000)
- dpi - 坐标基准(72/144/216,默认 144)
- getexcel - 是否返回 Excel(0 或 1)
- cropdewarp - 是否切边矫正(0 或 1)
- markdowndetails - 是否返回 detail 字段(0 或 1,默认 1)
- page_details - 是否返回 pages 字段(0 或 1,默认 1)
使用示例
基础用法
帮我解析这个PDF文件
指定参数
用 parse 模式解析这个PDF
用 lite 模式解析,输出 markdown 表格
解析这个文件并提取目录
错误码处理
常见错误:
- - 40101 - App ID 或 Secret 为空
- 40102 - App ID 或 Secret 无效
- 40003 - 余额不足
- 40303 - 文件类型不支持
如遇错误,请检查凭证是否正确,或咨询用户。