文件导入¶
上传数据¶
-
点击语料库旁的 ┇ 按钮
-
点击 语料导入 ,选择上传的数据
-
在导入数据界面,点击 上传数据
选择自己想要上传的文件,目前支持 pdf、txt、docx、doc、csv、xlsx 单个文件的大小不建议超过 50 M,文件上传数量限制为50个。
-
将文件上传完成后,可以在 文件上传结果 中查看
-
上传成功后,点击 下一步
-
选择文件分片的处理类型:标准处理、自定义处理(即插件处理,请到插件接入处查看)
-
数据向量化过程后,查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态
-
当向量化处理成功后,点击 下一步
-
待文件状态为文件处理完成后,点击 关闭 即可
标准处理¶
- PDF、TXT、DOC、DOCX 支持自定义分隔符
- CSV、xlsx 按照一行分片
- 设置分隔符,不设置分片大小,仅根据分隔符划分文档
- 不设置分隔符,设置分片大小,仅根据分片大小拆分文档
- 设置分隔符并设置分片大小,在分片大小内,最终根据分隔符匹配进行分割