d.run 让算力更自由

图文导入

中文
English

正在初始化搜索引擎

d-run/drun-docs

首页
d.run 文档
视频教程
AI 行业新闻
智海拾贝
联系我们

d.run 让算力更自由

d-run/drun-docs

首页
d.run 文档
d.run 文档
- 注册账号
- ClawOS
  ClawOS
- 算力云
  算力云
- 大模型服务平台
  大模型服务平台
- AI 应用
  AI 应用
  - 什么是 AI 应用
  - 功能列表
  - 应用中心
  - 语料库
    语料库
    
    创建语料库
    
    语料管理
    
    语料导入
    语料导入
    
    文件导入
    
    手动录入
    
    图文导入图文导入
    导航
    
    预处理 Docx 文档
    
    预处理 xlsx 文档
    
    生成图文语料
    
    导入下载的文件
    
    格式化导入
  - 数据分析
  - 我的反馈
- 费用中心
  费用中心
- 管理
  管理
  - 个人中心
  - 子账号
- 服务协议
  服务协议
  - 协议清单
- Release Notes
视频教程
AI 行业新闻
智海拾贝
联系我们

导航

预处理 Docx 文档
预处理 xlsx 文档
生成图文语料
- 导入下载的文件

注册账号
d.run 文档
AI 应用
语料库
语料导入

图文导入¶

在导入图文前，需要将导入的语料进行处理后再导入（目前仅支持 Word 和 Excel 的图文处理）。

预处理 Docx 文档¶

直接支持带图文的 Docx 文档按照约定的字符长度分割
也支持手工用 <split></split> 标签，提前规划好文档分割段落。

对于 Docx 文档中的图片信息，整理的时候请直接粘贴到文档（不要使用形状或者文本框包裹图片）以免程序无法检测从而遗漏图片的处理。

预处理 xlsx 文档¶

xlsx 文件需要符合固定的模板格式：

模板形式

Q：问题，A：答案。

对于 xlsx 文档，请按照模板要求整理，插图请尽量放一个在单元格中，尽量不要横跨几个单元格放置。

生成图文语料¶

登录环境: https://console.d.run/ai-tools/lab? 密码：aitools。
上传语料文件，进入目录 /app/corpus_processing/input 下，上传语料文件到此目录下。
点击运行代码。
下载生成图文语料文件。进行目录/app/corpus_processing/output 下载 zip 文件。
清理环境。清理输入和输出文件，以及清理运行日志文件。

Note

该环境为公共的环境，私有的语料文件操作后，建议执行清理环境操作。

导入下载的文件¶

点击 语料导入 -> 图文导入
将处理好的文件上传，并进行向量化，等待处理成功

格式化导入

Copyright © 2016 - 2025 d.run