使用Docker安装和使用Doccano文本标注平台

一、数据标注工具介绍

数据标注是将原始数据转化为机器学习算法可理解的形式的过程,通过标注后的数据,机器可以学习到各种任务,如分类、回归、目标检测等。

数据标注的工具比较多,比较出名的有Doccano、Label Studio等。

Label Studio :图像标注、文本标注、音频标注、视频标注、时间序列标注,功能比较多。

Doccano:主要是针对文本的标注,包括文本分类,序列标注和序列到序列的标注等功能。

二、Doccano安装过程

DOCCANO 是一个开源的文本标注工具,用于命名实体识别(NER)、文本分类和序列标注等自然语言处理任务。以下是通过Docker安装 DOCCANO 的详细步骤:

1、下载并安装Docker:Get Started | Docker

2、安装完成后在 cmd 里执行以下命令拉取 doccano 的镜像:

docker pull doccano/doccano

3、运行 Docker 容器:

Linux系统下执行如下命令:

docker run -itd --name doccano \
  -e "ADMIN_USERNAME=admin" \
  -e "ADMIN_EMAIL=admin@example.com" \
  -e "ADMIN_PASSWORD=password" \
  -v doccano-db:/data \
  -p 8000:8000 doccano/doccano

这将启动一个本地的 DOCCANO 实例,并创建了一个账号为admin(密码为password)的账号,你可以通过浏览器访问 http://localhost:8000 进行操作。

Windows系统下不识别反斜杠\,执行如下命令:

docker run -itd --name doccano  -e "ADMIN_USERNAME=admin"   -e "ADMIN_EMAIL=admin@example.com"   -e "ADMIN_PASSWORD=password"  -v doccano-db:/data  -p 8000:8000 doccano/doccano

或者在PowerShell中使用 反引号 ` 换行:

docker run -itd --name doccano `
  -e "ADMIN_USERNAME=admin" `
  -e "ADMIN_EMAIL=admin@example.com" `
  -e "ADMIN_PASSWORD=password" `
  -v doccano-db:/data `
  -p 8000:8000 doccano/doccano

至此,安装过程就结束了。如果存在8000端口被占用的情况,可以更换别的端口。

三、Doccano使用

1、访问界面

  • 打开浏览器,访问 http://localhost:8000
  • 登录后,你将看到 DOCCANO 的主界面。

2、创建项目

  • 点击顶部菜单中的“Projects(项目)”,然后点击“Create Project(创建)”。
  • 按实际需要选择项目的类型:文本分类、序列标注等,不同项目类别的标注方式是不一样的。
  • 输入项目名称、描述,选择标签集类型(如 NER、Text Classification 等),并点击“Save(创建)”。

3、管理数据集

  • 在项目页面,点击“Datasets(数据集)”选项卡,然后点击“Upload Dataset(操作-导入数据集)”上传你的数据文件(支持 CSV、JSONL 等格式)。
  • 数据文件应包含文本列和标签列(根据所选的标签集类型而定)。

4、标注数据

  • 上传数据集后,点击左上角“Start Annotation(开始标注)”开始标注数据。
  • 根据提示进行文本标注,完成后保存标注结果。

5、导出标注数据

  • 完成标注后,可以在“Datasets”选项卡中下载标注后的数据集。
—— 完 ——
相关推荐
评论

立 为 非 似

中 谁 昨 此

宵 风 夜 星

。 露 , 辰

文章点击榜

细 无 轻 自

如 边 似 在

愁 丝 梦 飞

。 雨 , 花