一、数据标注工具介绍
数据标注是将原始数据转化为机器学习算法可理解的形式的过程,通过标注后的数据,机器可以学习到各种任务,如分类、回归、目标检测等。
数据标注的工具比较多,比较出名的有Doccano、Label Studio等。
Label Studio :图像标注、文本标注、音频标注、视频标注、时间序列标注,功能比较多。
Doccano:主要是针对文本的标注,包括文本分类,序列标注和序列到序列的标注等功能。
二、Doccano安装过程
DOCCANO 是一个开源的文本标注工具,用于命名实体识别(NER)、文本分类和序列标注等自然语言处理任务。以下是通过Docker安装 DOCCANO 的详细步骤:
1、下载并安装Docker:Get Started | Docker
2、安装完成后在 cmd 里执行以下命令拉取 doccano
的镜像:
docker pull doccano/doccano
3、运行 Docker 容器:
Linux系统下执行如下命令:
docker run -itd --name doccano \
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8000:8000 doccano/doccano
这将启动一个本地的 DOCCANO 实例,并创建了一个账号为admin(密码为password)的账号,你可以通过浏览器访问 http://localhost:8000
进行操作。
Windows系统下不识别反斜杠\,执行如下命令:
docker run -itd --name doccano -e "ADMIN_USERNAME=admin" -e "ADMIN_EMAIL=admin@example.com" -e "ADMIN_PASSWORD=password" -v doccano-db:/data -p 8000:8000 doccano/doccano
或者在PowerShell中使用 反引号 ` 换行:
docker run -itd --name doccano `
-e "ADMIN_USERNAME=admin" `
-e "ADMIN_EMAIL=admin@example.com" `
-e "ADMIN_PASSWORD=password" `
-v doccano-db:/data `
-p 8000:8000 doccano/doccano
至此,安装过程就结束了。如果存在8000端口被占用的情况,可以更换别的端口。
三、Doccano使用
1、访问界面:
- 打开浏览器,访问
http://localhost:8000
。 - 登录后,你将看到 DOCCANO 的主界面。

2、创建项目:
- 点击顶部菜单中的“Projects(项目)”,然后点击“Create Project(创建)”。
- 按实际需要选择项目的类型:文本分类、序列标注等,不同项目类别的标注方式是不一样的。
- 输入项目名称、描述,选择标签集类型(如 NER、Text Classification 等),并点击“Save(创建)”。

3、管理数据集:
- 在项目页面,点击“Datasets(数据集)”选项卡,然后点击“Upload Dataset(操作-导入数据集)”上传你的数据文件(支持 CSV、JSONL 等格式)。
- 数据文件应包含文本列和标签列(根据所选的标签集类型而定)。

4、标注数据:
- 上传数据集后,点击左上角“Start Annotation(开始标注)”开始标注数据。
- 根据提示进行文本标注,完成后保存标注结果。

5、导出标注数据:
- 完成标注后,可以在“Datasets”选项卡中下载标注后的数据集。