|-转 pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分类)的轻量级自然语言处理工具包,基于pytorch和transformers,包含各种实验
代码跑起来了,生成了模型文件后,没有说明如何使用模型进行分类预测。
代码中 path_root = os.path.abspath(os.path.join(os.path.dirname(__file__), "../..")),这里要改下
我这里改成了path_root = r'D:\python\python3.10.0\Lib\site-packages',因为我这边安装的包的位置是这里D:\python\python3.10.0\Lib\site-packages\pytorch_nlu\pytorch_textclassification。另外bert-base-chinese模型我是下载到本地的,位置在C:\Users\Administrator\Downloads\models\bert-base-chinese所以这里也修改了下,之后就能跑了
model_config["pretrained_model_name_or_path"] = r'C:\Users\Administrator\Downloads\models\bert-base-chinese'
先运行安装 # 清华镜像源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Pytorch-NLU
本地bert-base-chinese模型的目录结构
代码跑起来了后的运行截图
pytorch-textclassification
pytorch-textclassification是一个以pytorch和transformers为基础,专注于文本分类的轻量级自然语言处理工具包。支持中文长文本、短文本的多类分类和多标签分类。
目录
数据
数据来源
所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系删除。
- baidu_event_extract_2020, 项目以 2020语言与智能技术竞赛:事件抽取任务中的数据作为多分类标签的样例数据,借助多标签分类模型来解决, 共13456个样本, 65个类别;
- AAPD-dataset, 数据集出现在论文-SGM: Sequence Generation Model for Multi-label Classification, 英文多标签分类语料, 共55840样本, 54个类别;
- toutiao-news, 今日头条新闻标题, 多标签分类语料, 约300w-语料, 1000+类别;
- * unknow-data, 来源未知, 多标签分类语料, 约22339语料, 7个类别;
- SMP2018中文人机对话技术评测(ECDT), SMP2018 中文人机对话技术评测(SMP2018-ECDT)比赛语料, 短文本意图识别语料, 多类分类, 共3069样本, 31个类别;
- 文本分类语料库(复旦)语料, 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的新闻语料, 多类分类语料, 共9804篇文档,分为20个类别。
- MiningZhiDaoQACorpus, 中国科学院软件研究所刘焕勇整理的问答语料, 百度知道问答语料, 可以把领域当作类别, 多类分类语料, 100w+样本, 共17个类别;
- THUCNEWS, 清华大学自然语言处理实验室整理的语料, 新浪新闻RSS订阅频道2005-2011年间的历史数据筛选, 多类分类语料, 74w新闻文档, 14个类别;
- IF***TEK, 科大讯飞开源的长文本分类语料, APP应用描述的标注数据,包含和日常生活相关的各类应用主题, 链接为CLUE, 共17333样例, 119个类别;
- TNEWS, 今日头条提供的中文新闻标题分类语料, 数据集来自今日头条的新闻版块, 链接为CLUE, 共73360样例, 15个类别;
项目地址
- pytorch-textclassification:Pytorch-NLU/pytorch_nlu/pytorch_textclassification at main · yongzhuo/Pytorch-NLU
数据格式
1. 文本分类 (txt格式, 每行为一个json): 1.1 多类分类格式: {"text": "人站在地球上为什么没有头朝下的感觉", "label": "教育"} {"text": "我的小baby", "label": "娱乐"} {"text": "请问这起交通事故是谁的责任居多小车和摩托车发生事故在无红绿灯", "label": "娱乐"} 1.2 多标签分类格式: {"label": "3|myz|5", "text": "课堂搞东西,没认真听"} {"label": "3|myz|2", "text": "测验90-94.A-"} {"label": "3|myz|2", "text": "长江作业未交"}
使用方式
更多样例sample详情见test/tc目录 ...
浏览更多内容请先登录。
立即注册
分享的网址网站均收集自搜索引擎以及互联网,非查问网运营,查问网并没有提供其服务,请勿利用其做侵权以及违规行为。
更新于:2024-05-18 15:01:39
相关内容
解决Host key verification failed.(2022年6月亲测有效)
关于机器学习的内容的整理
一种基于神经网络的智能商品税收分类系统
一人搞定30万商品分类:AI落地实践中的故事
无依赖安装sentence-transformers
Windos 环境下 Milvus 向量数据库的 Docker Compose 部署
win10开HYPER-V后物理机上不了外网
M3E: 文本嵌入模型入门
【A情感文本分类实战】2024 Pytorch+Bert、Roberta+TextCNN、BiLs...
NLP入门——从0到实现文本分类
pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分...
推荐内容