关于机器学习的内容的整理

pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分类)的轻量级自然语言处理工具包,基于pytorch和transformers,包含各种实验

PHPer 2024-05-18 117 0 0

代码跑起来了,生成了模型文件后,没有说明如何使用模型进行分类预测。

代码中 path_root = os.path.abspath(os.path.join(os.path.dirname(__file__), "../..")),这里要改下

我这里改成了path_root = r'D:\python\python3.10.0\Lib\site-packages',因为我这边安装的包的位置是这里D:\python\python3.10.0\Lib\site-packages\pytorch_nlu\pytorch_textclassification。另外bert-base-chinese模型我是下载到本地的,位置在C:\Users\Administrator\Downloads\models\bert-base-chinese所以这里也修改了下,之后就能跑了

model_config["pretrained_model_name_or_path"] = r'C:\Users\Administrator\Downloads\models\bert-base-chinese'

先运行安装 # 清华镜像源

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Pytorch-NLU

本地bert-base-chinese模型的目录结构

fe82344ece-bert-qq-jie-tu20240518103926_normal.png

代码跑起来了后的运行截图

08ce6059be-test-qq-jie-tu20240518150021_normal.png


pytorch-textclassification

pytorch-textclassification是一个以pytorch和transformers为基础,专注于文本分类的轻量级自然语言处理工具包。支持中文长文本、短文本的多类分类和多标签分类。

目录

数据

数据来源

所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系删除。

  • baidu_event_extract_2020, 项目以 2020语言与智能技术竞赛:事件抽取任务中的数据作为多分类标签的样例数据,借助多标签分类模型来解决, 共13456个样本, 65个类别;
  • AAPD-dataset, 数据集出现在论文-SGM: Sequence Generation Model for Multi-label Classification, 英文多标签分类语料, 共55840样本, 54个类别;
  • toutiao-news, 今日头条新闻标题, 多标签分类语料, 约300w-语料, 1000+类别;
  • * unknow-data, 来源未知, 多标签分类语料, 约22339语料, 7个类别;
  • SMP2018中文人机对话技术评测(ECDT), SMP2018 中文人机对话技术评测(SMP2018-ECDT)比赛语料, 短文本意图识别语料, 多类分类, 共3069样本, 31个类别;
  • 文本分类语料库(复旦)语料, 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的新闻语料, 多类分类语料, 共9804篇文档,分为20个类别。
  • MiningZhiDaoQACorpus, 中国科学院软件研究所刘焕勇整理的问答语料, 百度知道问答语料, 可以把领域当作类别, 多类分类语料, 100w+样本, 共17个类别;
  • THUCNEWS, 清华大学自然语言处理实验室整理的语料, 新浪新闻RSS订阅频道2005-2011年间的历史数据筛选, 多类分类语料, 74w新闻文档, 14个类别;
  • IF***TEK, 科大讯飞开源的长文本分类语料, APP应用描述的标注数据,包含和日常生活相关的各类应用主题, 链接为CLUE, 共17333样例, 119个类别;
  • TNEWS, 今日头条提供的中文新闻标题分类语料, 数据集来自今日头条的新闻版块, 链接为CLUE, 共73360样例, 15个类别;

项目地址

数据格式

1. 文本分类  (txt格式, 每行为一个json):
1.1 多类分类格式:
{"text": "人站在地球上为什么没有头朝下的感觉", "label": "教育"}
{"text": "我的小baby", "label": "娱乐"}
{"text": "请问这起交通事故是谁的责任居多小车和摩托车发生事故在无红绿灯", "label": "娱乐"}
1.2 多标签分类格式:
{"label": "3|myz|5", "text": "课堂搞东西,没认真听"}
{"label": "3|myz|2", "text": "测验90-94.A-"}
{"label": "3|myz|2", "text": "长江作业未交"}

使用方式

更多样例sample详情见test/tc目录 ...

立即注册
分享的网址网站均收集自搜索引擎以及互联网,非查问网运营,查问网并没有提供其服务,请勿利用其做侵权以及违规行为。

更新于:2024-05-18 15:01:39
    您需要登录后才可以评论。 立即注册
    相关内容

    解决Host key verification failed.(2022年6月亲测有效)

    关于机器学习的内容的整理

    一种基于神经网络的智能商品税收分类系统

    一人搞定30万商品分类:AI落地实践中的故事

    无依赖安装sentence-transformers

    Windos 环境下 Milvus 向量数据库的 Docker Compose 部署

    win10开HYPER-V后物理机上不了外网

    M3E: 文本嵌入模型入门

    【A情感文本分类实战】2024 Pytorch+Bert、Roberta+TextCNN、BiLs...

    NLP入门——从0到实现文本分类

    pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分...

    推荐内容

    分享几个好用的bt搜索bt资源下载网址网站

    影视电影剧集动漫综艺bt资源在线播放网址网站推荐分享

    全网最新bt磁力搜索引擎bt资源bt网站网址分享

    人气美女女优百度指数排行榜(波多野结衣,苍井空,三上悠亚,深田咏美,桥本有菜,北条...

    最强人造人深田咏美,业界的社交女王

    人生起起落落的三上悠亚,成名前的清纯风,怎么搭配出来的?

    业内第一大长腿,桥本有菜的腿究竟有多长

    波多野结衣,岛国业界著作最多的超级劳模

    日本AV界NO.1,苍井空是多少宅男的疯狂?

    美女女优视频混剪 This Girl-Laza Morgan

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    影视电影剧集动漫综艺bt资源在线播放网址网站推荐分享