Python与模型相关知识以及问题的整理

线上训练数据的一些技巧

PHPer 2025-08-29 9 0 0

wokan.chawen.org/post/1898...

立即注册
更新于:2025-08-29 05:14:38
    您需要登录后才可以评论。 立即注册

    线上运行的服务器获取数据集的方法之魔塔服务器

    总结,如果不想用阿里云新人12月免费的OSS流量的话,就9块钱开通123云盘的月度会员,就可以难道真正的下载链接,就能通过下载链接下载到云服务器上了。

    下载太慢了,能不能传到阿里云云盘上,然后让魔塔的项目从云盘下载
    

    可以把数据集先传到「阿里云盘」,再让魔搭 Notebook **高速内网**拉取,15 GB 的 AISHELL 大概几分钟就完。官方推荐 **“阿里云盘 + 内网 OSS 挂载”** 或 **“PAI-DSW 直接挂载云盘”** 两种做法,下面给你一步一步操作。

    ---

    ### ✅ 方案:阿里云盘 → OSS → 魔搭 Notebook(内网秒下)

    #### 1️⃣ 把数据集传到「阿里云盘」

    - 电脑端登录 [阿里云盘](https://www.aliyundrive.com) → 上传 `data_aishell.tgz`。

    - 上传完**右键 → 分享 → 复制分享链接**(形如 `https://www.aliyundrive.com/s/xxxxxx`)。

    #### 2️⃣ 把阿里云盘文件同步到 OSS(5 分钟)

    1. 登录 [OSS 控制台](https://oss.console.aliyun.com) → 新建一个 Bucket(地域选 **华东 2 / 华北 2** 均可)。

    2. 打开 **「数据导入」→「阿里云盘」**,按提示授权后,把刚才的分享链接粘贴进去 → 一键导入。

    - 导入完成后文件在 OSS Bucket 根目录:`oss://your-bucket/data_aishell.tgz`。

    #### 3️⃣ 在魔搭 Notebook 挂载 OSS(内网下载秒完)

    1. 回到魔搭 Notebook 终端:

    ```bash

    # 安装并配置 ossutil(一次性)

    wgethttp://gosspublic.alicdn.com/ossutil/1.7.16/ossuti...

    chmod +x ossutil64

    ./ossutil64 config

    # 按提示填 AccessKey/SecretKey(在阿里云控制台「访问控制」里新建)

    ```

    2. 内网高速下载:

    ```bash

    cd /home/mengtao/data

    ./ossutil64 cp oss://your-bucket/data_aishell.tgz ./

    ```

    内网带宽 ≈ 500 MB/s,15 GB 文件 1~2 分钟完成。

    ---

    ### ⚡ 懒人替代方案(不想配 OSS)

    - **直接把阿里云盘分享链接拿到 Notebook 终端**,用开源工具 `aliyundrive-webdav` 或 `aliyunpan` 下载,也能跑满 50 MB/s。

    示例(一行命令装工具并下载):

    ```bash

    pip install aliyunpan

    aliyunpan download "https://www.aliyundrive.com/s/xxxxxx" --save-path /home/mengtao/data

    ```

    ---

    ### ✅ 一句话总结

    > **把文件先丢阿里云盘,再同步到 OSS,用内网 ossutil 下载,魔搭 Notebook 里 2 分钟就能拿到 15 GB 数据。**

    20250828 1702


    不能直接把这条 **BCE(百度智能云对象存储)直链**当作阿里云盘的目标去「拉取」或「离线下载」。

    阿里云盘目前**只支持三种导入方式**:

    1. 本地上传

    2. 分享链接(它自己的 aliyundrive.com 分享)

    3. OSS 内网导入(必须是阿里云自己的 OSS)

    你这条直链域名是 `ai-studio-online.bj.bcebos.com`,属于百度 BOS,**阿里云盘无法识别或离线下载**。

    ---

    ### ✅ 最快做法(两种,任选其一)

    | 方案 | 操作 | 耗时 |

    |---|---|---|

    | **直接 wget** | Notebook 终端:`wget -c "https://ai-studio-online.bj.bcebos.com/...data_aishell.tgz"` | 取决于公网带宽,一般 3–10 MB/s |

    | **中转 OSS** | 1. 本机用浏览器把文件下载到本地;<br>2. 用 ossutil 把本地文件上传到 OSS;<br>3. Notebook 内网拉取 | 500 MB/s,2 分钟完成 |

    ---

    一句话总结

    > **这条直链是百度 BOS,阿里云盘无法离线下载;直接在魔搭 Notebook 里 `wget` 或走 OSS 中转即可。**

    有直链功能的网盘除了牛奶快传,还有哪些

    下面把「**国内/国外**」目前还能**免费**或**低成本**拿到**不限速直链**的主流网盘给你一张清单,免费额度、单文件上限、限速情况一次看清。你可以按需挑一个传 15 GB 文件,再从魔搭 Notebook `wget`/`aria2c` 拉取。

    | 网盘 | 免费单文件上限 | 直链获取方式 | 下载限速 | 备注 |

    |---|---|---|---|---|

    | **123 云盘** | **100 GB** | 网页一键复制直链 | 不限速 | 注册即送 2 TB 空间,国内节点多 |

    | **阿里云盘** | **30 GB** | 分享→复制直链 | 不限速 | 需登录后生成直链,支持 aria2c |

    | **Zoho WorkDrive** | **1 GB/文件**(免费)<br>**无上限**(付费) | 一键生成直链 | 不限速 | 全球 CDN,适合海外节点 |

    | **坚果云** | **无明确上限** | 右键→获取直链 | 不限速 | 支持密码/过期设置 |

    | **OneDrive** | **15 GB**(免费 5 GB 空间)<br>**250 GB**(付费) | 右键→共享→直链 | 不限速 | 微软 CDN,国内速度一般 |

    | **Google Drive** | **15 GB**(免费空间)<br>**5 TB**(付费) | 右键→获取共享直链 | 不限速 | 国内需科学上网 | ...

    立即注册
    更新于:2025-08-29 06:08:07

    阿里云创建OSS的AccessKey

    参考文章:https://help.aliyun.com/zh/ram/user-guide/create-an-accesskey-pair

    根据您提供的链接和截图,阿里云的RAM访问控制台确实提供了创建AccessKey的选项。以下是详细步骤,确保您能够正确创建并使用AccessKey:

    ### 创建AccessKey步骤

    1. **登录阿里云控制台**:

    - 使用您的账号登录到[阿里云控制台](https://console.aliyun.com)。

    2. **进入RAM访问控制台**:

    - 在控制台主页的顶部导航栏中找到“产品与服务”。

    - 在搜索框中输入“访问控制”或“AccessKey管理”,找到“访问控制”服务并点击进入。

    3. **创建用户**:

    - 在左侧导航栏,选择“身份管理 > 用户”。

    - 点击“创建用户”按钮。

    - 输入登录名称和显示名称,选择“使用永久AccessKey访问”选项。

    4. **创建AccessKey**:

    - 在用户创建页面的“AccessKey”区域,点击“创建AccessKey”按钮。...

    立即注册
    更新于:2025-08-29 07:44:18

    用国外的主机弄OSS给魔塔

    如果您需要使用国外的服务器来为魔塔(ModelScope)提供数据,并且希望利用阿里云的OSS服务,那么您需要确保您的国外服务器能够访问阿里云OSS。以下是一些步骤和建议来实现这一目标:

    1. **确保国外服务器能够访问阿里云OSS**:

    - 检查您的国外服务器是否能够访问阿里云OSS的Endpoint。通常,您需要确保服务器的网络配置允许访问阿里云的OSS服务。

    2. **配置OSS访问权限**:

    - 您需要在阿里云控制台创建一个AccessKey(AccessKey ID和AccessKey Secret)来授权您的国外服务器访问OSS。

    3. **上传数据到OSS**:

    - 使用ossutil工具或oss2命令行工具将数据上传到OSS。首先,您需要在您的国外服务器上安装ossutil或oss2。

    - 配置ossutil:

    ```bash

    ossutil config

    ```

    按照提示输入您的AccessKey ID和AccessKey Secret。

    - 上传数据:

    ```bash

    ossutil cp /path/to/local/data_aishell.zip oss://your-bucket-name/data_aishell.zip

    ```

    确保替换`/path/to/local/data_aishell.zip`为您本地文件的路径,`oss://your-bucket/data_aishell.zip`为您的OSS路径。...

    立即注册
    更新于:2025-08-29 08:11:03
    推荐内容

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    BT磁力搜索网站汇总和找不到的资源

    什么是磁力链接,您如何使用?

    Z-Library:全球最大的数字图书馆/含打不开的解决方案/镜像

    使用V2Ray的mKCP协议加速游戏

    v2rayN已停止工作

    【车险课堂】什么是无赔款优待系数ncd,你“造”吗?