paulwong

2025年3月10日 #

足球数据资源

足球基础数据

https://www.nami.com/details/4nw10i0tela68lq#interface

足球统计数据

https://www.nami.com/details/7xwk3iqtv3s9rk6#interface

足球统计数据

https://www.nami.com/details/7xwk3iqtv3s9rk6#interface

足球高阶数据

https://www.nami.com/details/g5wvvikteeixwzd#interface

指数数据

https://www.nami.com/details/o6w9kipt4yi78k3#interface

足球资料库数据

https://www.nami.com/details/7j8gxi0to7inrql#interface

Marz火星数据（体育）

https://www.kancloud.cn/marz/marz-sport/3098904

posted @ 2025-04-24 14:56 paulwong 阅读(2) | 评论 (0) | 编辑收藏

ai预测足球资源

基于机器学习的2022世界杯预测实战

https://www.showmeai.tech/article-detail/400

AI 竞彩赛事预测工具

https://www.mysports.ai/cn

posted @ 2025-04-19 01:07 paulwong 阅读(9) | 评论 (0) | 编辑收藏

微调训练的数据集

使用trl库做微调时, 对数据集的要求是:

如果是多轮对话场景:

jsonl 文件，且需符合以下要求:

1.每行是一个独立的 JSON 对象;

2 每个对象须包含一个键名为 messages 的数组，数组不能为空;

3.messages 中每个元素必须包含 role 和 content 两个字段:

4.role 只能是 system,user 或 assisiant;

5.如果有 system 角色消息, 需在数组首位;

6.第一条非 system 消息必须是 user 角色;

7.user 和 assisiant 角色的消息应当交替、成对出现，不少于1对;

如果是指令微调场景:

jsonl 文件，且需符合以下要求:

1.每行是一个独立的 JSON 对象;

2 每个对象须包含且只能包含一个键名为 text 的键值对，值不能为空;

posted @ 2025-03-21 21:52 paulwong 阅读(58) | 评论 (0) | 编辑收藏

大模型训练的几个阶段

大模型开发出来后, 一般要经过以下几个阶段的训练:

预训练(Pre-Trained)

单纯提供文本: {"text":"..."}

训练模型由第一个文字开始, 预测后面的文字, 直到结束.

这种模型只会做完成文本的任务

监督微调(Supervised Fine Turning)

为了使模型能完成根据指令完成回答, 而不是随机生成回答

提供的文本: {"instruction":"...", "output":"..."}

高效参数微调(Parameter Efficient Fine Turning)

只调整部分参数, 具体实现方法有LoRA

参考:

https://github.com/huggingface/smol-course/blob/main/1_instruction_tuning/notebooks/sft_finetuning_example.ipynb

posted @ 2025-03-18 13:14 paulwong 阅读(60) | 评论 (0) | 编辑收藏

python资源

python

https://www.w3schools.com/python/

https://www.runoob.com/python/python-basic-syntax.html

posted @ 2025-03-16 20:54 paulwong 阅读(26) | 评论 (0) | 编辑收藏

大模型微调后的评估指标

大模型微调后的评估指标是衡量模型性能的关键，通常根据任务类型和具体需求选择不同的评估指标。以下是一些常见的评估指标及其适用场景：

1. 分类任务

准确率（Accuracy）：预测正确的样本占总样本的比例。
- 适用场景：类别分布均衡的任务。
精确率（Precision）：预测为正类的样本中，实际为正类的比例。
- 适用场景：关注减少假阳性（False Positive）的任务。
召回率（Recall）：实际为正类的样本中，预测为正类的比例。
- 适用场景：关注减少假阴性（False Negative）的任务。
F1分数（F1 Score）：精确率和召回率的调和平均值。
- 适用场景：类别不平衡或需要平衡精确率和召回率的任务。
ROC-AUC：ROC曲线下的面积，衡量模型区分正负类的能力。
- 适用场景：二分类任务，尤其是类别不平衡的情况。

2. 回归任务

均方误差（MSE, Mean Squared Error）：预测值与真实值之差的平方的平均值。
- 适用场景：对误差较大的样本惩罚更重的任务。
均方根误差（RMSE, Root Mean Squared Error）：MSE的平方根。
- 适用场景：与MSE类似，但更接近原始数据尺度。
平均绝对误差（MAE, Mean Absolute Error）：预测值与真实值之差的绝对值的平均值。
- 适用场景：对异常值不敏感的任务。
R²（决定系数）：模型解释目标变量方差的比例。
- 适用场景：评估模型拟合优度。

3. 生成任务

BLEU（Bilingual Evaluation Understudy）：衡量生成文本与参考文本的n-gram重叠程度。
- 适用场景：机器翻译、文本生成任务。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：衡量生成文本与参考文本的重叠程度，侧重于召回率。
- 适用场景：文本摘要、生成任务。
METEOR：综合考虑精确率、召回率和词序的评估指标。
- 适用场景：机器翻译、文本生成任务。
Perplexity（困惑度）：衡量模型预测概率分布的不确定性。
- 适用场景：语言模型评估。

4. 多标签任务

Hamming Loss：预测错误的标签比例。
- 适用场景：多标签分类任务。
Jaccard Similarity：预测标签与真实标签的交集与并集之比。
- 适用场景：多标签分类任务。

5. 排序任务

NDCG（Normalized Discounted Cumulative Gain）：衡量排序结果的相关性。
- 适用场景：推荐系统、信息检索。
MAP（Mean Average Precision）：平均精确率的均值。
- 适用场景：信息检索、推荐系统。

6. 其他指标

训练时间：模型微调所需的时间。
推理速度：模型生成结果的速度。
资源消耗：模型运行所需的计算资源（如GPU内存、CPU使用率）。
鲁棒性：模型对噪声、异常值或对抗样本的抵抗能力。

7. 领域特定指标

医学领域：敏感性（Sensitivity）、特异性（Specificity）、AUC-ROC。
金融领域：收益曲线、夏普比率（Sharpe Ratio）。
计算机视觉：mAP（mean Average Precision）、IoU（Intersection over Union）。

8. 人类评估

人工评分：通过人工评估生成结果的质量（如流畅性、相关性、准确性）。
用户满意度：通过用户反馈评估模型的实际效果。

9. 模型对比

基线对比：与未微调的模型或基线模型进行性能对比。
消融实验：评估微调过程中不同组件（如数据、超参数）对性能的影响。

10. 综合评估

多指标综合：根据任务需求，结合多个指标进行综合评估。
任务特定指标：针对特定任务设计自定义指标。

在实际应用中，选择合适的评估指标需要结合任务目标、数据特点和业务需求，同时注意避免单一指标的局限性。

posted @ 2025-03-12 10:08 paulwong 阅读(168) | 评论 (0) | 编辑收藏

LLM全栈框架完整分类清单（预训练+微调+工具链）

https://blog.csdn.net/ViniJack/article/details/145789900

posted @ 2025-03-10 11:29 paulwong 阅读(39) | 评论 (0) | 编辑收藏