立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 67|回复: 2

AI模型训练,求高人指点!拜个师傅

[复制链接]

AI模型训练,求高人指点!拜个师傅

[复制链接]

370

主题

440

回帖

3484

积分

论坛元老

积分
3484
tubos

370

主题

440

回帖

3484

积分

论坛元老

积分
3484
2024-8-28 12:44:38 | 显示全部楼层 |阅读模式
前提说明:想给公司合作商的内部培训系统做一个AI知识库,知识库里大概有几百个文档+表格图片等。我根据网上的教程加上自己琢磨,跌跌撞撞部署好了Dify,但是有几个地方比较迷糊。用了一台新加坡的阿里云小鸡(2核4g)部署的。

知识库维护,我有一个excel表格,大概3M左右,里面有几千条相关的信息。怎么样才能传到知识库并且能每一行逐条索引成功。现在失败N次了
还有几本书,我也想丢上去索引。
但是目前用百度的Embedding-V1,基本上经常卡死,索引不成功。只能处理一些小文档。
其他知识库零零散散的也能索引完成,但是失败率很高,是不是必须要一条一条的录进去知识库片段才行?

目前主要知识库算是完成了,聊天助手模式,模型选择的是gpt4o。回答的内容马马虎虎吧,很多信息都不能完全从知识库检索。还没办**式用。

还有一些向量检索,rerank模型,TopK,存在惩罚,温度,TopP 什么的,根本不太懂怎么设置和训练
求高人能给一些指导和答疑,能通俗易懂一些的,最好能长期,可以给学费~想拜个师傅学习一下。
回复

使用道具 举报

5

主题

3

回帖

35

积分

新手上路

积分
35
GodZ222

5

主题

3

回帖

35

积分

新手上路

积分
35
2024-8-28 13:10:43 | 显示全部楼层
这个需求应该不用训练吧,搞个RAG就够了。
Dify没用过,用fastgpt搞了一个,操作起来挺方便的。
rerank模型可以不用,TopK,存在惩罚,温度,TopP这些要求不高的话可以直接用默认。
embedding模型推荐部个bge或者m3e,fastgpt文档里面都有教程。
回复

使用道具 举报

370

主题

440

回帖

3484

积分

论坛元老

积分
3484
tubos 楼主

370

主题

440

回帖

3484

积分

论坛元老

积分
3484
2024-8-28 13:58:15 | 显示全部楼层

GodZ222 发表于 2024-8-28 13:10

这个需求应该不用训练吧,搞个RAG就够了。
Dify没用过,用fastgpt搞了一个,操作起来挺方便的。
rerank模型 ...

现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gpt的都不太ok,求大佬指点
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-11-25 05:31 , Processed in 0.019947 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表