立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 46|回复: 4

很多人连大模型是什么都不知道. 简单科普和探讨一下.

[复制链接]

很多人连大模型是什么都不知道. 简单科普和探讨一下.

[复制链接]

252

主题

1153

回帖

4514

积分

论坛元老

积分
4514
奧巴马

252

主题

1153

回帖

4514

积分

论坛元老

积分
4514
2025-1-31 20:36:37 | 显示全部楼层 |阅读模式
最近关于 DeepSeek 的消息满天飞,真真假假,难以辨别。

其中,有很多人以将模型上架到 Azure、Oracle、AWS 为荣,实际上,这并不值得过分炫耀。

你可以把训练好的模型想象成一个编译好的安卓 APK 安装包。这个模型可以上传到应用市场,也可以自行安装。你可以选择免费提供,也可以收费使用。

大平台,比如 Azure、百度、阿里云,都支持上传模型。其实,就像安卓手机支持安装 APK 一样,这些平台只是提供了一个运行环境。只要支持像 Ollama 这样的框架,它们自然也就支持部署模型了。

至于算法,就像是使用 Android Studio 开发 APK 文件。如果一个公司花了 100 人、3 个月开发了一款 App,另一个公司可能只需要 10 个人就能完成。只是团队规模的差异,但底层原理还是相同的,都是 Transformer 架构。就像 APK 只能安装在 Android 手机上一样,模型也有它适用的框架和环境。

而蒸馏(Distillation)则像是对 APK 进行了反编译,优化了代码,提升了速度和精度。通过这种方式,模型变得更加高效,执行得更快,效果也更好。


不知道这样说对不对,个人理解. 不对之处. 欢迎指正.
回复

使用道具 举报

0

主题

809

回帖

1870

积分

金牌会员

积分
1870
gspl

0

主题

809

回帖

1870

积分

金牌会员

积分
1870
2025-1-31 20:45:42 | 显示全部楼层


回复

使用道具 举报

21

主题

279

回帖

835

积分

高级会员

积分
835
opentt

21

主题

279

回帖

835

积分

高级会员

积分
835
2025-1-31 20:46:32 | 显示全部楼层
现在Sequence models不单是Transformer 架构,RNN, LSTM, GRU也是一大堆,

不少还有混用的趋势,根本区分不了了
回复

使用道具 举报

121

主题

682

回帖

2303

积分

金牌会员

积分
2303
redneck

121

主题

682

回帖

2303

积分

金牌会员

积分
2303
2025-1-31 20:49:58 | 显示全部楼层
蒸馏
更像是
压缩一个大型游戏
比如原版 GTA5 需要 90GB
而优化后的移动版只有 3GB
但游戏体验仍然不错。
或者更像
把 Photoshop 精简成 Snapseed
虽然功能减少了
但核心体验仍然保持
回复

使用道具 举报

252

主题

1153

回帖

4514

积分

论坛元老

积分
4514
奧巴马 楼主

252

主题

1153

回帖

4514

积分

论坛元老

积分
4514
2025-1-31 20:51:40 | 显示全部楼层

redneck 发表于 2025-1-31 20:49

蒸馏
更像是
压缩一个大型游戏

这个比喻不错.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2025-2-23 16:54 , Processed in 0.019318 second(s), 2 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表