我特别喜欢的三个DeepSeek版本
图片大家好,我是 ai 学习的老章
最近工作非常繁忙,写一篇简短的文章
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
分享三个我经常使用的 DeepSeek 模型DeepSeek-R1-0528-Qwen3-8B
这是最新版的 DeepSeek-R1-0528,通过思维链蒸馏提取后对 Qwen3-8B-Base 进行了训练:DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,使用双 4090 显卡本地部署,效果非常好
这个模型有几个特点让我非常喜欢:
成本极低,模型文件大小仅 16GB,默认参数下,两张 4090 显卡即可流畅运行性能很强,无论是各种 Bench 测试结果还是个人体验,都能轻松应对参数和模型文件是其四倍大小的 Qwen32-B速度非常快,启动时两张 4090 显卡能达到 90Tonken/s目前 DeepSeek-R1-0528-Qwen3-8B 我主要用来做知识库意图识别、问题改写、问题分类
缺点:无法关闭思考功能,我用 vllm 启动,在 Dify 中即使直接关闭或者在提示词中加 no_think 都没用
DeepSeek-R1-0528R1 的小版本更新,但是提升明显,性能和推理能力都增强了不少:DeepSeek R1 最新版本模型,排名第三
这个模型应该算是可以免费使用的最强大的模型之一了吧
网页版我倒是很少用,主要是调 API 接口,主要用于 Obsidian 上查资料,翻译,写文章
图片以及在 Cursor 上写代码
图片缺点:响应速度较慢,在 Cursor 上写代码也不支持 Agent 模式
DeepSeek-V3-Fast近期发现的一个小众版本DeepSeek-V3-Fast,它是基于 DeepSeek V3 0324 版本优化后的极速版本
API 申请地址:
https://www.sophnet.com/#?code=IXFCAK
最大的优势就是推理速度,可以说是快如闪电⚡️
图片目前我主要把它用于 Obsidian 做内容总结,还有沉浸式插件中当翻译工具(确实非常快)
图片缺点是能力略逊于 R1,表现不太稳定
相关攻略
IT之家 3 月 17 日消息,据界面新闻今日报道,阿里巴巴集团正推进一项内部计划,向员工提供 Token 额度,鼓励员工在工作中使用先进的 AI 模型与工具。根据该计划,阿里员工可免费使用悟空、Q
MIT 学生如何用 48 小时学完一学期的课?起因是一位博主偶然目睹了一名 MIT 研究生的学习方式。 最近,社交媒体上一个帖子火了:MIT 学生如何用 48 小时学完一学期的课?起因是一位博主偶然
IT之家 3 月 13 日消息,科技媒体 Android Authority 今天发布博文,报道称在安卓 17 Beta 2 更新中,谷歌已启用更严格的高级保护模式,直接拦截非最新无障碍工具类应用调
北京商报讯(记者 陶凤 王天逸)3月11日,顺为资本发文称,其投资的企业华秋在电子设计自动化(EDA)领域取得破局式创新——正式推出国内首款深度融合大模型的AI EDA工具(KiCad Copilo
IT之家 3 月 10 日消息,人工智能工具虽能提升工作效率,但企业需警惕过度使用。IT之家注意到,这一结论发表于《哈佛商业评论》的一项最新研究,该研究调查了美国各行业大型企业中的 1488 名全职
热门专题
热门推荐
3月28日消息,iPhone 18 Pro的屏幕盖板在社交平台上意外泄露。与上一代产品相比,该机最直观的改变莫过于灵动岛面积的显著缩小。根据博主的最新爆料,iPhone 18 Pro的灵动岛挖孔区域
漏斗图是Excel中展示销售流程各阶段转化率变化的专用图表。方法包括:一、Excel 2016+内置漏斗图;二、条形图模拟(全版本兼容);三、Power BI嵌入(高交互);四、条
在电商运营中,及时掌握产品动态至关重要,而junglescout的产品监控警报功能就能帮您实现这一点。下面就为您带来入门指南。一、开启警报功能首先,登录您的junglescout账
《崩坏:星穹铁道》火主配队推荐:推荐一为火主+希儿+布洛妮娅+停云,火主承伤破盾,希儿主C爆发,布洛妮娅拉条增伤,停云回能加攻,适合BOSS战与高难副本。推荐二为火主+艾丝妲+青雀
从杜兆辉那里,夏晓兰知道堂姐夏子玉这几年的遭遇。成了逃犯后,夏子玉靠着那张介绍信逃到盛城,花光所有积蓄偷渡去港岛。因为不会说粤语,又没有身份,根本找不到工作。在地头蛇的连哄带骗下,夏子玉成为港岛街头





