问HN:有没有人用本地模型替换Claude/GPT进行日常编码?

标签: | 发表时间:2026-06-16 17:23 | 作者:
出处:https://news.ycombinator.com

Greenpants 11小时前 |下一个 [–]

我确实这么做了!我非常重视数据隐私,也希望LLM(生命周期管理)能够免费运行。我使用的是Pi编码框架,但将其容器化并沙盒化,以确保它完全离线运行。在我的Mac Studio(配备128GB内存)或MacBook(配备36GB内存)上,我使用Qwen3.6 35b版本,只启用了30亿个活动参数,因此运行速度非常快。我用Django + Wagtail对网站的首页和博客进行了彻底的重新设计。后者很有意思,因为Wagtail的知名度相对较低,所以代理程序在没有联网的情况下,有时无法识别Wagtail并进行开发。当情况变得更加复杂时,我会使用Qwen3.5 122b版本。不过,启用100亿个活动参数后,速度明显变慢了。
我注意到它与 Claude 等大型模型相比有一些不同之处。首先,你必须非常清楚自己要问什么,并且要精确;它不会为你做太多思考。如果留下任何假设,它就会选择最简单的路径来实现目标(例如在 HTML 中使用 CSS),而这通常并非架构上的最佳方案。

它经常陷入循环,而且令人惊讶的是,它经常会错误地调用编辑工具,之后它会花费大量的思考标记并重新读取文件,而不是重试(尽管系统提示建议这样做)。

将代理式 Qwen3.6 35b 与 Claude Opus 进行比较,就像一个知识面广但经验不足的初级开发人员,需要你指导他,而一个资深开发人员则会与你一起思考架构。如果 Opus 能带来 15 倍的速度提升,那么本地且完全离线的 Qwen 也能带来 5 倍的速度提升。考虑到它是完全免费的,这仍然让我感到难以置信 :)

回复

lambda 10 小时前 |父级|下一级 [–]

这跟我目前的配置非常相似。树莓派运行在一个容器里(我允许它访问网络,但不允许它访问任何凭据或其他资源,只允许它访问我当前正在编辑的目录和我的 ~/.pi 目录),并与另一个容器里的 llama.cpp 程序通信。我的笔记本电脑是华硕 Strix Halo,配备 128 GiB 统一内存。
我从未真正使用过前沿模型,我不相信在编程中使用专有工具,所以我无法进行比较。

我仍然对人工智能持怀疑态度,所以我做的测试和研究比实际使用要多得多。这意味着我花了很多时间试图破解各种模型,探究它们的优势和劣势等等。

但我发现,当我真的尝试将其用于智能体编码时,Qwen 3.6 35B-A3B 绝对是我最常使用的版本。

对于其他聊天任务和翻译,我经常使用 Gemma 4 31B。

音频方面,我将使用 Gemma 4 12B。

我手头还有一些其他型号的机器,时不时会试用一下(Qwen 3.5 122B-A10B、Qwen 3.6 27B、Nemotron 3 Super 122B-A12B、Step 3.7 Flash 和 Minimax M2.7,它们的量化参数都比较激进;如果我想要速度超快但不太智能的机器,我会选择 GPT-OSS 120B),但到目前为止,Qwen 3.6 35B-A3B 确实是这种配置下进行编码的最佳选择。

回复

chakspak 10小时前 |根|父|下一个 [–]

希望这不算跑题,但你的配置听起来跟我一样,都是在 ROCm 上运行 Strix Halo 和(我猜是)llama.cpp,我发现 Qwen 的混合模型无法处理提示缓存,而是每回合都重新处理整个上下文。我想知道你是否解决了这个问题,以及你是怎么解决的?
回复

lambda 10 小时前 |根|父|下一个 [–]

我主要用 Vulkan 而不是 ROCm。奇怪的是,Vulkan 实际上速度更快一些。我也会切换着试用,差别并不大,但我主要还是用 Vulkan。
我确实遇到过每回合都要重新处理上下文的问题。部分原因已经在上游的 llama.cpp 文件中修复了;请确保你的代码已更新到最新版本。

但造成此问题的另一个重要原因是,旧版 Qwen 模型不支持保留思考过程。这意味着,每次你进行一长串工具调用并穿插思考时,一旦你轮到你进行下一次对话,它就必须重新处理所有这些思考过程,因为它会丢弃所有推理信息。

然而,Qwen 3.6 现在支持保留思考过程。这需要更多解释,因为你并非每回合都丢弃思考过程,而是更好地利用缓存,避免每次都需要重新处理整个回合。

我的 models.ini 文件中,Qwen3.6 模型的相关配置如下:

  chat-template-kwargs = {"preserve_thinking": true}
虽然偶尔还是会遇到需要重新处理的问题,但更新到最新版本并启用 preserve_thinking 功能已经帮了大忙。
回复

thefroh 38分钟前 |根|父|下一个 [–]

我有点惊讶,preserve_thinking 在这里居然会对缓存产生影响。至于实际能力/智能,是的,我想在多轮推理设置中保留过去的推理轨迹确实会有帮助。
但对于缓存而言,你所做的只是省略了最近生成的一小部分助手消息,这对缓存命中率几乎没有影响。

回复

ndom91 9小时前 |根目录|父目录|上一页|下一页 [–]

+1 使用 llama.cpp Vulkan 版本和 Qwen 模型 - 运行效果比 ROCm 版本好得多。
我得试试 preserve_thinking 这个函数。

回复

jderekw 6小时前 |根|父|下一个 [–]

感谢分享。我主要使用 Qwen 3.6 和 Qwen Coder 运行 ROCm,运行效果好得多。您说的“运行效果好得多”是指稳定性、性能还是其他方面?
回复

dnautics 8小时前 |根目录|父目录|上一页|下一页 [–]

Qwen混合模型不支持提示缓存,而是每次都重新处理整个上下文。我想知道您是否解决了这个问题,以及如何解决的?
这不正是 LLM 的工作原理吗?或者你的意思是它会重新计算整个键值缓存而不是保存旧的键值缓存?如果是这样,问题很可能出在你的执行器(例如 llama.cpp、vllm)的配置或功能上?

回复

lambda 7 小时前 |根|父|下一个 [–]

因此,这个问题的一种表现形式是,大多数局部模型并没有针对保留回合间完整推理过程进行训练。每个回合,它们都会跳过将前几个回合的推理过程传递给局部逻辑模型(LLM)。所以,如果在一个回合中,你有一个很长的交错推理和工具调用链,模型响应了你的指令,然后你又发出一个新的指令来修复某些问题,那么它现在必须重新处理所有这些工具调用,而推理过程已经被剥离。
Qwen 3.6 终于完成了启用和禁用思维保留功能的训练,因此您可以选择启用思维保留功能。启用此功能会消耗更多上下文信息,但可以避免对较长的代理回合进行重新处理,而且思维保留功能还可以避免在后续回合中重复进行某些相同的推理。

除此之外,现代的LLM模型并非只使用完全注意力机制(显然,注意力机制并非万能)。完全注意力机制的计算和存储成本非常高(O(n^2))。而且,完全注意力机制在某些推理方面表现不佳;例如,它难以追踪随时间变化的值。因此,如今大多数模型都采用各种形式的局部注意力机制,这些机制具有固定长度,并会随着模型的运行而更新;例如滑动窗口注意力机制、Mamba-2状态空间模型等等。

但注意力机制的一个优势在于,你可以通过截断键值缓存并重新开始来回溯和重新处理数据。其他形式的局部注意力机制则无法做到这一点;因为在序列的早期阶段,你已经丢失了状态。

为了让你无需重新计算缓存就能回溯,你的引擎会在不同时间点保存局部注意力状态的快照。这样,如果你需要回溯并重新计算缓存,就可以从最后一个快照开始。然而,这些快照可能会变得很大,你无法保存太多,所以有时你需要回溯到很远的时间点才能找到某个快照,或者所有快照都已过了你需要回溯的时间点,你只能从头开始。

llama.cpp 中存在一些特定的错误,导致这种情况比预期更频繁地发生;例如,它曾经不会在包含图像的回合之前拍摄快照,因此,如果您有一个图像密集型的代理工作流程,该问题加上缺乏保存思维意味着您经常需要返回并从头开始。

有些问题已经修复,有些问题则通过保留现有思路来解决。但有时仍然存在一些问题;例如,一个难以解决的问题是,自回归生成的词元在进行预填充时解析结果并不总是相同。举例来说,你可能生成了两个词元“pre”和“fill”,但实际上“prefill”也是一个单独的词元,因此分词器会使用它。所以,当你在下一轮再次发送该词元时,分词器会发现解析结果出现偏差,并需要从该偏差点重新计算。或许可以忽略这个问题,直接使用缓存中非完全贪婪的分词方法,但我确实看到过 llama.cpp 代码因此需要进行一些缓存重新计算。

回复

carterschonwald 6小时前 |根|父|下一个 [–]

这是框架问题,不是模型问题。例如,我有一个自己的推理框架,它强制持久化 cot。
回复

dnautics 6小时前 |根目录|父目录|上一页|下一页 [–]

等等,SOTA 型号也用类似 Mamba 的 SSM 芯片吗?我还是第一次听说。
回复

荷兰语 5小时前 |根|父|下一个 [–]

Qwen 3.5 及以上版本使用门控 DeltaNet,该网络交替使用注意力层和 SSM 层:
https://sebastianraschka.com/llms-from-scratch/ch04/08_delta...

回复

verdverm 1小时前 |根目录|父目录|上一页|下一页 [–]

llama-cpp 对 qwen/gemma 模型存在 bug,请改用 vLLM。
回复

pdyc 34分钟前 |根|父|下一个 [–]

是什么漏洞?它会影响哪些方面?
回复

LoganDark 9小时前 |根目录|父目录|上一页|下一页 [–]

你使用的是什么框架?有些框架(例如 OpenCode)每回合都会修改系统提示符,因此无法与键值缓存一起使用。
到目前为止,我使用 Pi 的体验最好,但它缺少一些你可能习惯的功能(例如计划模式、子代理、MCP 客户端支持)。

回复

mahadevank 1小时前 |根目录|父目录|上一页|下一页 [–]

非常感谢您的评论。我之前用的是Qwen3,但不知道A3B混合专家模型。现在用起来好多了,谢谢!
回复

fjdjshsh 4小时前 |根目录|父目录|上一页|下一页 [–]

我仍然对人工智能持怀疑态度。
就编码而言,这意味着什么?

在我看来,这听起来像是对电饭煲持怀疑态度。有些人不喜欢用电饭煲,有些人则喜欢。

回复

femto113 2小时前 |根|父|下一个 [–]

对我而言,区别在于:米饭只需要吃一次,而代码可能需要保存几十年。用人工智能编写任何必要时可以轻易丢弃的代码,远比让它做出我和任何继承代码的人都必须承担后果的选择要轻松得多,尤其是在外包这些选择会降低我对这些选择后果的理解的情况下。
回复

HWR_14 2小时前 |根目录|父目录|上一页|下一页 [–]

我猜他们的意思是他们不确定这样做是否真的能加快速度。考虑到我不知道他们想做什么,这或许也情有可原。
回复

adyavanapalli 10 小时前 |父级|上一页|下一页 [–]

对于编辑工具,您应该考虑实现基于哈希的方法,即对每一行代码进行哈希处理,并在进行替换时引用该哈希值。您可以在这里阅读有关该方法的更多信息:https://blog.can.ac/2026/02/12/the-harness-problem/
我没有做太多基准测试,但根据我的个人经验,我发现它的编辑错误确实更少。结果可能因人而异。

回复

pieterk 6小时前 |根|父|下一个 [–]

是的,我用过一段时间,根据我的经验,它最初可能会让你获得几个百分点的有用上下文,所以质量感觉会更高一些,但是当你之后因为任何原因耗尽了这种质量时,事情就会以更滑稽的方式开始崩溃,所以绝对要谨慎购买。
回复

ojr 6小时前 |父级|上一页|下一页 [–]

我可以用自己搭建的框架配合 Gemini 3 Flash 用上大约 8 年,而且成本仍然不超过一台 128GB 的​​ Mac Studio,隐私的代价实在太高了。代理流程卡住的问题虽然可以解决,但我更喜欢开发速度。
回复

5小时前被忽略 |根|父|下一个 [–]

被低估的观点,感谢分享!
不是每个人都能立刻在硬件上投入巨资(有能力的人更应该如此),所以选择租赁是一个完全可以接受的策略。

回复

下午 1 小时前 |根|父|下一个 [–]

如果你能将代码和数据发送给服务提供商,那就没问题。但我们有些人做不到。
回复

westoque 4小时前 |父级|上一页|下一页 [–]

将代理 Qwen3.6 35b 与 Claude Opus 进行比较,就像一个知识面很广的初级工程师,你需要指导他,而一个高级工程师则会与你一起思考架构。
这就是我使用前沿模型的原因,因为它代表的是资深同事而不是初级同事。如果你为了保护隐私而使用初级同事,我认为你会错过针对特定任务的最佳见解。

回复

physix 4小时前 |根|父|下一个 [–]

我面临的难题是成本。
面向消费者的尖端机型订阅服务性价比极高,而且价格也得到了大幅补贴。但如果您在企业环境中工作,这种方式就行不通了。您需要升级,而升级成本会显著增加。

此外,基于利用廉价订阅的 SDLC 在未来可能会崩溃,无论是从成本角度还是可用性问题(例如 Mythos)。

因此,从战略角度来看,在法学硕士项目上采取本地化策略,并通过正确的方法取得优异的成绩是非常重要的。

回复

bxk76 3小时前 |根目录|父目录|上一页|下一页 [–]

由于大脑带宽有限,即使是最好的洞见也可能被高估。即便爱因斯坦整天坐在你旁边指导你,有限理性理论仍然适用。
回复

electronsoup 10 小时前 |父级|上一页|下一页 [–]

它经常陷入循环,而且令人惊讶的是,它经常错误地调用编辑工具。
我发现,使用更高级的量化算法(例如 Q8)可以避免这种情况,虽然运行速度稍慢,但总体上可以节省时间并减少数据变更。

使用 3.6-27b 比 3.6-35b 还要慢,但我发现精度提升非常值得。

回复

girvo 6小时前 |根|父|下一个 [–]

没错。对我来说,每秒解码的令牌数并不是最重要的:任务完成的实际耗时才是。而且,在我基于GB10的华硕电脑上,即使Qwen 3.6 27B使用了MTP协议,Step 3.7 Flash at IQ4_XS在所有实际代码库的编码任务评估中都胜过了后者。
Qwen似乎更擅长根据模糊的提示一次性解决问题,而且效果还不错,但这绝对不是我使用这些工具的目的!

如果用户尝试调整,会发现它对 KV 缓存中 K 部分的量化非常敏感。F16 K 和 Q8 V 消除了许多原本会遇到的循环。

llama.cpp 中关于 Step Flash 也存在回归问题,量化后的 KLD 和困惑度比以前更差,即使量化参数完全相同。非常奇怪,但至少目前正在调查中!

回复

地质爱好者 5 小时前 |父级|上一页|下一页 [–]

我的经历几乎完全一样。我发现我需要非常仔细地规划,把事情分解成一个个独立的小步骤(我可以让qwen来做这件事);而且(我自己)还需要写出非常清晰的设计稿。如果依赖qwen来填充很多细节,就会导致“即将编写”的循环。
是的,无法编辑确实很奇怪。我已经更新了 AGENTS.md 文件,限制了编辑(而不是重写),这稍微有所帮助。

回复

gwerbin 4小时前 |父级|上一页|下一页 [–]

我注意到Gemma和Qwen的编辑工具都存在同样的问题。也许是我使用的采样器设置不正确,但很高兴知道我不是唯一遇到这个问题的人。会出现很多不匹配的空格之类的问题,模型最终会进行十六进制转储,并且可能要尝试五六次才能将一个5行的函数编辑成一个250行的Python文件。
所有这些模型似乎都会陷入冗长的思考循环,有时甚至会使前沿封闭模型的标记数量增加三倍,这在推理速度本来就比较慢的情况下(在我的 Macbook 上)会非常痛苦。

回复

pieterk 6小时前 |父级|上一页|下一页 [–]

没错,它真的非常实用。
当问题的所有约束条件都已确定时,它可能比 Opus 更有用。模型中包含的“知识”较少(我为 80 亿量化指标分配了 48GB 内存),因此它需要考虑的因素也更少。

在过去的几周里,我已经相当了解它的局限性,我认为它是一个优秀的代码搜索/替换/生成引擎*。

它还具备“上下文脚本生成”流程,因此可以轻松地帮助您自动化您用文本描述的任务,以及您提供的示例命令、工具或技能*。

*可以把它 + Pi 看作是 grep 或 shell 之上的 NLP 抽象层,而不是包罗万象的万能工具 + 世界知识。

回复

ltononro 9小时前 |父级|上一页|下一页 [–]

你从事哪种类型的编程工作?你会持续关注前沿模型,以便对比差异并不断重新评估吗?还是你觉得长期使用一个性能有所削弱的模型就足够了?(我没有评判的意思,只是想了解你的框架。)
回复

Greenpants 9小时前 |根|父|下一个 [–]

我的一些工作是为一个欧盟​​组织做的,该组织目前还没有关于人工智能使用的明确规则或指南。虽然我见过一些同事开发者公然将源代码放到类似 Claude 的外部模型中,但我始终坚持原则,不会这样做。我确信,所有在我本地离线的 Pi 容器沙箱中运行的代码都不会离开机器,因此不会导致数据泄露。我这样做是为了安心。
每当有新的、功能强大的本地LLM(≤130字节)发布,并且授权允许商业用途时,我都会(非正式地)进行一些实验。至于我的模型比Opus需要更多的工作,我并不介意继续琢磨如何正确构建架构。无论如何,这迫使我时刻关注正在开发的内容,这是一件好事。

回复

kordlessagain 3小时前 |根|父|下一个 [–]

我看到了你的评论,现在就把 Pi 添加到 Nemesis8 中,谢谢!
https://github.com/DeepBlueDynamics/nemesis8

回复

psychoslave 51分钟前 |根目录|父目录|上一页|下一页 [–]

您能否详细说明一下如何搭建这样的装置?
我对树莓派不太熟悉,也不确定你指的是哪种容器。是像 Docker 这样主流的容器,还是像 BSD jail 这样更传统的容器?

我开始尝试使用本地化的 LLM(生命周期管理工具),通过 Ollama 和 Lemonade 来实现。这足以让我发出包含代码片段的简单提示,并进行小范围的代码重构。不过,我仍然在努力让它们与外部工具(例如我的 IDE)协同工作,以便能够将其提升到代理级别,并访问完整的代码库。

这主要是为了工作,因为他们大力推广使用LLM,不过有了他们提供的新副驾驶许可证,我甚至不到一周就能把所有代币积分都用光。

这个工具或许有用,但以我的经验来看,如果没有严格的防护措施和循环测试,它就难以发挥作用。我怀疑后期模型也会像某些机构那样,投入大量代币去钻研各种无稽之谈,而不是像人们预期的那样,利用其庞大的资源和实验平台,直接进行正确的实现。或许激励机制并没有帮助模型提供者减少代币销售,或许驯服这个“野兽”实在太难了,即使是拥有近乎无限资源的顶尖人才也无能为力。

总之,抱歉跑题了,但我很想得到一个关于如何在代理级别上使本地 LLM 工作的逐步教程,包括使其正常工作需要哪种硬件。

回复

0xbadcafebee 10 小时前 |父级|上一页|下一页 [–]

该测试框架和LLM参数对于获得更好的结果和减少循环至关重要。调整这些参数,您可以在不影响性能的情况下基本消除循环(这有点复杂,但您可以借助最先进的AI来指导,其实并不难)。该测试框架还应该能够更智能地应对故障;例如,它可以跟踪错误率和平均调用持续时间,并返回额外的上下文信息或提示。Pi易于扩展,作者建议您对其进行修改,以使其更适合您的用例。
回复

awllau 3小时前 |父级|上一页|下一页 [–]

根据你的解释,对于我这样一个完全不懂工程的人来说,完全离线学习似乎不太现实?我经常和语言学习导师们进行来回讨论,而我本人既不会读也不会写代码。
回复

spullara 6小时前 |父级|上一页|下一页 [–]

我觉得目前只有这套配置才比较适合本地使用。我找了个代理人,按照这个人的方案帮我配置好了:
https://ikyle.me/blog/2026/how-to-setup-a-local-coding-agent...

我所做的一项更改是将上下文长度从 64k 改为 256k。

回复

hparadiz 10小时前 |父级|上一页|下一页 [–]

我完全同意你的看法。简直不可思议。这技术简直跟魔法无异!我一时兴起,在一台用了十年的双路至强服务器上,用 Opencode 和 Qwen 运行了一些基本任务。我给它布置了一个简单的任务,比如“先用 ffprobe 测试,然后把这个 webm 文件转换成 mp4”,它居然在完全没有网络外部调用的情况下就完成了。要知道这可是十年老硬件啊!任务只用了三分钟就完成了。你可能会说三分钟?切!但我敢打赌,你自己试试就知道了。你至少得花十分钟在网上搜索命令行参数,然后才能设置好命令。我甚至让它根据初始的 ffprobe 测试结果,实时优化了所有参数,找到了最佳方案。
回复

bluerooibos 7小时前 |根|父|下一个 [–]

> 一台使用了10年的双路至强服务器……硬件也是10年前的。
等等,你的电脑配置是什么?内存有多大?

我一直在考虑入手一台 2018 年的翻新 Mac Mini,配备 64GB DDR4 内存,但我读到的所有资料都表明,它的速度会比我的 16GB M1 Pro Macbook 慢得多。

回复

hparadiz 7小时前 |根|父|下一个 [–]

我继承了一台配备双路至强处理器和 256 GB DDR4 内存的机器。然后,我用几种不同的模型对这台机器的硬件进行了多次测试和基准测试。
我一直想写篇博客文章,不过算了,这就是医学博士。

https://gist.github.com/hparadiz/f3596d00a62d8ebb2dadcc46ee5...

Qwen3.5 9B 表现最佳。

你当然仍然可以用它来做一些基本操作,比如让 OpenCode 将视频文件从一种格式转换为另一种格式。但说实话,你最好还是买两块 AMD 显卡。比如说,两块 7900XT 的性能会好得多。

回复

jmuguy 10小时前 |父级|上一页|下一页 [–]

鉴于您对这方面的了解,您认为我们会看到功能达到 Opus 水平的开源模式吗?依我之见,如果/当这种情况发生时,我会百分之百停止使用 Anthropic。
回复

Greenpants 10小时前 |根|父|下一个 [–]

这么说吧。我最初接触本地语言学习模型的时候,ChatGPT 还在使用 GPT-3.5。我当时很惊讶,我那台只有 8GB 内存的 MacBook 居然能运行 openhermes2.5-mistral:一个拥有 70 亿参数的模型,居然能生成勉强说得通的短篇故事。简直不可思议!
两年后,我正在运行 Qwen3.6 35b 的代理程序,用于开发代码库的初始版本并自动运行测试,从而不断改进自身。当年我从未想过 LLM 能发展得这么快。

我相当肯定,两年后,我们就能拥有参数量在 300 亿到 1000 亿之间的、质量与 Opus 目前的模型相媲美的模型。但到那时,Opus 6.3 的推理能力将会更加出色,我们仍然会对这些模型感到惊叹。展望未来固然重要,但我们也不要忘记欣赏当前本地模型已经取得的卓越成效 :)

回复

jmuguy 10小时前 |根|父|下一个 [–]

哈哈,我这么问是因为我大部分时间都只想要Opus,并不需要其他任何东西。而且我担心Anthropologie很快就会被迫公布所有这些产品的真实价格。
回复

Greenpants 9小时前 |根|父|下一个 [–]

运行本地 LLM 的另一个好处是,不会出现云服务提供商突然对相同甚至更少的模型使用量收取更高费用的情况。
这只是个人看法,但我更倾向于资本支出(CapEx)而不是运营支出(OpEx)。如果你能预先购买一台运行良好本地LLM的设备,你就能安心,因为你的配置不会随着时间推移而突然改变,而且只会越来越好。

回复

lambda 10 小时前 |根目录|父目录|上一页|下一页 [–]

如果基准测试结果可信,Qwen 3.6 35B-A3B 的性能已经超过了 Claude 4 Opus。
现在,一些开源模型在某种程度上会进行一些性能优化,参数更多的大型模型总是给人一种功能更强大的感觉。但无论如何,你现在笔记本电脑上的这个模型可以说可以与 Claude 4 Opus 相媲美。我个人没用过 Claude 4 Opus,所以无法进行比较。Claude 4 Opus 似乎仍然可以在 OpenRouter 上找到,如果你感兴趣的话,可以试用一下并自行比较。

某些专有云平台的运行能力可能永远都比笔记本电脑强。在多GPU集群上使用TB级显存可以完成的任务远超笔记本电脑。因此,对于那些追求极致性能的用户来说,Anthropologie可能是他们唯一的选择。

但就目前而言,你可以在笔记本电脑上运行的模型与 Vibecoding 和 Claude Code 刚兴起时流行的云模型相当。

回复

MrScruff 10小时前 |根|父|下一个 [–]

你真的需要对这些基准测试结果持保留态度。我从最初的 Llama 就开始测试本地 LLM,但我试过的所有 LLM 中,没有一个能和 Opus 相提并论。
回复

lambda 9 小时前 |根|父|下一个 [–]

是哪一款作品?它们肯定比克劳德3号作品要好。
总之,欢迎大家在 OpenRouter 上进行对比测试。我很想看到有人能写出测试结果,对比一下现代本地规模的开源模型和大约一年前的前沿模型,最好是使用标准基准测试之外的其他测试方法。

回复

mapontosevenths 8小时前 |根|父|下一个 [–]

YouTube 上有个叫 Bijan Bowen 的人,他一直在测试各种模型(开放式和前沿式),测试内容包括一系列单次或多次编程练习。你几乎可以观看他对比任何两个你可能感兴趣的模型的结果。
我跟他没有任何关系,只是喜欢他的风格,觉得挺实用。我知道他的方法不够严谨,但对我来说已经足够好了,而且我发现他举的例子跟我实际遇到的情况非常吻合。

回复

lambda 7 小时前 |根|父|下一个 [–]

好的,看来他用 Claude 4 Opus 和 Qwen 3.6 35B-A3B 都进行了浏览器操作系统测试。
克劳德 4 部作品:https://youtu.be/J7omabtqnBM?t =193

Qwen 3.6 35B A3B:https://youtu.be/gVU-DQeqkI0? t=215

Qwen 3.6 的功能比 Claude 4 Opus 多得多。

显然,这只是对一个简单的玩具操作系统进行的一次单次测试,但确实,这次测试表明,本地运行的 Qwen 3.6 的性能显著优于一年前的前沿型号 Claude 4 Opus。

回复

MrScruff 9小时前 |根目录|父目录|上一页|下一页 [–]

我通常会比较开源/低成本模型和闭源模型。我经常使用 DeepSeek/GLM,它们还不错,也能完成一些实际工作,但当你切换回 Opus 甚至 Sonnet 时,差距就非常明显了。3B 主动参数 MoE 模型根本无法相提并论。
回复

lambda 7 小时前 |根|父|下一个 [–]

是的。我当时指出的是,本地3B活跃模型比一年前的前沿模型表现更好。
这种趋势会持续下去吗?谁也说不准。前沿模式和本地模式都可能会继续改进。哪一个会先达到S型曲线的顶峰?这很难说。但你现在在本地能做的事情,肯定比一年前在前沿模式能做的事情要好,而一年前就已经有很多人在大量使用前沿模式了。

然而,到了11月,大多数人都认为前沿模型已经足够好用,可以满足大部分工作的需求。本地模型还不够完善(这里“本地”指的是“在当前内存和GPU价格下,能够在1万美元以下的系统上以合理的速度和量化能力运行”)。最大的开放权重模型正在逐步完善,但这些模型需要类似8台H100服务器的配置才能流畅运行。

如果同时比较不同型号的内存,前沿技术和本地内存之间可能永远存在差距,毕竟TB级的HBM内存比GB级的DDR内存功能强大得多。但是,本地内存的性能能否达到足以满足实际工作需求的水平呢?对很多人来说,答案是肯定的。

回复

shimman 2小时前 |根目录|父目录|上一页|下一页 [–]

同意,但就目前的价格而言,Deepseek 和 GLM 在我看来显然更胜一筹。这个周末我只花了 5 美元就买到了这两款产品,而如果买 Anthropic 的产品,我可能要花 20 到 30 美元(而且这还是在有巨额风投补贴的情况下)。
对于网站开发(或其他任何需要大量训练数据的领域)来说,它绝对是首选。就其成本而言,它无可匹敌。美国公司无法在竞争激烈的市场中立足,这就是为什么它们如此依赖美国政府的保护和企业福利。

回复

zozbot234 10小时前 |根目录|父目录|上一页|下一页 [–]

人们似乎对“Opus级”的含义都无法达成一致(最新的Opus显然很弱),但DeepSeek Pro、Kimi和GLM都相当强大。
回复

computerex 10 小时前 |根|父|下一个 [–]

就我个人经验而言,在网页设计方面,没有任何其他工具能与 Opus 相提并论。在处理极其复杂的高性能计算/模型推理开发任务时,也没有任何其他工具能与 Opus 相媲美。我曾使用 Opus 开发过这个项目:https ://github.com/computerex/dlgo
OpenAI 曾经提供过 2 倍使用量,但我仍然使用 Opus,因为它效率更高。

回复

lambda 6 小时前 |根|父|下一个 [–]

哪部作品?
自 2024 年推出 Claude 3 Opus 以来,Anthropic 一直在发布名为 Opus 的型号。

自那时以来,Opus 的功能已经大大增强。

本地模型远胜 Opus 3,在大多数基准测试中甚至超越了 Opus 4。

当然,如果和最新的 Opus 4.8 甚至 4.6 相比,它们还不够完善。但是 4 和 4.8 之间的性能差距非常大。

回复

jkells 5小时前 |根|父|下一个 [–]

我不能代表其他人,但去年11月前沿模型发生了重大变化。我记得是Opus 4.5和GPT 5.2。
我口语中常说的“作品级别”实际上指的是作品4.5级或更高级别。

回复

lambda 5小时前 |根|父|下一个 [–]

没错。本地模型目前还没达到那个水平。那些需要价值数万美元的硬件才能流畅运行的大型开源模型,性能已经基本达到那个水平了,但大多数家用模型还达不到。不过考虑到差距,如果本地模型继续改进,预计到今年11月就能达到那个水平。
回复

rvnx 10小时前 |根目录|父目录|上一页|下一页 [–]

对我来说,完全同意。更进一步说,如果他们继续走现有的路线,随着时间的推移,人们会停止使用 Anthropic。
越来越多的专业化、超高性能芯片将涌入消费市场。尤其是在新的硬件代工厂开始生产之后(当然,前提是我们在此期间没有死于第三次世界大战)。

10 年后,当连基本电脑都配备 128 GB 内存,手机也拥有超级优化的机型时,Anthropic 还有什么意义呢?

直接用Gemma/Gemini/Siri之类的就行了。

色情内容和未经审查的模特也正在推动本土模特的发展。

人们的需求并不是呈指数级增长,而是遵循渐近线(存在上限)。

真正的革命是离线机器人和自动驾驶汽车,但低层移动机器人已经发展到相当极限了。

对于程序员来说,Anthropic 目前提供的改进幅度大约只有 3%,无论是在已知的测试中(例如这只骑自行车的鹈鹕),还是在基准测试内部泄露的问题上。

还行,但算不上革命性的(《寓言》更好,但用起来很不方便,因为想得太多,一个提示就要花 20 分钟)。

回复

dotancohen 8小时前 |父级|上一页|下一页 [–]

  > you really need to know what you're asking, and be precise
能否分享一些最近的提示,帮助其他HN用户提前了解如何接近Qwen?如果您不方便在这里发布,我的Gmail用户名和我的HN用户名相同。
谢谢。

回复

Greenpants 8小时前 |根|父|下一个 [–]

很高兴你问到这个问题。我已经开始写一篇关于如何更好地利用本地模型的博客文章了。一旦我整理出足够完整的列表,就会分享出来。如果其他读者也想分享他们的技巧和窍门,请告诉我们!
就目前而言,我脱口而出地说:

- Prompt Engineering 的一些技巧和窍门也适用于此(例如,在你的问题中提供完整的相关上下文,以及代理应该执行的具体任务,例如推理、修改单个文件或尝试一次性修复复杂的任务(不推荐))。

- 如果您已经知道代理人应该查看哪些文件,请告知他们,以便节省时间和了解背景信息。

- 在我个人的工作流程中,我会写下解决问题所需的许多原子性待办事项。在写下这些事项的过程中,我会注意到我所做的假设,或者注意到这些待办事项还可以进一步分解成(原子性的)子任务。

最好自己去感受一下 Qwen 是如何处理你的代码仓库的。我发现,如果我不指定开发架构,它就会进行一些快速而粗糙的修复。如果我不告诉它删除调试语句,它也不会删除。这就是“要精确”的含义——Claude Opus 可能会替你思考,并按照你的最佳利益行事。较小的 Qwen 模型只会执行你要求的操作,不会做更多。它们具备设计知识,但你必须明确地要求它们“激活”这部分知识。

回复

motbus3 9小时前 |父级|上一页|下一页 [–]

尝试使用 DeepSeek V4 闪存
回复

timmit 6小时前 |父级|上一页|下一页 [–]

我买了一台 48GB 内存的 MacBook,但不知为何连 20b 型号都运行不了,我很惊讶你们本地居然有 35b 型号。
回复

klardotsh 5小时前 |根|父|下一个 [–]

4-5 位量化模型应该很适合你的设备。你可以看看 HuggingFace 上的 Qwen3.6-35B-A3B-MTP-GGUF [1]。他们最近还提供了一个很棒的 UI 工具,可以帮助你了解哪些量化模型可以在你的硬件上运行。
添加 KV 缓存后,Full Octane 几乎不可能安装在 128GB 以下的机器上。

[1]: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF

回复

nyxtom 9小时前 |父级|上一页|下一页 [–]

您是否发现,更加注重规格说明有助于更好地指导项目?
回复

rjblackman 3小时前 |父级|上一页|下一页 [–]

或许你可以试试 oh-my-pi,因为它声称通过使用独特的补丁格式来改进编辑调用。
回复

GardenLetter27 10小时前 |父级|上一页|下一页 [–]

该程序能否检查工具调用是否失败,并将其传递给小型模型进行修正,而不会阻塞主上下文?
回复

lambda 10 小时前 |根|父|下一个 [–]

问题是,要进行正确的修复,真的需要所有上下文信息(也许失败的工具调用是对一个文件进行编辑,而该文件最后一次被修改是在上下文的开头),所以你需要要么让这个较小的模型一直运行并进行提示处理,要么在它对整个会话进行提示处理时等待很长时间。
此外,有时工具调用错误是因为某个文件被替换掉了;较大的模型可能能够更好地找出问题并进行修复。

最后,在 Pi 中,您始终可以使用 `/tree` 命令跳转到一系列工具调用失败之前的状态,并可根据需要添加摘要,以便模型了解发生了什么。Pi 的 `/tree` 命令在管理上下文方面非常强大。

回复

8 小时前 |根|父|下一个 [–]

我经常看到的一个例子是,在项目中创建 Jira 工单时,如果自定义字段被标记为必填项,系统会尝试创建工单,但缺少该字段,导致工具调用失败。LLM 需要访问完整的上下文信息,才能生成文本并填充到“为什么这次会议不能以电子邮件形式进行?”字段中。
回复

Greenpants 10小时前 |根目录|父目录|上一页|下一页 [–]

我其实相当肯定,直接重试工具调用通常就能修复编辑调用。但这些模型经过训练,需要一段时间才能“思考”出问题,所以它们会假定编辑问题更加根本,从而浪费不必要的令牌来填充上下文。
我会进一步试验 AGENTS.md 规则对本地 Pi 代理的有效性。我觉得与 Claude 模型相比,较小的(本地)LLM 模型对上下文窗口中的元素(例如精确指令)的关注度不足。

回复

amelius 9小时前 |父级|上一页|下一页 [–]

听起来很酷,别误会我的意思,但我认为对大多数人来说,门槛应该比 HTML/CSS 更高。
回复

喷嘴装置 2 小时前 |根|父|下一个 [–]

我使用 Mac Studio 上的本地 LLM 来编写和运行 F# 单元测试套件,以及其他一些我不想自己做的枯燥的项目杂务。
回复

q3k 8小时前 |根目录|父目录|上一页|下一页 [–]

我喜欢启动一整排服务器,就为了让某个糟糕的、有bug的TUI生成一行bash代码,把我的测试运行器注释掉。
我们真的生活在一个极其愚蠢的时代。

回复

krainboltgreene 3小时前 |父级|上一页|下一页 [–]

就像一个知识面很广的初级员工,你需要指导他,而不是一个能和你一起思考架构的高级员工。
我不想冒犯你,但你的领英个人资料显示,你从事编程工作的时间加起来(往多了说)也就8个月左右(职位是人工智能工程师)。其余时间充其量也只是与编程沾边。你怎么能真正了解这两种情况呢?

回复

SoftTalker 2小时前 |根|父|下一个 [–]

自从前雇主要求所有人创建LinkedIn个人资料后,我就再也没登录过或查看过它。所以我的个人资料现在已经过时大约20年了。
回复

krainboltgreene 2小时前 |根|父|下一个 [–]

他的观点非常新颖。但并非每个人都像你一样。
回复

yieldcrv 9 小时前 |父级|上一页|下一页 [–]

它经常陷入循环。
与我的经验相符,而且是决定性因素。

此外,上下文窗口的大小也太小了。我再也无法同时操作 65,000 个窗口了,因为即使只是阅读代码的文件结构也会超出窗口大小,让我一无所获。这绝对是一门独特的艺术。

现在对我来说,上下文窗口数量达到 20 万个或以上就可以了。

我昨晚看到一篇论文,应该对这个问题有很大帮助。

回复

Greenpants 9小时前 |根|父|下一个 [–]

我明白这对某些人来说是无法接受的;这确实需要耐心。
在 Pi 中,/new 绝对是我最得力的助手,也是我最常用的命令。对于简单的任务(无论如何,我都会将复杂的任务分解,因为我不信任小型本地 LLM 能帮我完成这些任务),模型不需要太多上下文信息,因为我对自己的代码库非常熟悉:“我需要特性 X。请查看文件 1、2 和 3 进行修改。”

回复

kennywinker 9小时前 |根目录|父目录|上一页|下一页 [–]

如果你的显存足够,Qwen3.6-35b 可以很好地处理 256k 的上下文。我目前只用了 16GB 显存,运行的是 128k 的上下文。
回复

horsawlarway 11小时前 |上一页|下一页 [–]

个人使用可以。
我放弃了每月 100 美元的 Claude 订阅,转而运行指向 unsloth studio 的 pi 线束,根据心情使用 qwen (unsloth/Qwen3.6-35B-A3B-MTP-GGUF) 和 gemma (unsloth/gemma-4-26B-A4B-it-GGUF) 型号。

我有一台大约 5 年前组装的机器,里面装了两块 RTX3090 显卡(反正我本来就打算组装一台新的游戏机器,而且 llama 显卡刚发布,所以我又加了一块二手的 3090 显卡),这两款显卡(UD-Q4_K_XL 量化)都能达到约 150tok/s 的速度,并且可以在不退出显存的情况下使用完整的 300k 上下文长度。

说清楚点——它不如克劳德。但它是免费的,而且差得也没那么严重,所以差别不大。

就我个人而言,免费比每月 100 美元好。

我还有一个指向同一推理服务器的 openclaw 实例,它非常适合用于本地模型(这确实是一个可靠的用例)。

一些示例项目

- 适用于安卓电视的替代启动器(带有儿童使用情况监控和追踪功能)

- 为我的 Kubernetes 集群服务定制的管理门户

- 定制化家庭助手集成/自动化(最近集成了一些用于电源监控和切换的 Shelly 设备)

- 购物清单管理和膳食计划(主要通过 OpenClaw)

- comfyui 中一些用于 3D 资产生成的自定义工作流程。

---

简而言之,如果你想通过软件赚钱……我可能还是会建议你使用付费服务商。不过,本地软件也能实现很多很棒的功能。

回复

根位置 11 小时前 |父级|下一级 [–]

两块 RTX3090 显卡大约 4400 美元。不包括任何电费或其他部件费用,相当于 3.6 年每月 100 美元,克劳德。
回复

9小时前 |根|父|下一个 [–]

假设 100 美元/月的 Claude 订阅服务在三年后仍然存在。
回复

booi 6小时前 |根|父|下一个 [–]

三个月后它还能存在,我们就很幸运了。
回复

horsawlarway 11小时前 |根目录|父目录|上一页|下一页 [–]

是的,现在不是购买硬件的好时机。
我买的时候,每个花了850美元。而且我反正也需要一台来玩游戏。

我估计下一个买入的好时机将在24-36个月后,具体取决于人工智能泡沫的走向。

---

我还要补充一点,我个人不太喜欢苹果的硬件(与其说是硬件问题,不如说是他们的公司理念问题),但是他们采用统一内存(或AMD最新的统一内存产品)的机器速度与我的3090显卡相当,而且可能是目前更好的本地LLM入门级产品。

这个笑话的由来是这样的:硅谷的软件开发商为了开发 OpenClaw 而买光了所有的 Mac mini。

你可以花大约 2000 美元买到一台配备 48GB 统一内存的 M4 Pro Mac mini。如果你不打算用这台机器做太多其他事情,那么它就是我目前会选择的经济型推理设备。现在花一年时间使用 Claude,就能在接下来的十年甚至更长时间里几乎免费地获得大约 150tok/s 的运算速度。

如果你想要性能更强的处理器,并且愿意多花一点钱,那就选择新款的 Ryzen AI Max+ 395 机器。

你的电费也会降低。

我最后的建议是,现在就去买一块RTX 3090显卡。你可以用更少的钱买到性能更好的显卡。

回复

tracker1 8小时前 |根|父|下一个 [–]

如果你愿意选择 AMD 的产品,那么与 Nvidia 相比,AMD Radeon Pro R9700 的价格确实很有吸引力。
回复

felooboolooomba 7 小时前 |根|父|下一个 [–]

Radeon显卡也能运行LLM吗?
回复

lloyd-christmas 2小时前 |根|父|下一个 [–]

我用一块 R9700 显卡运行 qwen 27B:Q4 @ 130k 上下文,线程速率为 50 t/s,还有一块 7900XT 显卡作为它的子代理运行 mellum 12B:Q8。R9700 在低功耗和降频方面表现非常出色。它的设计功耗是 300W,我的这块被限制在 210W,性能下降只有 8%。如果我家里有其他地方可以放我的台式机,我会把它的功耗提高到 240W,性能也不会有任何损失。
回复

freetonik 11小时前 |根目录|父目录|上一页|下一页 [–]

如果你喜欢玩PC游戏的话,那也意味着多年的顶级PC游戏体验。
回复

augusto-moura 10小时前 |根|父|下一个 [–]

双RTX 3090对于游戏来说性能过剩,你完全可以用更少的钱在最高画质下流畅运行市面上所有已发售的游戏。
回复

drnick1 10小时前 |根|父|下一个 [–]

一块 RTX 3090 对于游戏来说绝对不算性能过剩。如今,它甚至勉强能在一些新出的游戏中达到 4K 分辨率 60 帧。但令人惊讶的是,我的这块 3090 显卡现在可能还和我四年前买的时候一样值钱。
回复

arcanemachiner 6小时前 |根|父|下一个 [–]

现在它可能更值钱了。
回复

9小时前 |根目录|父目录|上一页|下一页 [–]

对于游戏来说,拥有第二张显卡其实并没有什么好处。
回复

5小时前低血糖 |根目录|父目录|上一页|下一页 [–]

我无法以 240Hz 刷新率和路径追踪运行 4K HDR 的《赛博朋克 2077》,帧率只有 120fps 左右。我的显卡是 Blackwell 6000。我买它不是为了玩游戏,但有些游戏和配置确实会遇到显卡瓶颈的情况。我甚至连 8K 电视都没有。
回复

googletron 10 小时前 |根目录|父目录|上一页|下一页 [–]

什么?
回复

kakacik 10小时前 |根|父|下一个 [–]

据我所知,英伟达显卡现在协同工作(以前称为SLI)的效果并不好。所以那说法不属实。
此外,两代之前的处理器意味着光线追踪性能很差,路径追踪甚至可能根本无法进行。我几乎可以肯定,如果不开启DLSS升频器,它无法在所有设置都调到最高的情况下流畅运行原生4K分辨率的《赛博朋克2077》。

回复

himata4113 10小时前 |根|父|下一个 [–]

你可以将第二张显卡用作分担任务的显卡,用于图像放大、帧生成等等。
回复

爱尔兰咖啡 9 小时前 |根|父|下一个 [–]

当我不运行模型时,我会将第二个虚拟机以直通配置连接到 Windows 虚拟机,用于各种用途,通常是玩游戏。
回复

driverdan 5小时前 |根目录|父目录|上一页|下一页 [–]

如果你花2200美元买一块3090显卡,那你就是个冤大头。它们根本不值这个价。
回复

氟化处理 1 小时前 |根目录|父目录|上一页|下一页 [–]

去二手市场看看,别去新市场。肯定有一些价格比新车便宜得多。
回复

jmuguy 10小时前 |根目录|父目录|上一页|下一页 [–]

或者,把游戏设置调到最高,玩《Satisfactory》会获得非常棒的体验,这是无价的。
回复

matheusmoreira 6小时前 |根目录|父目录|上一页|下一页 [–]

这些GPU还可以玩视频游戏或挖掘加密货币。它们之后还可以出售。
我们应该拥有物品,而不是租赁。我们都应该尽一切努力阻止传说中的2030年计划的实施。

回复

tripleee 10 小时前 |根目录|父目录|上一页|下一页 [–]

基督显卡的价格已经疯了
AMD显卡在LLM模式下的性能如何?一块9070显卡售价约为600美元,配备16GB显存。

回复

9小时前 |根|父|下一个 [–]

就我个人经验而言,我不会为了编程而使用 16GB 的存储卡——常用的模型体积略大,难以达到合理的运行速度。
回复

lambda 9 小时前 |根目录|父目录|上一页|下一页 [–]

应该效果不错。内存带宽是令牌生成的最大瓶颈,644 GB/s 的带宽在 9070 上应该能很好地完成任务,而提示符处理更依赖于计算能力,Nvidia 在这方面往往更胜一筹。
16 GiB 的内存容量不够用,所以你可能至少需要 2 倍的内存,最好是 3 倍的内存,然后你还需要一块能够承受这种容量的主板、电源等等。

回复

tracker1 8小时前 |根|父|下一个 [–]

根据你所在地区的不同,你可以花大约 1200-1400 美元买到一块配备 32GB 显存的 R9700,这对于 AI 应用来说可能比两块 9070(xt) 更好。
回复

lambda 7 小时前 |根|父|下一个 [–]

是的,当然。
回复

nyrikki 11小时前 |根目录|父目录|上一页|下一页 [–]

使用三块 1080ti 显卡和稀疏配置可以达到 60tps,我估计两块 16GB 的 5060ti 显卡也能达到同样的效果,价格在 1200 美元左右。一块 3090 显卡就足以搭建一个实用的系统,即使是在老旧的 AM4 主机上。
回复

flowerthoughts 10小时前 |根目录|父目录|上一页|下一页 [–]

3.6年后,它们很可能仍然值3000美元。除非出现新的芯片制造厂,能够大量生产芯片,从而扰乱市场。即使人工智能泡沫破裂,我也不认为我们会看到高显存GPU的价格暴跌。
回复

kpw94 10小时前 |父级|上一页|下一页 [–]

> gemma (unsloth/gemma-4-26B-A4B-it-GGUF) 模型
既然你正在运行量化(在 UD-Q4_K_XL),请查看“qat”模型(unsloth/gemma-4-26B-A4B-it-qat-GGUF)!

- https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF(6月 9日更新:新增MTP支持。)

- https://blog.google/innovation-and-ai/technology/developers-...

回复

me_bx 9小时前 |根|父|下一个 [–]

今日学到:
量化感知训练 (QAT) [...] 能够在保持与 bfloat16 相似质量的同时,显著降低加载模型所需的内存。

回复

SubiculumCode 7 小时前 |根目录|父目录|上一页|下一页 [–]

QAT模型的编码能力如何?自从发布以来,我一直在寻找相关评价,但没找到太多。
回复

twothreeone 10小时前 |父级|上一页|下一页 [–]

> unsloth/Qwen3.6-35B-A3B-MTP-GGUF
实际上,我也在本地尝试过完全相同的模型……尽管只是在 128k 上下文的单个 3090 上,使用 Q4_K 量化时,我得到了大约 40-60tok/s 的速度。

最让我恼火的是,在处理中等复杂程度的实际编程任务时,输出结果的质量实在太差。在“提示/感觉”和“手动实现”之间来回切换实在太麻烦了,因为你每隔几分钟就得扪心自问:是不是我的操作“不对劲”或者这个模型本身就太笨了。

它似乎也无法很好地处理从“底层实现细节”到“高层设计”的过渡,例如,它无法轻松渲染表格之类的元素。使用 Claude 时我没有遇到这个问题……所以我觉得目前来看,它还不是一个可行的替代方案。我真心希望几个月后情况会有所改变。

哦,我用“aider”替换了 Claude CLI,这可能也不是最佳方案……我不确定。当然,MCP 市场很有用,不过理论上你也可以随着时间的推移手动替换它们。

回复

horsawlarway 10小时前 |根|父|下一个 [–]

我一般不会自己动手实现模型,尽管确实有些时候我会停下来,在任务进行过程中进行纠正。
它倾向于进行更长时间、更重复的思考,再一次——它绝对不是作品 4.7/4.8。

我一直使用 pi.dev 作为我的框架,并且惊喜地发现它非常好用(我曾经使用过 aider,但只是很短的时间,而且是很久以前的事了——所以我无法真正进行比较)。

我觉得克劳德现在的状态和一年前差不多——大部分课程需要更多地采用“结对编程”的方式,而不是“让它运行几个小时”。

即使在工作中使用像 Opus 这样的工具,我也非常喜欢频繁的“人机交互”式工作流程。我对很多事情都有自己的看法,而不断强调模型应该停下来询问意见,似乎能让我获得更好的结果,而无需“重新迭代”。

我做过不少管理工作,我觉得现在的工作量大概相当于一个初级开发人员一天的工作量,而我每五分钟就能完成。就像初级开发人员一样,你需要经常引导项目回到正轨。

Opus现在给我的感觉更像是一个中级工具。我可以把一部分工作交给它然后“离开”,但如果我全程在线监控/指导,产出效果会更好。

回复

unethical_ban 9 小时前 |根目录|父目录|上一页|下一页 [–]

我对这些东西完全不了解,这是我从事IT行业以来第一次感觉自己如此落后。
我使用 Claude Opus 快速有效地编写了一些 100-200 行的脚本,这些脚本与供应商的 API 集成,而且它几乎一次性就完美地完成了这两个脚本。

我想知道,对于很多这类本地模型来说,人工智能辅助的范围是否应该缩小:先设计好工具和功能定义,然后让人工智能一次实现一个?有人严格按照这种方法来做吗?

回复

gonzalohm 11小时前 |父级|上一页|下一页 [–]

通过添加第二个 GPU,每秒令牌数是否翻了一番?还是增幅远小于此?
回复

horsawlarway 11小时前 |根|父|下一个 [–]

推理速度并没有实质性变化。它基本上只是允许我添加更多上下文信息或更大的模型。
单个 RTX-3090 的运算速度大致相同,但其显存容量不足以容纳 300k 的全部运算量。

有时候这很重要,但很多时候并不重要。

就速度而言,MOE 型号表现出色。现代型号性能提升的最大优势在于采用了 MOE 架构。

我从 Gemma-4 31B 密集型模型和 Gemma-4 26B MOE 模型(均为 Q4 量化)中获得了非常相似的质量,但 MOE 版本运行速度约为其 3 倍(150tok/s 对 46tok/s)。

回复

mirekrusin 11小时前 |根目录|父目录|上一页|下一页 [–]

你添加额外的GPU是为了增加显存,而不是为了提升速度。
回复

agup792 11小时前 |父级|上一页|下一页 [–]

听起来很棒。如果我手头有闲置的显卡,我肯定会这么做。不过,不然的话,感觉成本会很高。
回复

anhtqweb 8小时前 |父级|上一页|下一页 [–]

购物清单管理和膳食计划听起来很有意思。您能否详细介绍一下您的使用场景?
回复

bluejay2387 11小时前 |上一页|下一页 [–]

我大约 90% 的编码工作都是在 Qwen 3.6 27b 和 OpenCode 上完成的,还用到了一些自定义技能和 Semble。它虽然不如 CC 或 Codex 那么智能,但足以完成我的大部分工作。我最初并没有打算取代 CC 和 Codex(我有一块 RTX 6000 显卡,所以 TPS 对我来说已经足够快了,不过 RTX 6000 最初是用于其他工作的)。我只是想尝试一下,看看在编码方面,Qwen 能达到怎样的前沿水平,结果还不错,所以我就继续用了。对于非常复杂的问题和需要优化 UI 的地方,我仍然会用到 Codex,因为这似乎是 Qwen 最薄弱的环节。我并不推荐大家使用 Qwen,因为我觉得大多数人都没有 RTX 6000,而且成本相当于多年的 CC 或 Codex MAX 订阅,但至少这看起来是可行的。也许再过几年,它就真的会变得实用了。
其他说明:我不得不将紧凑目标设置为 75%,上下文窗口大小为 256k,因为一旦对话长度达到 100k 左右,我就会发现质量和速度开始下降。这个问题在 150k 左右时变得非常严重。我也尝试过 Qwen 3.5 122b,但它在编码方面似乎比 3.6 27b 差很多,尽管它的模型更大。也许是因为我使用的是 4 位量化器,或者是我配置不正确?我知道 3.6 是较新的版本,但我没想到它的性能会超过上一代更大的模型。Gemma 4 31b 在其他任务方面表现不错,但至少就我个人经验而言,Qwen 在编码方面更胜一筹。Nemotron Super 120b 在很多方面都很出色,但它在编码方面似乎也不如 Qwen。这让我非常惊讶。

回复

河北 11 小时前 |父级|下一级 [–]

我也是,我用的是 Qwen 3.6 27b (Q6 quant) 版本,搭配 llama.cpp 脚本,运行在 RTX 5090 显卡上,现在只用 pi 代理。因为是本地运行,所以我完全不用担心代币定价、配额、时间段或者数据敏感性等问题。我把 GPU 的功耗从 600W 限制到了 450W,这样系统在推理过程中几乎不会发出任何噪音。
我已经变得非常“懒惰”(这是好事),以至于除了编程之外,我还开始用这个模型来处理许多日常琐事:

  * "commit this on a branch, push, create a PR and assign $nickname for review"
  * "Use the Stripe CLI to download all open and overdue invoices and reconcile them with this CSV export from our bank account."
  * "Use these Elasticsearch credentials to summarise what kind of operations are causing load at the moment."
  * "Tell me if our codebase already supports X and where it's  implemented."
回复

amarshall 7小时前 |根|父|下一个 [–]

您使用的上下文长度和键值缓存量化值(如果有)是多少?以及 MTP 模式?
回复

lloyd-christmas 1小时前 |根|父|下一个 [–]

我不是你问的那个人,但我有一块 9700,显存和你的一样。在上面运行 Q6 测试,使用未量化的键值,上下文信息量为 50k。加上 `-ctv q8_0` 参数后,上下文信息量增加到 70k。我通常使用未量化的键值,在 50 t/s 的线程速率下(mtp 3),以 130k 的上下文信息量运行 Q4 测试。需要说明的是,我使用的是 PCIe 4.0 x8 通道,所以速度会略慢一些。我发现量化键值会导致工具调用时 JSON 数据损坏,而且几乎无法恢复,但具体情况可能因人而异。
回复

bo1024 11小时前 |父级|上一页|下一页 [–]

Qwen3.5-122B 实际上是 Qwen3.5-122B-A10B。A10B 表示这是一个“专家混合模型”,其中每次只激活 10B 个参数。而 Qwen3.6-27B 是一个“密集模型”,其中所有 27B 个参数始终处于激活状态。因此,对于许多任务而言,27B 密集模型的性能通常优于 122B-A10B 模型。
回复

用户43928 8小时前 |父级|上一页|下一页 [–]

我被迫在工作中使用 Qwen 3.6 27b,发现它几乎毫无用处。与其让它引入另一个混乱的机制或把调试搞得一团糟,还不如手动完成所有工作。
除了用作更智能的搜索功能外,感觉使用 Sonnet 以下的软件都是在浪费时间。

令我感到奇怪的是,你居然会提到 Codex 的 UI 优化,因为它的 UI 水平出了名的差,远不及 Claude Opus。Altman 曾明确表示,他们正在努力改进,以期在下一代产品中实现这一目标。

回复

sejje 8小时前 |根|父|下一个 [–]

它可能擅长分析和审查、编写文档、提交 Git 代码等等——即使它不擅长编码。
所有那些繁琐的杂务。

回复

用户43928 7小时前 |根|父|下一个 [–]

糟糕的人工智能文档编写和提交记录并不理想,尤其是在团队合作中。
同事们提交的合并请求描述明显马虎且经常不准确,我几乎觉得受到了冒犯。

也就是说,我发现人工智能在处理很多繁琐的工作方面很有用,例如解决合并冲突或将更改拆分为单独的合并请求。

尤其是后者,我在处理小型模型时遇到了很多问题,它们会把我想移动的更改搞得一团糟。即使尝试了第二次,GPT 5.4 mini 也未能成功地将 10-20 行代码移动到另一个文件而不对其进行任何修改。

回复

htrp 11小时前 |父级|上一页|下一页 [–]

为什么是 27b 而不是 35b?教育部在编码方面真的差那么多吗?
回复

electronsoup 10 小时前 |根|父|下一个 [–]

是的,相同尺寸下,MoE的性能确实稍逊一筹,但即使启用CPU内存卸载,通常也能以可观的速度运行更大的MoE。高密度模型确实需要100%占用显存。
回复

amarshall 7小时前 |根目录|父目录|上一页|下一页 [–]

可以对 MoE 的总参数和有效参数取几何平均值,以获得与密集模型参数近似等效的质量。因此,sqrt(35*10)≈18.7。
MoE 的权衡之处在于,在总尺寸相同的情况下,它的性能较差但速度更快。

回复

codinhood 12小时前 |上一页|下一页 [–]

我觉得你很难得到什么“真正”的答案。现在不用最新最好的模型的机会成本实在太高了。
我每个月都会研究这个问题,得出同样的结论:目前来看,要让本地模型(以及相关的编码工具)的性能接近 Claude Code 的 Sonnet/Opus 版本,所需的时间、精力和成本都太高了,根本不值得。如果真的值得,那它早就成为新闻热点了。

并不是说我否定了可能已经有人解决这个问题,我只是想用奥卡姆剃刀原理来避免钻牛角尖。

回复

pyeri 11小时前 |父级|下一级 [–]

机会成本错失恐惧症(FOMO)这种心态总有一天会达到饱和点,而我认为我们已经过了那个点。神话类模型完全是另一种东西,它在推理方面非常先进,但对于大多数开发者试图解决的问题领域来说用处不大。
目前的 Sonnet/Opus 版本(约 4.8)很可能最终会成为企业用户普遍使用的版本。虽然本地化版本尚未推出,但可以通过 NVIDIA、OpenRouter、Groq 等 API 使用 DeepSeek、Kimi、GPT、MiniMax 等系列产品提供的经济型替代方案,这些方案的性能与 Sonnet 非常接近。

回复

codinhood 10 小时前 |根|父|下一个 [–]

对,这正是我要等的。
就我个人而言,我认为我们还没达到那个阶段。虽然我确实认为模型改进已经开始趋于平缓(达到局部上限),但我并不确信局部模型已经能与sonnet/opus相媲美。差距仍然很大。但我很期待这些模型能够达到那个水平。

回复

phyzix5761 3小时前 |父级|上一页|下一页 [–]

谁要承担机会成本?对于所有企业和工程师来说,支付前沿模型的费用都变得异常昂贵。
回复

mark_l_watson 10 小时前 |父级|上一页|下一页 [–]

听起来这个结论也正确。我正在尝试过渡到一个分层系统:本地系统,然后是带有商业厂商 API 的 OpenCode 系统(例如 DeepSeek v4 闪存),最后是 DeepSeek v4 Pro 系统。
通过分层部署的方式,我们可以逐步过渡到更多本地运行,同时仍然能够完成所需的工作。实际上,我的本地配置比两个月前好得多,比六个月前更是好太多了——而且硬件配置都没变。

回复

sakopov 11小时前 |父级|上一页|下一页 [–]

这似乎就是答案。组装一台配备不错显卡的电脑要花费 2000 美元以上,而且效果也不尽如人意。还不如继续使用每月 100 美元的 Claude 子版块,直到开源替代方案的性能能够与目前的顶级型号相媲美。
回复

gunapologist99 7小时前 |父级|上一页|下一页 [–]

与其考虑奥卡姆法则,不如考虑帕累托法则?
如果你真的相信它会在未来几年内实现,那么你现在就可以开始尝试了(而且,是的,你会非常惊讶,特别是对于较短/较小的项目或模块化良好的大型项目)。

回复

MadrasThorn 10小时前 |父级|上一页|下一页 [–]

但它在加速硬件创新方面表现出色。
回复

jrm4 12小时前 |父级|上一页|下一页 [–]

但你实际上是在用每秒代币数来衡量机会成本,对吧?
我认为,例如每秒令牌数(乘以或乘以私有模型的感知质量)是否真的意味着“更好或更有用的输出”,还有待观察。

我强烈怀疑事实并非如此。(不过我也强烈怀疑这一点很难衡量,因为在这里弄虚作假的动机太强了。)

回复

codinhood 11 小时前 |根|父|下一个 [–]

如果你认为模型指标未必能转化为有用的输出,我同意。我衡量模型成功与否的标准并非如此,这也不是我想表达的重点。我尝试在实际项目中搭建模型并进行测试。
我的意思是,如果本地模型在实践中真的能与 Claude Code 相媲美,就不会出现这样的讨论帖了。这对用户来说显而易见,而且会造成巨大的混乱。如果个人和公司可以在本地运行模型并持续获得类似的结果,为什么还要花几百甚至几千美元购买 Claude Code 呢?

我每个月都会重新考察当地的生态系统,希望答案有所改变。但到目前为止,我的经验表明情况并没有改变。

回复

jrm4 5小时前 |根|父|下一个 [–]

例如,我亲眼目睹微软维持垄断地位长达十多年,我的经验表明,“质量永远胜过炒作”这句话根本没有任何道理。
克劳德很有可能只是在炒作中占了上风。

回复

拉斯顿伯里 11 小时前 |根目录|父目录|上一页|下一页 [–]

我认为他们指的是,节省下来的时间(用于完成本地模式无法完成的事情或纠正其错误)的机会成本,与订阅成本之间的权衡。
回复

pierotofy 12小时前 |上一页|下一页 [–]

是的。Llama.cpp + Qwen3.6-35b (MTP) + OpenCode 功能强大,仅需一块 RTX 3090 显卡即可运行,速度比大多数云端模型都快。画质堪比 8-12 个月前的边缘模型。详细设置信息请访问 https://github.com/pierotofy/LocalCodingLLM/
回复

jacobgold 11小时前 |父级|下一级 [–]

“质量就像是运行8-12个月前的尖端模型一样。”
这对于业余爱好者来说听起来很棒,但恕我直言,直到六个月前(2025年12月25日)发布的Opus 4.6版本,我们才拥有了一个足够好的模型,可以供专业人士用作其编码代理的主要驱动工具。这似乎才是值得努力达到的目标。

回复

kelnos 4分钟前 |根|父|下一个 [–]

我不确定你说的“主要驱动程序”是什么意思,但我发现即使是Sonnet在编码任务中也相当有用,大约在 12-14 个月前(当时我太抠门,不愿意每月支付超过 20 美元,而 Opus 很快就达到了我的限额)。
当然,我现在从 Opus 中获得的价值要大得多,但我完全可以理解有人出于隐私(或其他)原因,决定将自己限制在 8 到 12 个月前的 Opus 性能范围内。

回复

兄弟 11 小时前 |根目录|父目录|上一页|下一页 [–]

我非常同意,正是那个版本让这些工具变得足够好,能够显著提高我的工作效率。我必须承认,在那之前我对人工智能编程一直持怀疑态度。
回复

dnautics 10 小时前 |根|父|下一个 [–]

对我来说(可能是因为我使用的语言),我在九月份左右经历了一个相当大的高峰,在一月份左右经历了一个巨大的高峰。
我现在使用的项目库是由 Claude 在九月份完成最终完善的 OT 库。

回复

故事 5 小时前 |根目录|父目录|上一页|下一页 [–]

使用一些本地模型,您已经可以在子任务上达到 Opus 4.6 的性能水平。因此,您需要选择合适的代码编写、计划编写、代码测试等模型,以满足您的预期目标,并使用允许为不同子任务调用不同 LLM 的编码工具。例如,人们使用 StepFun 3.x 或 DeepSeek4-Flash 进行计划,使用 Qwen3.6-27B 进行编码。
回复

alexandra_au 2小时前 |根目录|父目录|上一页|下一页 [–]

你的日期和型号都错了,是 2025 年 11 月发布的 Opus 4.5 改变了一切,Opus 4.6 于 2026 年 2 月发布。
回复

jacobgold 2小时前 |根|父|下一个 [–]

你说得对。12月的时候感觉确实不一样了,但Opus 4.5实际上是在2025年11月24日发布的。
https://www.anthropic.com/news/claude-opus-4-5

回复

Projectiboga 11小时前 |根目录|父目录|上一页|下一页 [–]

所以,在本地开放模式下,可能需要 6 到 8 个月才能达到可用水平?当然,最先进的技术会领先一年,按照目前的速度,相当于一代技术。
回复

pierotofy 11小时前 |根目录|父目录|上一页|下一页 [–]

我工作时使用它。
回复

jacobgold 11小时前 |根|父|下一个 [–]

如果你喜欢那样当然没问题,但很难想象在有质量更好、价格相对于员工成本而言更低的产品可供选择的情况下,这会是一个完全理性的选择。或者你的使用场景有什么特殊之处?
回复

vector_spaces 11 小时前 |根|父|下一个 [–]

并非所有工作都需要每个环节都做到如此精细的优化,而且可能还存在一些你完全看不到的限制。有些限制我很容易想象:比如,父母所在的行业监管严格,他们的IT团队行动迟缓且疑神疑鬼,而这是一种安全且不引人注意的变通方法,输出结果对他们来说“足够好”,而且他们觉得不断调整也很有趣。
无论如何,我认为在对这个人处境缺乏了解的情况下,如此居高临下地评判他,并没有什么益处。即使你完全了解情况——也应该尊重他人,不要妄加评判,或者至少把评判放在心里。让别人觉得自己很愚蠢,只会让人对你接下来要说的任何事情都失去兴趣。

回复

pierotofy 10小时前 |根目录|父目录|上一页|下一页 [–]

在我看来,不理性的是,你竟然认为你必须租用工作工具,同时还要将雇主的所有知识产权暴露给第三方。这只是个人观点不同而已。
回复

jacobgold 10小时前 |根|父|下一个 [–]

我并不认为你“必须”租用工具,但这无疑是2026年务实的选择。我和大家一样都希望这种情况能够改变,而且我相信这种情况迟早会发生。
回复

lokar 11小时前 |根目录|父目录|上一页|下一页 [–]

这难道不取决于你的用途吗?功能较弱的系统可能足以应对样板代码、适度的重构等等。毕竟,不是每个人都会一次性构建完整的功能。
回复

epolanski 6小时前 |根目录|父目录|上一页|下一页 [–]

你们为什么不愿意花点时间努力,反而总是追逐最新最潮的东西呢?
你们一定是那种用 React 和 Tailwind 写网站,假装自己是工程师,对所有事情都发表意见的人吧。

回复

trueno 11小时前 |父级|上一页|下一页 [–]

我有一台128GB的MacBook Pro(M4 Max),一直想折腾一下这些东西,但实在抽不出时间。这里有没有用类似配置的Mac用户能分享一下经验?
我总是看到关于本地化的精彩辩论,但这个领域的规则一直在变化,而且所有相关的术语对我来说都很陌生。我很想了解那些有客观经验的人,在选择本地化产品时,他们觉得失去了什么(或者得到了什么),这样我才能自己判断这些东西是否适合我。

回复

brycesub 11小时前 |根|父|下一个 [–]

如果你有一台128GB的Mac,你真的应该试试Redis创建者开发的这个项目:https://github.com/antirez/ds4。这可能是最接近最先进的本地LLM+代理编码方案了。
回复

__mharrison__ 8小时前 |根|父|下一个 [–]

今天早上刚在我的DGX Spark上试用了一下。速度比Frontier系列慢一些,但我每月200美元的周套餐额度在还剩3天的时候就用完了……
(不应该在高模式下进行重构工作)

回复

trueno 9小时前 |根目录|父目录|上一页|下一页 [–]

这真是太有趣了,谢谢你让我注意到它。
回复

lostlogin 10 小时前 |根目录|父目录|上一页|下一页 [–]

谢谢。
回复

htrp 11小时前 |根目录|父目录|上一页|下一页 [–]

使用你的 ClaudeCode 子程序,并让它为你进行设置。
回复

dirkolbrich 8小时前 |根目录|父目录|上一页|下一页 [–]

我的机器跟你的一样。你可以看看https://omlx.ai/,这是一个“macOS 原生 MLX 服务器”。pi.dev 则提供带有 MCP、网络搜索和子代理扩展功能的代理。
回复

atomicnumber3 11小时前 |父级|上一页|下一页 [–]

我也是。我再也不想用克劳德了。
回复

pierotofy 11小时前 |根|父|下一个 [–]

没错。去他妈的 Anthropic、CloseAI 以及这个领域所有其他唯利是图者。
回复

akulbe 10小时前 |根|父|下一个 [–]

我有一台配备 96GB 内存的 M2 Max MacBook Pro。对于这种配置,您会选择哪些型号和配置?
回复

monirmamoun 9小时前 |根|父|下一个 [–]

下载 LM Studio 来试用,它能让你搜索模型……试试 4 位、5 位或 6 位的 Qwen3.6-35B-A3B(6 位 XL 版本近乎完美),然后用 Pi Coder 或其他外接工具来访问它……你也可以试试 Unsloth Studio,先用同样的模型试试。LM Studio 稍微容易上手一些,Unsloth 的质量可能更好。顺便说一句,这两个软件的质量都不算特别好(也就是说:它们崩溃或运行异常的频率太高,不适合作为完整的生产解决方案,但可以用于本地编程)。下载这两个软件后……你就可以在 Hugging Face 上搜索模型了。只需输入 qwen 即可开始搜索……然后就可以开始尝试了。你需要使用 LM Studio 和 Unsloth 提供的 HTTP 接口将树莓派编码器线束连接到引擎 API,所以请确保你找到了相应的 URL 并启用它……例如 127.0.0.1:1234/api 就是一个典型的 IP 地址(localhost)和端口号(1234 是 LM Studio 使用的端口)。
回复

daveidol 11小时前 |父级|上一页|下一页 [–]

你是直接在文档中提到的那台 Windows 机器上进行开发工作,还是通过另一台机器远程访问它?我这么问是因为我有一台闲置的 RTX 3090 显卡,装在游戏台式机里,但我没有用它来做任何开发工作(我用的是 Macbook Pro)。
回复

snake_n_my_boot 9小时前 |根|父|下一个 [–]

我的配置和你类似,一直用它来学习和研究开源模型。我在游戏台式机上运行 Ollama,然后从我的 MacBook 上用 OpenCode 访问它。目前为止,一切都很顺利。
回复

lelandbatey 11小时前 |父级|上一页|下一页 [–]

我用过,挺好,工作能完成,但我知道他们说“是真的”的时候是认真的。
“质量就像运行8-12个月前的边缘模型一样。”

别指望它能写出像《大作》那样的巨著,它更像是一首俳句。如果你对它进行精细的管理,就能取得显著的成果。但如果你把它当成一个被困在盒子里的人,它就会一事无成。

回复

迪拉 11 小时前 |父级|上一页|下一页 [–]

是我做错了什么吗?还是ollama已经彻底变质了?
我在https://ollama.com/search上查看,排名前几位的型号,例如 kimi-k2.7-code,都带有“云”字样,但我似乎无法通过 ollama 获取它们。

我以为 ollama 的全部意义就在于它不是云?

回复

satvikpendem 11 小时前 |根|父|下一个 [–]

不建议使用 Ollama。请使用 llama.cpp。
回复

hoherd 11小时前 |根目录|父目录|上一页|下一页 [–]

一两个月前我也遇到过同样的情况。一位朋友发给我这篇文章,让我受益匪浅。https ://sleepingrobots.com/dreams/stop-using-ollama/
回复

jmorgan 11小时前 |根目录|父目录|上一页|下一页 [–]

较大的模型可以在 Ollama 的云端使用,因为大多数人没有运行 500B-1T 参数模型的硬件。
回复

jubilanti 9 小时前 |根目录|父目录|上一页|下一页 [–]

我以为 ollama 的全部意义就在于它不是云?
起初确实如此,但后来开发者们意识到他们拥有庞大的用户群,可以从中获利。这和开源软件的历史一样悠久……

回复

toyg 11小时前 |根目录|父目录|上一页|下一页 [–]

没错,你说得太对了。Ollama 正拼命想复制 Cursor 的成功模式——就像这个领域里的其他 3791 个项目一样。
回复

dominotw 11小时前 |父级|上一页|下一页 [–]

如果我想现在就购买所有硬件,并且考虑到增加的电力成本,整套设备需要多少费用?
回复

sosodev 12小时前 |上一页|下一页 [–]

这个问题的问题在于它涵盖了非常广泛的功能和预期。如果你只会运行一个 8B 的模型,却期望它擅长氛围编码/一次性解决问题,那你肯定会遇到麻烦。
如果你的模型规模能达到约 300 亿,你会发现,在任务范围合理且定义明确的情况下,它们的表现非常出色。目前,我发现 Gemma4-31B 和 Qwen3.6-27B 是这个范围内最好的模型。你可以使用 MoE 模型来加快推理速度,但它们在大多数任务上的表现明显更差。它们可以处理小规模的单次/VIBE 编码任务,但在指导下表现会更好。

如果你真的想要体验前沿科技,你可能至少需要 128GB 的​​内存,以及强大的计算能力或足够的耐心。大多数人既没有足够的钱,也没有足够的耐心来运行这些本地模型。

本地模型的使用需要的耐心远不止等待令牌那么简单。要让所有组件都针对您的工作流程和硬件进行正确配置和运行,需要花费大量精力。

回复

argee 12小时前 |父级|下一级 [–]

我在我的MacBook(M4 Pro,48GB内存)上使用Gemma 4 26B A4B来学习Rust(以及提出其他各种各样的问题)。我不相信它能在IDE/框架中胜任一次性完成除最细微的更改之外的任何工作。尽管如此,它的速度和性能都足以胜任小型到中型任务的“副驾驶”角色,让你能够专注于驾驶,同时又不超速行驶。考虑到几年前的情况,这确实令人惊叹。
如果不是这样,我想我根本不会用人工智能来编程。(我不想仅仅因为断网就感觉自己停滞不前或束手无策。)

回复

用户43928 8小时前 |父级|上一页|下一页 [–]

我使用较小模型(在本例中特指 GPT 5.4 Mini)的经验是,它们无法在不修改文件并引入错误的情况下,一次性将 10-20 行代码更改移动到另一个文件。
我并不指望它绝对可靠,但我想至少在你指出差异之后,他们第二次就能做对。结果却并非如此,它斩钉截铁地告诉你,现在的代码完全一样了,只是在差异中又加入了一个不易察觉的错误。

我不明白在什么情况下这些垃圾模型才算合格。或许它们能勉强应付几分钟,但最终结果肯定不对。在我看来,它们充其量只适合用于更智能的搜索或自动补全功能。

回复

4小时前 |根|父|下一个 [–]

与其让机器人去做,自己去做岂不是更快?
回复

Kostic 11小时前 |上一页|下一页 [–]

出于个人需要,我将 VSCode 与运行 Qwen 3.6 27B 或 Gemma 4 31B 的 llama.cpp 连接起来,这足以让我取消云订阅。
Qwen 在我的第一块 GPU 上运行,q4@176k 上下文从 70 tok/s 到 50 tok/s,使用 MTP,对于编码来说相当不错。

另一方面,Gemma 同时使用两个 GPU,运行 q8@64k 上下文,进行文档情感分析、摘要生成、校对和翻译,速度稳定在 25 tok/s。速度稍慢,但对于批量工作流程来说足够用了。一旦 llama.cpp 开始支持带有张量分割模式的 MTP,速度可能会更快。

因为我不用自己掏钱,所以现在还在用 Frontier 的 LLM 教材,而且这些教材显然更好。希望一年左右我们就能用上 Sonnet 4.6/Opus 4.5 的 30B 级教材。

编辑:请求处理速度从 800 t/s 开始,逐渐下降到 400 t/s。大多数情况下,我的初始请求包含大约 16k-24k 个 token,需要 60 到 90 秒才能处理完毕。速度不算快,但可以接受。

回复

fitzn 3小时前 |父级|下一级 [–]

你在 VS Code 中使用哪个扩展程序连接到本地的 llama.cpp 文件?还是通过 GitHub Copilot 进行身份验证,然后指向 localhost?或者还有其他方法?
回复

khimaros 2小时前 |根|父|下一个 [–]

我专门为 vscode/llama.cpp 制作了这个:https://github.com/khimaros/mortar
回复

arjie 13小时前 |上一页|下一页 [–]

虽然不是“本地”编码,也不是交互式编码,但分享出来或许有用。我用的是两块 RTX Pro 6000 Blackwell 显卡,运行 DeepSeek V4 Flash。原始速度是 160 tok/s,但这是推理模型。我的应用场景是让它自动生成代码,然后另一个系统自动审查这些代码。
我偶尔会用它和树莓派一起编写一些代码,速度非常快,但让我继续使用 CC 和 Codex 的主要原因还是习惯。

回复

akersten 11小时前 |父级|下一级 [–]

我有两块 RTX Pro 6000 Blackwell 显卡。
你在哪里找到/订购的这些东西?我找到的所有网站要么缺货,要么只卖给企业,要么就是其他方面不太靠谱……

回复

arjie 8小时前 |根|父|下一个 [–]

我经营一家小型企业(https://technologybrother.com),运营一些小型SaaS项目,所以我通过企业销售渠道订购了GPU。如果注册有限责任公司(LLC)是障碍,那么注册费用相对较低。好处是,如果你拥有合法且需要GPU的企业,你可以加入英伟达的Inception Program,享受相当不错的折扣。
回复

zackify 4小时前 |根目录|父目录|上一页|下一页 [–]

Microcenter 是最方便的地方,但几乎所有商家在你发邮件给他们并拥有有限责任公司 (LLC) 后都会卖给你。不过,Microcenter 是购买最便捷的地方,但几乎所有商家在你拥有有限责任公司后都会向你出售商品。
回复

CamperBob2 3小时前 |根目录|父目录|上一页|下一页 [–]

根据我的经验,Central Computer 是一个不错的资源:https://www.centralcomputer.com/all-products/ai-components/a...
我跟他们没有任何关系,只是从他们那里订购过几次东西。

回复

轻子 12 小时前 |父级|上一页|下一页 [–]

你测量过这套设备的耗电量吗?我想知道你一个月要花多少钱。
回复

ux266478 11小时前 |根|父|下一个 [–]

远没有你想象的那么贵。在我住的地方,1.2千瓦的电费大约是每小时0.12美元,而且这还是满负荷运转的情况下。如果你有不错的太阳能发电系统,晴天的话电费就只占很小一部分。
最贵的部分是前期硬件成本和房屋所需的电气系统升级费用。

回复

轻子 5 小时前 |根|父|下一个 [–]

我每小时电费大约 0.19 美元,而我仅仅用了一半的电量,就运行着一个大型机械硬盘 RAID 阵列、一些虚拟机和监控摄像头。电费让我不得不重新考虑一下我的电子产品消费习惯。你可能比我挣得多得多。
回复

mtone 8小时前 |根目录|父目录|上一页|下一页 [–]

以下是使用两块 RTX Pro 6000 显卡进行 DeepSeek-V4-Flash 基准测试的结果:
  - Prefill: ~10K tok/s
  - Decode: 190 | 375 | 980 tok/s (for 1 | 4 | 16 concurrent requests)
  - GPU power draw during benchmark: Average: 585W | Max: 849W | Limit: 1200W with undervolt. Idle PC is 125W.
我要求它根据缓存提示和解码的实际组合,计算以下内容,以适应代理开发场景。
仅电力(每千瓦时 0.08 美元)

  Usage          | IN price  | OUT price | Monthly cost
  Concurrency=1  | $0.040/M  | $0.080/M  | $8.65 to $38.88 (5% to 100% active)
  Concurrency=4  | $0.024/M  | $0.044/M  | up to $48.67 (cheaper per token but higher power draw)
三年总拥有成本为电费 + 2 万美元(涨价前价格)。在实际生产环境中,如果目标是 24/7 全天候 4 个并发请求,我需要向用户收取多少费用才能实现收支平衡?
A) API 盈亏平衡定价(预计每月 20 亿输入 + 10 亿输出吞吐量):

                        IN price    OUT price
  Self-hosted           $0.121/M    $0.363/M
  OpenRouter (budget)   $0.098/M    $0.196/M
  OpenRouter (DeepSeek) $0.140/M    $0.280/M
B) 盈亏平衡订阅(用户每天活跃约 1.5 小时):
    1 user: $563/mo (oh, hai)
    25 users: $23/mo
    100 users: $6/mo
回复

arjie 4小时前 |根|父|下一个 [–]

我赞同你的评论,非常棒!你用的是什么算法才能达到 190 tok/s 的速度?我的算法在 c=4 时能达到 400 tok/s,但 c=1 时速度比你慢。
回复

mtone 1小时前 |根|父|下一个 [–]

我正在使用来自 RTX6K Discord 社区的 `voipmonitor/vllm:lucifer` Docker 镜像,该镜像在其他评论者提供的链接中也有讨论。它基于这个 PR:https://github.com/vllm-project/vllm/pull/43477
回复

CamperBob2 1小时前 |根目录|父目录|上一页|下一页 [–]

我不是原帖作者,但我使用https://github.com/local-inference-lab/rtx6kpro/blob/master/...中的配方,在 c=1 的情况下,用 4 张 6k 显卡,最高能达到 260 个 token/秒的输出速度。平均速度大概在 200 左右。
或许有办法让 2 位量化版本在其中一对机器上运行得更快。

回复

stymaar 11小时前 |上一页|下一页 [–]

是的,Qwen3.6-35B-A3B 安装在 Strix Halo 128GB (Bosgame M5) 上。
我的显卡显存对于这种型号来说绰绰有余,但Qwen从未发布过Qwen3.6的122B版本,而这才是最适合我硬件的型号。不过,我的电费几乎可以忽略不计,这毕竟是笔记本芯片,性能也确实如此,待机时几乎不耗电,即使在高负载运行时也只略高于120瓦。

对我来说,Qwen3.6 的效果出乎意料地好,我仍然偶尔使用 Clause,但只满足我大约 10% 的需求,这使我即使使用最便宜的套餐也能很好地控制在配额之内。

速度:~800tps 提示处理速度和 50tps 令牌生成速度(无推测性解码)。

回复

manmal 11小时前 |父级|下一级 [–]

你试过 27B 密闭版本吗?它更适合编码。
回复

anana_ 11小时前 |根|父|下一个 [–]

可惜的是,在 Strix Halo 或任何类似的统一内存架构下,由于内存带宽太小,运行高密度模型会非常慢……但我同意,27B 的确更胜一筹。
回复

stymaar 10小时前 |根|父|下一个 [–]

没错。所以我很失望没有推出 122B 版本,虽然是 27B 版本,但那是给 Strix Halo 用户用的。
回复

garethsprice 9小时前 |上一页|下一页 [–]

我用的是 OpenCode + OhMyOpenCode + Qwen 3.6 35B-A3B Q_4_KM,在 Ada 4000(20GB 显存)上生成,速度是 55 tok/秒(比听起来慢,因为 OpenCode 添加了很多上下文信息)。打算有空的时候研究一下 pi,最近经常听到有人提起它。
我使用 Opus 生成计划,然后由本地代理商执行,最后由 Opus 进行验证。因此,我还没有完全实现本地化,但这些模型正日益成为我生产工作流程的一部分。除非你是喜欢花时间和金钱进行折腾的业余爱好者,否则现在可​​能还不值得这么做。

这套配置当然不如Opus或其他高端车型那么“好”,但对于越来越多的重复性任务来说已经“足够好了”。你没必要开劳斯莱斯去超市,一辆二手卡罗拉就能把你送到目的地。

它还支持一些使用前沿LLM(尤其是代币成本上涨的情况下)成本过高的新工作流程——例如,我晚上会使用Chrome开发者工具的MCP,并设置上述流程,以用户身份进行几个小时的模糊测试,看看它是否会破坏某些功能。我甚至让它支持多模态,可以检查屏幕截图,这真是让我大吃一惊(当然,我的钱包可没遭殃,因为Claude加上屏幕截图可是要烧钱的)。

“落后前沿技术12-18个月”的说法差不多,这跟我当年用GPT-4O和基础硬件时的情况差不多。我估计再过12-18个月,我们就能拥有Opus级别的模型,可以在本地运行,成本低于5000美元……但前沿模型将会发展得更快(除非政府阻挠)。真是令人期待。

回复

jodoherty 10小时前 |上一页|下一页 [–]

我使用树莓派和 RTX Pro 6000 Blackwell 运行 Gemma 4 31b 来进行所有代理编程。
我觉得它很有用。

这个业余项目体现了我目前在工作中规划和处理项目的方式类似:

https://git.theodohertyfamily.com/wg-wrap.git/tree/README.md

https://git.theodohertyfamily.com/wg-wrap.git/tree/CASE_STUD...

你必须在你的方案中运用大量的精心架构和测试驱动开发(TDD)。通过尽早解决难题并将其封装在一个简单易用的界面中来消除技术风险。

我发现,如果用电脑编写,某些项目的完成速度可以提高 2-3 倍。对于一些枯燥乏味或范围过广的项目,电脑还能帮助我快速整合和尝试各种想法,从而节省 5-10 倍的时间。

设置方面,我会在使用 nvidia/Gemma-4-31B-IT-NVFP4 的 vLLM 和使用 unsloth/gemma-4-31B-it-qat-GGUF 的 llama.cpp 之间切换,并启用 MTP 协议。我将 GPU 功耗限制在 400W。

我目前的 llama.cpp 配置的令牌生成速度在 60-150 个 t/s 之间,具体取决于 MTP 草稿的接受率。预填充速度在 1500-4000 个 t/s 之间,具体取决于上下文的长度/深度。

回复

土豆 55 分钟前 |上一页|下一页 [–]

我有一台内存很大的Mac,但考虑到Deepseek比我本地运行的任何程序(包括Deepseek本身的大量量化版本)都好得多,而且运行成本极低,我甚至觉得电费都太不划算了。它便宜得简直不可思议!
回复

jborak 10小时前 |上一页|下一页 [–]

我使用 4 块 RTX 5070 显卡和第一代 AMD Threadripper (1950X) 处理器,搭配 llama.cpp 运行 Qwen3.6 27B (MTP) Q6_K 版本,作为树莓派的日常主力机运行良好,速度大约在 50-60 toks/秒。我还连接了一些其他应用程序,例如 OpenWeb UI,最近还设置了 Bifrost(一个 LLM 网关),作为我所服务模型的主要接入点。
我尝试过其他模型,例如 Qwen3.6 35B A3B,但发现 27B 模型在编码方面更适合我。虽然它是密集模型,速度较慢,但​​质量似乎要好得多。在我的系统上,Qwen3.6 35B A3B 的推理速度约为 130-140 toks/秒(非 MTP),这速度简直快得惊人!

运行 Qwen3.6 27B 并不需要 4 个 5070 显卡,三个甚至两个就足够了。不过,我使用了 MTP(多标记预测)来加速 27B,这会占用更多内存,因为草稿模型需要自己的上下文。

另一点需要注意的是,你使用的工具都有各自的系统提示,这些提示会在每次对话时加载到模型中。当我启动 Pi 时,模型启动后运行非常流畅。但当我通过 Hermes CLI 与 LLM 交互时,速度就慢得多。这是因为 Hermes 的每次提示都会将大量信息(技能、工具等)加载到上下文中,并且这些信息会一直保留到对话结束。

我喜欢在家运行模型以保护隐私,而且我也喜欢没有配额限制,不用担心使用量。如果未来是“循环工程”,那么使用云模型将会消耗大量的代币和资金。

我的系统待机功耗约为 200W,推理负载高时约为 350-450W。解码(生成标记)效率并不高,而且在推理过程中,GPU 的空闲时间比你想象的要长。像 Diffuse 这样的技术进步或许可以:1)加快解码速度;2)让你更有效地利用空闲的 GPU 资源。

回复

zakisaad 7小时前 |父级|下一级 [–]

我很好奇——为什么你的四核配置都选择了 5070 显卡?
乍一看,它们相当偏向计算(而不是显存),这对游戏玩家来说很好,但对运行 LLM 来说却不太好。

(我的台式机里用的是5070显卡)

回复

HappySweeney 13小时前 |上一页|下一页 [–]

我配备了傲腾内存和充足的内存,所以尝试运行一些完整的模型来编写一些函数,并通宵测试,因为我的吞吐量大约是 0.7 t/s。我目前常用的测试方法是更新一个标量函数,将一个位矩阵转置为使用 AVX512 编码的矩阵。所有云模型都能轻松应对这种情况。Kimi 2.6 和 GLM 5.1 都彻底失败了。
回复

mgsram 7小时前 |上一页|下一页 [–]

我使用本地 LLM 大约一年了,现在主要在配备 512G 内存的 Mac Studio 上使用 GGUF 的 Qwen3.6 27b 密集模型,并以开源框架和 llmster(LM Studio)作为基础。我也用过 Qwen 3.6 35B-A3B,但密集模型的精度更高,代价是每秒处理次数 (tokens/sec)。使用 Qwen3.6 27b,我通常能达到每秒 25-40 个 tokens。最初我用它们开发一些简单的工具,但最近三四个月,我开始使用 Qwen3.6 27b 进行 C/C++(汽车软件栈)和 Python(工具)的生产级编码工作。
每秒令牌数可能较少,但这反而有助于我保持合适的节奏。对于全新开发/重写项目,我的工作流程是与 Sonnet 配合进行设计/架构、推理和制定详细的执行计划。然后,我根据精确的提示,逐步完善这些内容,这样就能完成工作。对于现有项目,则通常需要根据实际情况做出判断。有时,我发现本地模型的功能有限,这时我就会使用 Claude Code。

我最近使用 Qwen 3.6 完成的一些工作包括:1. 完全用 C 语言重写了电源管理服务,并参考了现有的 C++ 代码;2. 开发了一个工具,用于解析 Excel 格式的复杂规范内容;3 . 开发了一个工具,用于将中日韩内容翻译成英文,以便输入到 KG 系统中。

回复

russelg 5小时前 |父级|下一级 [–]

既然你有 512GB 的存储空间,或许可以考虑运行 deepseek4:https://github.com/antirez/ds4
回复

cuttysnark 12小时前 |上一页|下一页 [–]

我通过在工作流中串联“代理”来构建本地模型,取得了一些成功。每个代理都有不同的提示,并根据其角色使用不同的 Ollama 模型。项目经理、模式代理(qwen3:14b)等使用的模型与编码代理(qwen2.5-coder:7b)使用的模型不同。每个步骤之间都有一个协调器和一个 Playwright 任务,该任务会尝试将错误反馈给引入前一个代码块的代理。只有无错误的代码块才会被转发到下一个工作流步骤。
最大的改进可能是加入了一个后端代理服务定义,该定义指示模式代理只根据任务生成清单,并将其传递给下一个代理。

简而言之,我将任务拆分成许多部分,并定义了一个工作流程,其中每个代理人只能执行非常具体的操作,之后他们的工作才能被传递给下一个人。这既能保证他们的工作内容清晰明了、能力出众,又能让我有机会在工作流程完成度较低(例如25%或90%)时进行干预。

回复

pianopatrick 10 小时前 |父级|下一级 [–]

我希望有人能对这种工作流程进行基准测试和竞赛,这样我们就能弄清楚哪些方法行之有效。
例如:“这里有一块消费级GPU。只使用这块GPU,但无论你使用什么模型和工作流程,看看你在xyz基准测试中能取得怎样的成绩。”

参赛者最多有 1 小时的时间,得分依据是回答问题的百分比、正确问题的百分比以及完成的总时间。

例如“本地人工智能挑战赛”

回复

鼠妇 9 小时前 |父级|上一页|下一页 [–]

你(或其他人)有没有尝试过让智能体之间进行竞争?例如,给两个模型相同的编码任务,或者给同一个模型使用不同的随机种子,然后让评审员选择更好的结果。
有人认为人脑的运作方式类似:数千个微型大脑皮层柱,每个柱对情况都有略微不同的看法,在多数规则制度下进行投票。

回复

wsintra2022 6小时前 |上一页|下一页 [–]

读完这些评论,我实在分不清哪些是人工智能供应商的机器人发的劝阻帖,哪些只是用户对本地人工智能模型的负面体验。在我看来,Qwen 3.6 版本,270亿字节,8000个量化模型,运行在64GB内存的Mac Studio上,这难道不令人难以置信吗?不,它不是Frontier General那种超级垃圾,它只是好用而已。就是这样,它很好用。它是免费的,而且是私有的,它能让一个经验丰富的工程师从懒惰变成真正的懒惰,这就是它的魔力所在。我用llama.cpp和opencode,经常会遇到这样的情况:规划一些代码修改,然后让它运行。之后就可以走开了。在吊床上放松一下,洗洗碗,撸一发,随便干点什么。用tmux和ssh登录进去看看。这就是它不可思议的地方。如果有人跟你说它不好,那就好好想想他们的动机。我跟它没有任何利益关系。我只是喜欢轻松自在地偷懒而已。
回复

epolanski 6小时前 |父级|下一级 [–]

软件“工程”领域充斥着麻省理工学院 LeetCode 高手,他们编写的 React+Tailwind 代码存在内存泄漏,毫无用处,标准极低。
回复

GodelNumbering 10 小时前 |上一页|下一页 [–]

作为一名每天都与LLM(生命周期管理)人员交流的人,我认为OSS(开源软件)前沿模型加上一个好的框架已经足够了。对于本地部署而言,我们还需要一到两代硬件(而且由于硬件公司目前主要面向数据中心市场,短期内可能难以实现),才能完全过渡到本地部署。
回复

12小时前 |上一页|下一页 [–]

我的经验是,目前限制因素不是模型本身,而是笨拙的替代方案,这些方案缺少一些奇怪的功能,导致在队列管理、中断、子代理、目标等方面的人体工程学设计不佳。
回复

coder543 10小时前 |父级|下一级 [–]

我完全同意。
更令人恼火的是,OpenCode 甚至没有尝试正确地支持本地 LLM。

让 OpenCode 运行起来是可能的,但配置起来极其繁琐且需要手动操作。我写了一个脚本来自动将我的 llama-server 配置转换为 OpenCode 配置,这有所帮助,但并非理想之选。

我认真考虑过利用空闲时间写一本《又一个编码工具》(Yet Another Coding Harness)。我有一些想法,可以把它做得更好。

回复

zackify 4小时前 |根|父|下一个 [–]

你一定要试试 pi.dev,它几乎可以满足你的所有需求。我用 Opus 来定制和调整它的部分功能。由于整个系统都是通过 API 驱动的,因此它是目前最好的框架。
回复

wsintra2022 7小时前 |根目录|父目录|上一页|下一页 [–]

我的经历完全不同。我用的是64位Mac Studio,运行Qwen2.7b 8K。只用了十分钟就设置好了,只需要阅读一些文档,Unsloth会一步一步地引导你完成操作。对于Opencode,只需要编辑一个文件就可以了。除了偶尔出现的LLM相关问题之外,我没有遇到任何其他问题。操作起来一点也不繁琐,也不笨重。
回复

horsawlarway 11小时前 |父级|上一页|下一页 [–]

π还不错。
我使用过 claude、cursor 和 pi 的命令行代理,以及我自己不时编写的几个自定义测试框架作为实验(如果把 gastown 也称为测试框架的话,我想从技术上讲也算一个)。

Pi 一切正常。

它满足了我的需求,自带的工具种类齐全,可以很好地与其他工具集成,而且通常不会妨碍我的工作,所以我现在很少想起它了。

如果你能以不错的速度运行约 300 亿个模型,我想大多数人都会惊喜地发现树莓派的功能有多么强大。

添加一些扩展程序(例如https://pi.dev/packages/pi-mcp-adapter?name=mcp和https://pi.dev/packages/pi-web-access?name=search),我就可以获得网络工具(例如 Perplexity 搜索),以及访问 MCP 来执行诸如驱动 Chrome(https://browsermcp.io/)或 Firefox(https://github.com/mozilla/firefox-devtools-mcp)之类的操作。

还不错。它能和补贴后的顶级机型相提并论吗?不能。它是免费的,而且功能也很强大吗?是的。

就我个人而言,我使用树莓派 SDK( https://pi.dev/docs/latest/sdk)玩得非常开心。

其他所有供应商都会为此收取 API 访问费(例如每月数千美元)。

回复

12小时前疯狂 |父级|上一页|下一页 [–]

听说pi.dev不错,但我还没试过。它或许能解决你提到的那些缺失功能。
回复

bityard 11小时前 |根|父|下一个 [–]

pi.dev 更像是一个代理开发工具包。它本质上是一个底层框架,你可以在上面花费数小时、数天甚至数周的时间来构建自己的代理或编码框架。它就像是 claude 的 vscode 之于 neovim。
回复

horsawlarway 11小时前 |根|父|下一个 [–]

我的意思是——基本体验就很好,内置了非常合理的文件访问和编辑工具,还有 bash。
是的——如果你愿意尝试,它会发展出很多可能性。

我其实觉得拿 Claude 和 VS Code 做比较不太恰当,因为 VS Code 和 Pi 一样,都是“自带扩展”的。而 Claude 则更像 Visual Studio。它界面厚重,设计理念比较固定,几乎无法自定义,但对于支持的工作流程来说,用起来确实很流畅。

回复

cheekygeeky 12小时前 |上一页|下一页 [–]

我们的软件开发人员(我见过的最聪明的人)正在使用 OpenCode 和 Tmux 以及开源模型。他说 DeepSeek 是他编码时的首选模型(他称之为“相当不错”)。他的配置是:一台 i9 处理器,两块 3090 显卡,128GB 内存。https ://www.msn.com/en-us/news/technology/china-s-open-deeps...
回复

pianopatrick 10 小时前 |上一页|下一页 [–]

我希望有人能对这种工作流程进行基准测试和竞赛,这样我们就能弄清楚哪些方法行之有效。
例如:“这里有一块消费级GPU。只使用这块GPU,但无论你使用什么模型和工作流程,看看你在xyz基准测试中能取得怎样的成绩。”

参赛者最多有 1 小时的时间,得分依据是回答问题的百分比、正确问题的百分比以及完成的总时间。

例如“本地人工智能挑战赛”

回复

bravetraveler 10小时前 |上一页|下一页 [–]

我基本上只用“自然”算法,任何少量的LLM(低密度内存模型)使用都仅限于本地。我的128G Strix系统,搭配密度不算很高的Qwen或Gemma变体,可以达到50-80 tok/s的输出。即使Anthropic/OpenAI等平台是最后发布的本地模型(这种情况发生的概率很低),我也不会订阅它们;完全没必要。完全不需要,而且模型内工具的使用也足以满足我的货币需求。
回复

zftnb666 2小时前 |上一页|下一页 [–]

我用DeepSeek V4 Flash通过API替换了Claude。虽然不是本地的,但质量达到了95%,价格却只有5%。差不多了。
回复

jrflo 1小时前 |上一页|下一页 [–]

如果不占用那么多内存的话,我很乐意这么做。而且,如果你不在乎数据保存,那么为了提升质量,每月多花20到100美元也是值得的。
回复

pdyc 1小时前 |上一页|下一页 [–]

是的
辅助工具 - pi+子代理自定义扩展

型号 - qwen3.6 35ba3b q4km

硬件配置:英特尔 Arrow Lake 处理器,配备 32GB 内存

服务器 - llama.cpp vulkan

性能 - 产量 15-18 吨/秒,峰值功率 50-150 吨/秒

计划和任务创建仍然使用 Claude/GPT,但代码没有改动。所有编码工作都是在这个框架下完成的。

这是使用此设置 easyanalytica.com 制作的一个项目示例,其复杂度中等。

回复

CuriousRose 4小时前 |上一页|下一页 [–]

本地人工智能应用(与代码编写无关)中一个同样重要的问题是,如果查询内容的时效性很重要(例如新软件包的功能、文档等),那么要确保框架拥有快速且最新的数据。托管模型在网络搜索方面表现出色,我认为这对输出质量至关重要。
由于硬件限制,我不再使用本地托管模型,但我确实对我的 OpenCode 和 OpenRouter 连接的开放模型附加了一定程度的搜索匿名化。

我的 Macbook 上运行 OrbStack,其中设置了以下 docker 容器,以通过基于 Mullvad 的 gluetun 进行路由。

- Firecrawl - 快速网页抓取

SearchNG - 元搜索

- CloakBrowser - tursile 绕过 Playwright 的替代方案

如果你想让代理轮换更复杂一些,你可以设置多个 Playwright 实例,每个实例在不同的位置使用自己的 Mullvad WireGuard 密钥。

回复

acc_297 12小时前 |上一页|下一页 [–]

最近我一直在想,如果使用一个中等规模的模型,然后在云端或本地环境中,针对每个提示进行基于人类反馈的强化学习(RLHF),会不会有所帮助?我不知道尝试手动微调模型以适应你的使用习惯,是会毁了它还是会有帮助。理想情况下,如果你足够勤奋,就可以去除一些让普通用户难以使用的模型特性,例如过于谄媚、过于冗长、喜欢用类比解释等等。
但也许一个人的及时反馈永远都不够。我不确定你需要多少反馈(我知道一些在大公司工作的人购买了内部代理,这些代理针对内部文件等进行了微调……但显然这些代理最终会出现奇怪的行为,而且不一定比标准模型更有用)。

我希望能够编辑智能体给出的每一个回复,然后根据它实际生成的文本和我编辑后的文本之间的差异进行微调。就我个人而言,我会删除很多形容词,尝试将回复提炼成核心内容。但我担心,根据欧文·埃文斯和其他一些对齐研究人员的研究,这样做有时可能会使智能体产生难以预测的倾向。

回复

htrp 10 小时前 |父级|下一级 [–]

Cursor 正在这样做(我认为他们使用的是 Fireworks 作为服务提供商)。
https://cursor.com/blog/real-time-rl-for-composer

回复

rolisz 12小时前 |父级|上一页|下一页 [–]

我对类似的方法很感兴趣。我打算把它应用到我的 OpenClaw 代理上。
关于欧文·埃文斯的作品:我认为他做了SFT。推特上有人说RL不太容易受到他展示的那些技术的影响。我想试试。

回复

grmnygrmny2 10小时前 |上一页|下一页 [–]

仅分享一下我的看法——我出于伦理原因反对使用 OpenAI 或 Anthropologie 的产品,所以一开始我对本地模型(LLM)并不热衷。本地模型解决了我的大部分(虽然并非全部)伦理顾虑,因此我已将其用于工作和个人项目约一个月了。
我拥有的硬件(32GB Mac 和一台配备 10GB 3080 显卡的游戏 PC)只能让我达到 Qwen3.6-35B-A3B 的各种量化水平,但这已经足够了(200-400 PP,20-30 TG)。

花了不少时间才学会如何充分利用它——有些事情需要一些指导或引导——但它确实非常实用。由于我之前没用过 CC,所以无法比较,但它在从嵌入式 C++ 到 Vue 的各种项目中都是一位出色的助手或结对程序员。我希望自己能运行 27B,因为有时这个模型似乎无法完全理解某些事情,但这种情况非常少见。对于很多任务来说,它能节省大量时间,并且在给定非常模糊的指令时,能够非常有效地挖掘和修复 bug。

我使用树莓派作为我的外设。

回复

henrixd 4小时前 |上一页|下一页 [–]

我一直大量使用 Qwen3.6-27B-UD-Q4_K_XL.gguf 模型和 Pi 代理(https://pi.dev/)进行本地任务和编码。我使用了 llama-cpp-turboquant 分支,并从另一个分支中挑选了一些自定义的 MTP 补丁。
我在 V100 32GB(~900GB/s 内存带宽)上运行此程序,上下文窗口为 200,000,--spec-type mpt --spec-draft-n-max 3 --spec-draft-n-min 0 --cache-type-k turbo3 --cache-type-v turbo3 仅列举最相关的部分。

我通常能达到 45-60 t/s 的速度。我相信切换到 ik_llama.cpp 分支和 Qwen3.6-27B-IQ4_NL.gguf 模型可以稍微提高速度,但是它不支持 Turbo Quant,而且还有其他一些缺点。

回复

nfrankel 12小时前 |上一页|下一页 [–]

我试过了。理论上可行:https://blog.frankel.ch/tokensparsamkeit-coding-assistants/#...
当然,结果取决于模型,也取决于你的电脑配置。可惜我的电脑性能不够。

回复

Kobalt 12小时前 |上一页|下一页 [–]

用 qwen 3.6 27b 密集型诗歌写出来的效果相当不错。我觉得它和(克劳德)俳句 4.5 差不多,或许和十四行诗也差不多,具体还要看任务要求。
回复

kadoban 12小时前 |父级|下一级 [–]

出于好奇,你用什么工具来处理事情?
回复

Kobalt 2小时前 |根|父|下一个 [–]

我使用的是Claude代码。你可以把它用在任何你想要的模型上。
回复

kandros 12小时前 |父级|上一页|下一页 [–]

我宁愿去问肉铺老板编程任务,也不愿去问俳句。
回复

Kobalt 2小时前 |根|父|下一个 [–]

我觉得Qwen运行起来就像十四行诗一样优美,运行失败时就像俳句一样令人失望。所以它不太稳定,但总体来说还不错,对吧?它在很多方面仍然非常有用,而且我可以直接在我的MacBook上运行它。一旦你了解了它的能力范围,就能很容易地将任务分解成它能够可靠且优雅地处理的小块。但我仍然喜欢参考SOTA模型。此外,你还可以让SOTA模型编写一个开发计划,这个计划基本上就是一系列提示,用于生成每个部分,然后让本地模型按照这个计划执行。
我应该提一下,不要低于 q6 运行,我更喜欢 q8。

回复

papichulo4 11小时前 |根目录|父目录|上一页|下一页 [–]

同意。Anthropic 现在修改了 `/model` 目录下模型定义的措辞,说明 Opus 用于日常使用,而 Sonnet 用于常规任务。
显然,十四行诗和俳句之所以保留在之前的版本编号中是有原因的。

不过,令人鼓舞的是,情况正在迎头赶上。我们不能指望2万美元的本地部署方案能与200亿美元的计算集群相媲美。

回复

_bobm 8小时前 |上一页|下一页 [–]

但是,各位,当你们提到 Claude/GPT 模型时,你们有没有想过这些“模型”到底是什么?
有一天,我在想GPT如何才能让思考过程逐一发送,并在发送的开头加上对每个思考过程的Markdown摘要。仔细想想吧。

事实上,请思考这些操作、API 端点,并观察它们的输出。

这些所谓的SOTA模型并非表面看起来那样,其基础设施与本地模型根本无法相提并论。由于这些项目的规模庞大,需要进行极其复杂的协调工作。但正是这些严峻的限制催生了创新,一种无人提及的创新。

我不会说我们无法迎头赶上,但通过 llama 和 vllm 服务本地模型只是整个过程的第一步。实际上,我认为真正需要的是我上面提到的那种流程的复制。

目前最先进的模型是由多个模型深度协同运作而成,并非单一模型。因此,任何单一模型都无法赶上它们,除非它首先通过训练来复制这种协同运作,然后或许再通过模型架构的改进来实现。

最后,我敢打赌,作为这种编排设置中的模型之一,SOTA“模型”作为通用模型,其功能并不比qwen 3.6强大多少。

我相信,如果你改变一下视角,你就会开始注意到“魔法”的规模。

回复

JSR_FDED 45分钟前 |父级|下一级 [–]

这一切听起来都很神秘。
回复

_bobm 12分钟前 |根|父|下一个 [–]

是的,但事实并非如此。
回复

XCSme 7小时前 |父级|上一页|下一页 [–]

SOTA模型是多个模型协同运作的深度协调,它并非单一模式。
我不明白,为什么你会觉得情况就是这样?

GPT 如何才能让思考过程逐一发送,并在发送的开头附上思考过程的 Markdown 标题摘要?

你能举个例子吗?

回复

_bobm 7小时前 |根|父|下一个 [–]

你能举个例子吗?
当然可以,将 OpenCode 连接到 OpenAI/ChatGP 端点即可使用。你会注意到每个“回合”都有多个“思考”部分。

我把这些都用引号括起来,因为……它们都是精心策划的一部分。例如,我们无法确定某个回合中所谓的思考部分究竟是思路总结,还是仅仅是伪装成思考的简单回应。

进一步注意语调、用词和句式。注意句子结构。注意“思考部分”的结构和顺序。

配乐相当复杂。

我不明白,为什么你会觉得情况就是这样?

因为并非所有代币都一样。如果你把昂贵的代币浪费在琐碎的任务上,你就会破产。这就是原因。

正如我所说,如果你观察这些 API 端点的输出,你就会注意到这一点。

回复

XCSme 6小时前 |根|父|下一个 [–]

你会注意到每个“回合”都有多个“思考”环节。
我原以为那只是代码框架对输出进行了压缩。现在很多模型不再返回完整的逻辑推理过程(为了避免蒸馏攻击)。所以,没错,我们得不到原始的逻辑推理过程输出,但我认为它只是逻辑推理的总结,而不是复杂的流程编排或不同的模型。

不过我同意,现在的云模型确实有点像个黑匣子,不仅晦涩难懂,而且还会随着时间推移而变化。一些公司似乎会在不通知用户的情况下更改模型功能,甚至暗地里提供完全不同的模型。通过 OpenRouter 实现的情况更糟,一些提供商提供的是开源模型,其中一些提供的是高度量化的版本,甚至是完全不同的模型。

回复

_bobm 6小时前 |根|父|下一个 [–]

我不太清楚“压缩输出”在我们讨论的语境下具体指的是什么。Opencode 是开源的,你可以自己去了解它的具体功能。
我上次查看时,OpenAI 甚至在回复中已经以 Markdown 格式发送了思考部分的摘要,因此 OpenCode 必须删除格式以使其符合他们的喜好。

现在很多模型不再返回完整的思路链(以避免蒸馏攻击)。

他们说,这样做是为了避免蒸馏攻击。在某种程度上,这确实没错。我的意思是,这会产生一个副作用,而这个副作用(取决于你愿意往哪个方向想)可能是一件好事,也可能是这一切的“主要原因”。

其副作用是拼接推理过程、代理请求等等,这在规模化应用中带来了巨大的好处。

这就是我最初的观点:开放式模型和SOTA模型就像苹果和橘子一样无法直接比较。那么,本地模型什么时候才能赶上它那连形状都不合适的单人床架呢?答案是:永远不会。

这完全是两码事。

回复

XCSme 5小时前 |根|父|下一个 [–]

所以,您的意思是说,本地模型可能比我们想象的要好?因为通过一些额外的协调/处理,我们可以改进结果?
回复

_bobm 5小时前 |根|父|下一个 [–]

是的,本地化模式已经具备了所有必要的条件,它们拥有所有先决条件。
但他们缺乏的是正确的方向和方法。这种缺失体现在多个​​层面:COT(成本运营时间)、输出结果、模型基础设施以及模型编排等方面。

这是anthropic一年前说的话:

最后,我们为 Claude 4 模型引入了思维概要功能,该功能使用更小的模型来精简冗长的思维过程。这种概要功能仅在约 5% 的情况下需要——大多数思维过程都足够简短,可以完整显示。需要原始思维链以进行高级提示工程的用户,可以联系销售部门了解我们全新的开发者模式,以保留完整访问权限。

回复

3abiton 5小时前 |上一页|下一页 [–]

我想几乎每个人都提到了 Qwen,那轮到我了。我的配置是 Qwen 3.6 35B Q8 (MTP),运行在 Strix Halo 主板上,使用 llama.cpp 库。处理速度大约在 40-50 t/s 左右。性能真的非常出色,它的能力总是让我感到惊讶。我直接在 zsh 中使用 forge-code。长时间处理超过 150k 的上下文时,它的性能会开始下降,甚至出现错误。
回复

ozten 2小时前 |上一页|下一页 [–]

是的,对于注重隐私和安全的客户项目,但不适用于企业合同:
针对 Infomaniak 托管的开源软件模型的开源代码:Qwen3.5-122B-A10B-FP8、Kimi-K2.6。

我使用 API 密钥进行计费。就我当时的生产力而言,它的表现就像 2025 年 12 月一样。

回复

mitchell_h 12小时前 |上一页|下一页 [–]

试过了。上下文窗口不够大。
回复

coder543 10小时前 |父级|下一级 [–]

Qwen3.6-27B 支持 100 万个令牌的上下文窗口。
当然,要运行这样的上下文窗口,你必须拥有合适的硬件,因为在我的 DGX Spark 上,使用 q4_k_xl 型号的完整 f16 KV 缓存来运行它需要大约 100GB 的内存。

回复

利萨斯 12 小时前 |父级|上一页|下一页 [–]

我的结果也差不多(我的 RTX 4070 只有 12GB 显存)。我很好奇 24/32GB 显存能否显著提升性能,使其具有实际应用价值。
回复

tobyhinloopen 11小时前 |根|父|下一个 [–]

分别在内存和CPU上进行测试。
虽然速度慢,但还是可以运行的。

回复

lysace 11小时前 |根|父|下一个 [–]

评估模型的好主意,谢谢。
回复

deadbabe 12小时前 |父级|上一页|下一页 [–]

提问要更直接,不要使用开放式问题。
回复

carlossouza 2小时前 |上一页|下一页 [–]

这应该是一个每月都会提出的重复性问题。
回复

moezd 10小时前 |上一页|下一页 [–]

还没到那一步。如果没有苹果原生的游戏机制或性能不错的GPU,即使拥有大量的内存和线程,你也只能获得大约每秒30-50个令牌,而且这还是在关闭所有逻辑思维的情况下。如果没有这些优化,你的模型会因为MCP(模型控制点)、技能和代理描述而疲于奔命,你可能要等到油漆干透才能看到第一个输出令牌。本地模型服务意味着你必须在上下文窗口中争夺每一个令牌,这与Claude/GPT/Copilot等产品所倡导的行业发展方向截然相反。
回复

amarshall 7小时前 |父级|下一级 [–]

思考并不会改变输出速度。Anthropic 的模型平均输出速度约为 40–60 吨/秒。
回复

heisenbit 8小时前 |上一页|下一页 [–]

我觉得配置起来确实挺费劲,不过在这个过程中我也学到了很多东西。我主要用的是 qwen/qwen3.6-35b-a3b mlx 镜像,搭配我的 48GB M4 MacBook Pro,刚好够用,可以运行 Docker 开发容器和其他一些基本程序。我用 LM Studio 来运行,并通过 VSCode 来操作。系统提示改进了工具集成(我为此咨询了 GPT),效果显著。之前它不会进行任何修改,而是不断地重新生成代码,结果往往适得其反。
为了避免噪音和发热,即使插着电源,我的MacBook Pro也大多使用低功耗模式。全功率模式或许能让速度提升一倍,但功耗也会大幅增加。

它的功能:简单的页面重构。它和其他模型的不足之处:拆分 Pinia 商店,而 GPT-5.4 可以轻松做到。我认为,通过更多优化、工具使用指南以及一些配套支持工具,其性能可以进一步提升。

回复

thesuperbigfrog 3小时前 |上一页|下一页 [–]

这里有一个效果不错的方案:
https://discourse.ubuntu.com/t/use-workshop-to-run-opencode-...

回复

bijowo1676 10小时前 |上一页|下一页 [–]

我见过一种很有意思的方案,就是使用昂贵的 Frontier 模型来编写和更新应用程序的 Markdown 文档,例如规格说明、产品需求、架构等等。
但随后使用廉价/本地模型来实现规范。

Markdown 比数百个源代码文件更能有效地压缩信息,并且更容易适应上下文窗口。

但这需要进行第二遍和第三遍打磨,才能使粗糙的边缘变得平滑。

有人试过吗?

回复

milchek 7小时前 |上一页|下一页 [–]

我试过用36GB的MacBook Pro,但除了做一些非常基础的工作之外,效果并不理想。对我来说,问题在于即使是小内存版本,上下文也很快就会耗尽,而且运行速度也比较慢。要想获得像样的性能,我想你需要128GB的内存,这意味着要在硬件上投入更多资金。到那时,问题就变成了:你是愿意订阅使用高端机型,还是把钱花在自己组装设备上?当然,对于那些注重隐私的用户来说,唯一的选择就是花钱购买更高端的机器。
回复

毒素 6 小时前 |上一页|下一页 [–]

我没有。我们在工作项目中使用 OpenSpec,目的是在不花费太多钱的情况下模拟本地设备。我使用托管的模型,并用最新的热门本地模型支付费用。
大多数小型局部模型无法正确调用工具,但较大的模型现在已经能够正确调用工具了。

本地环境忽略的一点是,大多数高效的工程师都会同时运行多个带有 Git 工作树的命令行聊天窗口。我通常会同时运行大约 3 个工作树和多个命令行聊天窗口。

回复

SupLockDef 10 小时前 |上一页|下一页 [–]

本地开发对我来说并不陌生。我仍然在编写代码,但是 Qwen3-coder:30b 在我那台配备 GTX 1070 显卡和 16GB 内存的老电脑上运行起来非常流畅。
我主要把它当作谷歌搜索工具,用来查找忘记的信息或编写一些样板代码。

我混合使用了非 Harness 聊天工具来提高回复速度,并使用 opencode / vim-ai 来编写样板代码。

每月预算为 0 美元。

回复

jboss10 8小时前 |父级|下一级 [–]

你试过 qwen3.6 或 pi 吗?
回复

SupLockDef 7小时前 |根|父|下一个 [–]

由于某些原因,3.6 在我的旧电脑上运行速度太慢,所以我又换回了 qwen3-coder。
我确实在我的主力台式机上试用了 3.6 版本。感觉不错,但和 Coder 版本相比并没有太大区别,所以我仍然在使用我的旧电脑。

回复

jderekw 7小时前 |上一页|下一页 [–]

我日常使用的平台是 AMD Lemonade,最初用的是 Ollama,后来换成了 LMStudio,现在统一使用 AMD Lemonade,它能很好地监控内存、CPU、GPU 和显存。Lemonade 的多模型功能让运行 LLM、语音转文本、NPU 和图像生成等应用栈变得非常简单。该平台也兼容 Nvidia、Apple、Intel 和 AMD 的芯片组。
回复

v3ss0n 4小时前 |上一页|下一页 [–]

是的,Qwen 3.5 122b+ dgx 运行效果非常好,我现在不再订阅任何云 API 了。我会发布一个我在运行 Long Horizo​​ns 9 天后完成的项目。
回复

anubhav200 11小时前 |上一页|下一页 [–]

是的,llama.cpp、qwen27b、35b、claude 的代码。Llama-cpp-manager 用于管理 llama.cpp 配置(https://github.com/anubhavgupta/llama-cpp-manager)。
回复

anubhavgupta 1小时前 |父级|下一级 [–]

机器配置:CPU:Intel 275HX;GPU:Nvidia 5090 Mobile(24GB);内存:64GB
回复

anubhavgupta 1小时前 |根|父|下一个 [–]

还有一点,我还把它和 Whisper-NPU 一起使用,Whisper-NPU 是一款语音转文本实用程序,它在 Intel 275hx 的 NPU 上运行,不占用任何 GPU 资源。
回复

anubhavgupta 1小时前 |根|父|下一个 [–]

Whisper-NPU(https://github.com/anubhavgupta/whisper-npu)
回复

BiraIgnacio 11小时前 |上一页|下一页 [–]

我尝试了一段时间,使用 llama.cpp + Qwen + Mac Pro,但结果非常差(质量和速度都很差)。
我考虑过投资更好的硬件,但算了一下,对我来说购买 DeepSeek 更划算(是的,我知道不是每个人都能做到这一点)。

回复

sj_tech 6小时前 |上一页|下一页 [–]

我使用 Qwen 3.6 35B A3B 进行智能编程,并配合 GitHub Copilot VSCode 扩展。硬件配置是 128GB 的​​ Mac Mini。对于这个尺寸的机型来说,这似乎还算合理,但我注意到当问题过于庞大时会出现循环问题。你可以用它来处理一些你熟悉的操作(这样可以节省时间)。
回复

zaptheimpaler 11 小时前 |上一页|下一页 [–]

我尝试在配置相对较低的电脑(16GB 显存 + 32GB 内存)上运行 gemma-4-26B-A4B,看看它能否帮我读取/整理邮件,结果不太理想。这个模型光是搜索合适的工具就消耗了 24K 个令牌,然后把邮件内容直接导入到上下文中。我尝试用代码模式保存上下文,但是代码模式无法保存文件,所以没用。我打算切换到 SSH 模式连接到我的开发容器。我对这方面还不太熟悉,所以可能哪里操作错了。
回复

Rzor 1小时前 |父级|下一级 [–]

Gemma 4 在工具调用方面存在一个问题,谷歌似乎在两三天前修复了这个问题。我记得看过相关的报道。
回复

anana_ 11小时前 |父级|上一页|下一页 [–]

或许可以试试其他型号?根据我的经验,Gemma 31B 型号以下的机床调用刀具的频率似乎不够高。
一些基准测试结果似乎也支持这一观点[0]

当然,很多因素取决于你如何使用它(推理参数、工具、提示等),但模型本身也非常重要。

[0]: https://artificialanalysis.ai/models/open-source/small?model...

回复

NetOpWibby 11小时前 |上一页|下一页 [–]

我期待着把克劳德·费布尔带回家。到那时我才会考虑换掉克劳德(谁知道他们的下一代产品会是什么样子,费布尔在我拥有的三天里表现非常出色)。
回复

trueno 11小时前 |父级|下一级 [–]

我们不断提高对“本地化”的满意度标准。一开始是在家使用 Sonnet 就足够了,然后是 Opus,现在又变成了神秘的领先模型,而这个模型运行在基础设施上,我们根本无法在家实现。
回复

无聊 11 小时前 |上一页|下一页 [–]

人工智能实验室是否会始终确保至少有一年的差异化?我猜想其背后的商业前提是,每次新版本发布都会带来阶跃式变化,从而防止此类行为的发生。
回复

snoman 7小时前 |父级|下一级 [–]

如果政府从今以后要限制对前沿机型的获取,即使新发布的机型是阶跃式变化……但实际上并非如此……那么它可能更接近于订阅模式所能提供的服务。
回复

dabinat 12小时前 |上一页|下一页 [–]

有证据表明,模型融合可以达到前沿级别的性能(例如 OpenRouter Fusion)。我想知道这是否是更现实的选择:将 Opus 与本地模型结合使用,以节省令牌成本。
回复

rvnx 10小时前 |父级|下一级 [–]

我开始相信,不断增加思考代币才是有效的捷径(这就是《神鬼寓言》的由来)。
回复

ndom91 10小时前 |上一页|下一页 [–]

虽然不是百分百,日常工作中我仍然主要用 Claude。但我一直在尽可能地在我的框架桌面主板(Strix Halo)上使用 Qwen 3.6 和 Gemma 4。
我一直在开发一款用于本地LLM推理的运维工具。它包含了代理、API密钥、请求日志记录、模型重写等等诸多功能。

https://github.com/ndom91/llama-dash

回复

tumetab1 13小时前 |上一页|下一页 [–]

还没有,我在苹果 M4 上试用了 Gemma 4,但是每秒传输数比云端版本低得多。
此外,缺乏企业级工具来帮助选择合适的模型,以及缺乏工具来运行本地LLM,这都无济于事。

回复

bArray 10 小时前 |上一页|下一页 [–]

我正在基于 LiquidAI/LFM2.5-1.2B-Instruct [1] 构建自己的程序。我在本地 CPU 上运行它,性能尚可。目前我用它来解决一些小问题,但每天都在扩展它的功能。
[1] https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct

回复

derekered 8 小时前 |上一页|下一页 [–]

我用的是配备 48GB 内存的 MacBook Pro M5,上面装的是 Qwen 3.6 版本,专门用来处理那些我特别注重隐私的工作,比如写日记。效果很棒!虽然我没有直接的对比数据,但对目前的结果很满意。
回复

russelg 4小时前 |父级|下一级 [–]

我的配置跟你一样,你用的是27B还是35B-A3B?我发现27B慢得根本没法用(大概10-15吨/秒,更别提预灌料时间了)。
回复

drnick1 6小时前 |上一页|下一页 [–]

- 您认为目前最适合在高端消费级GPU上运行的编程模型是什么?(假设可以使用RTX 3090/4090。)
您推荐使用哪种技术栈?Llama.cpp + OpenCode?

回复

anonymousiam 12小时前 |上一页|下一页 [–]

这条帖子是在你发帖询问HN之后不久发布的:
我的家庭实验室人工智能开发平台

https://news.ycombinator.com/item?id=48542433

回复

ryandrake 12小时前 |上一页|下一页 [–]

这类帖子里的细节总是让我有点失望。即使有人回复,也总是不够具体,无法自己尝试。比如“我用的是 Qwen 3.5,效果很棒!” 好吧,但是你用的是什么量化版本?Llama 参数是多少?上下文大小是多少?你用的是哪款 GPU,显存大小是多少?你是把它部署在单独的服务器上,还是直接运行在本地开发机上?你用的是什么编码代理工具,它是如何配置/连接到模型的?
回复

riazrizvi 11小时前 |父级|下一级 [–]

如果你已经知道怎么做,这里最多也就是从一两个帖子中获取一些市场信号。大部分回复都是垃圾。
回复

猪里脊肉 11 小时前 |父级|上一页|下一页 [还有 2 页]

codelion 3小时前 |上一页|下一页 [–]

在本地使用 qwen3.6 27b 和 Claude 代码,对于简单的编码任务运行良好。
回复

xhinker2 10小时前 |上一页|下一页 [–]

是的,我有。1. 两块 RTX 3090 显卡,运行 Linux 22.04 系统。2. 运行 Qwen3.6-27B Q6_K_XL GGUF 固件。3. 使用我自己搭建的 AZPal 线束,并连接了 Hermes Agent,运行良好。4. 很多时候,它解决了 Codex 无法解决的问题。
https://medium.com/p/f237d575e861

回复

mv4 11小时前 |上一页|下一页 [–]

我一直在我的双 Nvidia Spark 集群上使用 MiniMax M2.7 和 vllm。速度很慢(<20 tps),但对于我的大多数使用场景来说都够用了。
回复

cmrdporcupine 3小时前 |父级|下一级 [–]

我刚才查了一下,应该可以在我的单个 Spark 实例上用 3 位量化运行这个程序吧?也许可以?取决于上下文大小?假设 3 位量化不会完全破坏程序的性能。
回复

whartung 10 小时前 |上一页|下一页 [–]

苹果即将发布的 M5 处理器能否从根本上改变这种局面?
我正等着把我的上一代英特尔 iMac 换成新款的 M5 mini,希望能在本地运行一些测试程序。我设想,随着这个领域的发展,未来可能会出现一场小型(呵呵)军备竞赛,大家每年都会用 M(X-1) 换 M(X)。

回复

devmor 58分钟前 |上一页|下一页 [–]

我觉得这东西用处不大。克劳德的速度已经慢得几乎无法胜任任何严肃的任务了,除了繁琐的底层工作之外,如果不进行并行处理,我根本不会考虑用它。
它之所以经济实惠,唯一的原因是如果你不支付 API 费用,它就能享受大幅折扣。

回复

627467 9小时前 |上一页|下一页 [–]

所以,每个人的情况都不一样,但是运行这些本地模型到底有多“免费”呢?就像在橱柜里放一台耗电量巨大的机器一直开着一样?
这样会对硬件造成多大的损耗?

此外,如果隐私是运行本地模型的主要原因,为什么不使用 venice.ai 或类似的服务呢?

回复

Lwerewolf 12小时前 |上一页|下一页 [–]

mbp16 m5 最大 128gb,防呆/DS4,deepseekv4-flash。适用于相对密集(例如每个项目少于 2 万行代码)的 C 代码库,这些代码库本质上是一系列定制的专用存储、HTTP 服务器、网络基础设施、媒体转换器等。
通过 Pi 运行,带有自定义提示(基本上是“不要盲目猜测,隔离事物,使它们可追踪和可测量,然后验证”),并且位于一个相当严格的 bwrap 设置之后 - 除了 ~/.pi、cdw 和单独的 tmpfs 之外的所有内容都只读绑定,除了网络之外的几乎所有内容都取消共享 - 对于网络,我使用一个网络命名空间,该命名空间只允许到特定 IP 和端口(即推断 MAC)的 TCP 连接 - 即 netns exec 进入 bwrap。

就我目前的工作而言,我无法将它与最先进的(SOTA)或更高要求的模型相提并论——毕竟这是政策层面的。话虽如此,在一系列测试用例中——它显然不是 gpt-5.5,也肯定落后于 k2.6/glm/ds4-pro,但它绝对可用。当然,在这样的代码库中,别指望能一次性完成任务或盲目信任它——你需要询问它、引导它,时不时地重启上下文以“重新掷骰子”,并保持上下文的简洁等等。与任何更小的模型(包括所有常见的本地 qwen 模型)相比——在一个测试用例中,它能够识别出 memfd 和 mmap 用于设置具有自然循环处理的环形缓冲区(在末尾对第一页进行双重映射),而不会告诉我“这是为了在进程间共享内存”或其他一些无稽之谈。

性能如本文档中的表格所示: https://github.com/antirez/ds4 ……在“低功耗”(30瓦)下性能略低于一半。两者都可用。

回复

julianlam 6小时前 |上一页|下一页 [–]

当然。
Qwen 3.6 35B-A3B 运行于 Framework 13 系统,配备 32GB 内存。

运行 llama.cpp,每秒处理 15 个词元。输出代码和文本的速度比我解析的速度快。

回复

qu0b 8小时前 |上一页|下一页 [–]

我在两块 RTX 6000 Pro 显卡上使用 DeepSeek V4,效果非常好。Opus 速度太慢,所以我让 DeepSeek 完成大部分工作,Opus 只用于验证和辅助规划。
回复

9小时前 |上一页|下一页 [–]

我还没试过,但我刚买了一台 128GB 内存、M5 Max 40 核的笔记本电脑,希望它能胜任(如果不行,这台笔记本电脑本身也不错,我其实需要那么多内存来处理一些非 LLM 相关的事情)。
回复

kristianpaul 9小时前 |上一页|下一页 [–]

Qwen3.6 35B 在技嘉 aitop(Spark 克隆版)上,但请非常具体地说明您的问题以及应该如何解决。
Nemotron super 3 110B 在 1M 上下文长时间振动编码会话中表现良好

我也使用没有延长线的树莓派线束。

回复

jmward01 11小时前 |上一页|下一页 [–]

有没有人保存过自己的 CC 会话数据,以便将来用于训练自己的模型?我很想构建一个能够基于 CC 会话进行微调的系统,而良好的 CC 会话记录是第一步。
回复

abidlabs 10小时前 |父级|下一级 [–]

是的!https://huggingface.co/changelog/agent-trace-viewer
回复

jmward01 10小时前 |根|父|下一个 [–]

我之前没注意到他们这么做。我一直避免向 Hugging Face 上传数据。这些都是非常私人的信息,而且我还没仔细看过他们的隐私政策之类的。我这就去看看。
回复

shironnnn_ 10小时前 |上一页|下一页 [–]

我使用 SpecKit,通过付费的 Claude 方案,创建了一个非常详细且具有高度针对性的计划。
然后我通过命令行界面(CLI)将其传递给本地 LLM(例如:Qwen / Gemma 4)。这可以通过在 Mac 上使用 llm-mlx(或在任何硬件配置足够的机器上使用 ollama)来实现,它们提供与 Aider(CLI)或 Visual Studio Code 兼容的 OpenAPI 端点,以便与智能编码助手协同工作。

付费产品虽然有优势,但如果您不介意更多地参与到过程中,并且期望值不高,那么付费产品就不是必需的。

回复

mark_l_watson 10 小时前 |上一页|下一页 [–]

我想说我完全在本地运行程序,但实际上我每周会累计使用 Opus 和 Gemini Pro 3 到 4 个小时。我也喜欢用 DeepSeek v4 闪存配合 OpenCode 来处理一些小型快速任务。
我刚刚出版了一本免费在线书籍《本地编码代理的崛起》[1],书中记录了我使用并乐于使用的配置。我使用 little-coder(基于树莓派构建),在小型 Python 和 TypeScript 应用程序方面效果很好。但在 Common Lisp 和 Clojure 方面,我却难以获得理想的结果。

对我来说,所有本地 LLM 基础编码代理的问题都是运行速度慢。

[1] https://leanpub.com/read/local-coding-agents

回复

ecshafer 12小时前 |上一页|下一页 [–]

我使用一些托管在服务器上的模型,不是本地的,而是用 Ollama 自托管的。这些模型包括 gemma-4、glm 4.7 flash 和 qwen 3.6。glm 在智能编码方面表现最佳。但我仍然认为它们都达不到 GPT 5.5 或 Opus 4.8 的水平。
回复

wuschel 12小时前 |上一页|下一页 [–]

我想知道是否有人能够使用低端型号进行编码以外的活动,例如使用功能有限的个人笔记管理器——以及这些型号的内存硬件要求是什么。
回复

anuramat 9小时前 |上一页|下一页 [–]

我想知道大家都在使用哪些编程语言;我猜小型模型在 bash/python 方面表现应该不错,但在 rust 之类的语言上就差很多了。
回复

47 12小时前 |上一页|下一页 [–]

我所有个人项目都使用本地的 Pi 和 Qwen 3.6 27b 系统,显卡是 4090。日常工作我仍然使用 Claude,因为公司付费,而且我的雇主也要求我使用它。除此之外,我很少用到它。
回复

redox99 11小时前 |上一页|下一页 [–]

那些可以在家运行的模型(比如 Qwen 35B)与 Opus 或 GPT 5.5 根本无法相提并论。差距非常大。唯一能与之媲美的开源模型参数量都在 1T 左右,所以别指望在家就能运行。
这就像开一辆破车。它通常能把你从A点送到B点,有些人还会试图说服你这没什么大不了的。但事实并非如此。

除了绝对需要保护隐私、纯粹出于娱乐目的,或者像飞机上这样的特殊应用场景之外,没有其他合乎逻辑的理由。如果你觉得 Codex 的 20 美元补贴太高,你完全可以试试用中国产的 API,它们的性能远超这些小型模型。

回复

pbasista 10小时前 |父级|下一级 [–]

> 你可以在家运行的模型(例如 Qwen 35B)与 Opus 或 GPT 5.5 相差甚远。
这种描述是基于某些客观事实或标准吗?

回复

kube-system 10 小时前 |根|父|下一个 [–]

是的,目前没有任何一款35B模型能在几乎任何方面胜过前沿模型。
回复

redox99 10小时前 |根目录|父目录|上一页|下一页 [–]

根据我运行的 OpenRouter 的私人测试提示。
回复

xgulfie 9小时前 |父级|上一页|下一页 [–]

我不需要开法拉利去上班
回复

orangeisthe 8 小时前 |根|父|下一个 [–]

但你需要最好的工具才能完成这项工作。
回复

cayley_graph 5小时前 |根|父|下一个 [–]

你需要合适的工具,才能经济高效地完成工作,兼顾成本和质量。这就是“最佳”的含义。我们不会给每位工程师提供所有资源,只会提供最合适的。
我怀疑很多人会意识到,为了实现最高的边际生产力提升,实际花费的资金比所需资金多出数百万美元,并会据此重新分配资金。谁愿意把更多的钱花在开发人员工具上,而不是奖金上呢?

回复

orangeisthe 13分钟前 |根|父|下一个 [–]

当然。我订阅了 Codex,每月 20 美元,一直用得很好。偶尔流量用完的时候,我会切换到另一个备用的每月 20 美元的订阅服务。
这比目前任何自托管模型都更经济实惠,而且效果也好得多。

回复

hegdeezy 11小时前 |上一页|下一页 [–]

我在本地试过了,但考虑到我住的地方电费很高,我觉得大概一年左右才能收回成本。不太划算,不过也许以后搬家以后会考虑吧!
回复

agentbc9000 7小时前 |上一页|下一页 [–]

Kimi K2.7 非常好——我一直在测试它,它真的非常好,达到了 Fable 5 的水平。
回复

bentt 7小时前 |父级|下一级 [–]

多说点!
回复

_davide_ 12小时前 |上一页|下一页 [–]

我以前在我的 Strix Halo 上混合使用远程和本地的 minimax 2.7(q3) 算法,它以 30 tg 和 220 tokens pp 的速率运行……速度有点慢,但能离线运行的感觉真好。可惜的是,M3 算法的参数量达到了 Opus .8 的水平,高达 460 字节,甚至连 128GB 的​​内存都装不下,更别提运行大型上下文了。Strix Halo 感觉就像个 AI 玩具。https ://kyuz0.github.io/amd-strix-halo-toolboxes/
回复

sosodev 12小时前 |父级|下一级 [–]

我的Strix Halo开发板最近性能大幅提升,不再像玩具了。这得益于MTP、更优的量化以及整个技术栈的整体性能改进。例如,我可以用大约30tg和200pp的精度运行Unsloth的Gemma4-31B 4位QAT模型。我觉得速度完全可以接受,尤其因为它的精度接近满格,足以应对我运行的各种任务。
我觉得用这台机器做家庭服务器的工作也很有帮助。它在所有传统工作负载方面都表现出色。然后我还可以借助人工智能来辅助处理一些自动化任务。我对此感到非常满意。

回复

_davide_ 10 小时前 |根|父|下一个 [–]

你当然可以用它来处理一些工作负载,但一旦涉及到大型代码库的复杂性,运行时间就会变得极其漫长,而且经济效益也差得离谱,电费都快赶上订阅费了。我很喜欢它能让我以防万一某个陌生人突然断线,还能让我安心地在本地运行程序,而且它还能提供 100% 的私有推理,但要说它能成为我日常工作的主要驱动力?我真想一枪崩了自己。
回复

catapart 8 小时前 |上一页|下一页 [–]

这个问题有点棘手,但既然说到这儿了:有没有人用 16GB 显存做过类似的事情?我一直在用 LM Studio 完成项目,但它的效率肯定还有提升空间。在尝试让模型理解如此少的标记问题时,浪费了很多时间。
回复

Rzor 1小时前 |父级|下一级 [–]

我用的是RX 9060 XT 16GB显卡,配置是google/gemma-4-26b-a4b-qat,软件是LM Studio。上下文65k,GPU上23层,CPU上7层,模型在内存中,使用了内存映射。我的计算速度是23-33 tks。三天前开始尝试(用的是gemma-4-e4b),虽然我不太明白这些设置的具体含义,但即使量化之后,26B的渲染速度在几个小项目中也明显提升了不少(“用bash脚本里的ffmpeg创建一个图像转换器”、“创建一个带有真实物理效果的canvas动画,不使用任何库”[1])。
速度比我阅读的速度快,但感觉慢得要命。我觉得 40-50 tks 的速度应该更舒服,希望我很快就能在 llamacpp 上达到这个速度。

[0] - https://pastes.io/9gaARxE8

[1] - https://jsfiddle.net/pou4nbh9/1/

模型:https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-gg...

回复

SugarReflex 6小时前 |上一页|下一页 [–]

有人用Aider吗?有没有其他好用的命令行替代方案?
回复

AH4oFVbPT4f8 11小时前 |上一页|下一页 [–]

我使用 Ollama + Hermes 开发环境,运行在配备 128GB 内存的 M5 Max 处理器上,采用 .NET 框架,并以 Qwen 3.6:35b-a3b 作为主要开发模型。我可能会使用 27b 版本来规划开发任务。
回复

xeonax 11小时前 |父级|下一级 [–]

.NET 在这期间做了什么?
回复

AH4oFVbPT4f8 9小时前 |根|父|下一个 [–]

抱歉,我的意思是,我正在使用 .NET C# 进行设置。
回复

chungus 7小时前 |上一页|下一页 [–]

是的,虽然严格来说不算被替换,因为我从来没用过那两款产品,我不喜欢把代码发送到他们的黑盒子里。我有两块24GB的AMD显卡,是从本地市场上的游戏玩家那里买的,其中一块用40厘米的延长线连接。我用的是Qwen 27B,对它的性能非常满意。Q8的上下文是135k(只是个大概数字,我可以把它推到256k)。我喜欢用Qwen 35B3A来绘制我们公司相对复杂的代码库/基础设施的完整代码路径。
我觉得它太好了,我现在会在本地市场上搜寻价格合适的 24GB 显卡,这些显卡似乎没有被矿工之类的人使用过,以便组装一台更大的矿机来进行并行执行。

功耗也完全不是问题,人工智能的工作负载与游戏截然不同。

tldr llama.cpp-vulkan with opencode on total 48GB VRAM AMD cards on arch bight.

回复

SkitterKherpi 12小时前 |上一页|下一页 [–]

到目前为止,这种情况总是让人感觉下一版本的本地模型只是勉强够用而已。
回复

euroderf 9小时前 |上一页|下一页 [–]

有人用只有 8GB 内存的 Mac 成功完成过这个操作吗?帮朋友问的。
回复

jwr 11小时前 |上一页|下一页 [–]

我尝试了很多很多次,而且还会继续尝试。但我就是觉得这事儿不可能实现:我们能在自己的机器上运行的那些小型模型(我用的是M4 Max Mac,所以目前勉强能运行qwen3.6-35b-a3b或者gemma-4-26b-a4b-qat)跟Opus/Fable这种大型模型根本没法比。差远了。我觉得很多人都在自欺欺人。
当然,你可以利用本地模型为简单场景生成看似合理的代码。但与我使用 Claude Code 和 Opus/Fable 解决大型代码库中复杂设计问题的方式相比,这根本不值得我花费时间。

回复

jmichaelson 11小时前 |上一页|下一页 [–]

我目前正在研究这个问题。我的方法是,使用高度优化的框架(pi.dev)以及合适的后端知识库(一个自定义的、可自动更新的、包含大量质量控制层的 wiki),可以很好地满足我 Claude Max 20x 订阅的大部分使用模式。我使用 Gemma 4 26B QAT,由 llama.cpp 的一个自定义分支提供服务,每个 QAT 包含 4-8 个 256k 的上下文槽,Q8 级别。如果框架能够稳定运行,这是一个非常好的模型。在如今动辄百万个上下文窗口的时代,256k 的上下文可能看起来很小,但对于我的工作(科学编程)来说已经足够了。每月 20 美元的 Ollama-cloud 订阅可以让我很好地利用前沿模型来处理复杂的规划或调试问题(所有这些都集成到我高度定制的 pi 安装中)。
我仍在进行优化(确切地说,是和 Claude 一起),但测试结果非常令人鼓舞。我很担心公司(以及政府)会控制对人工智能的访问,所以本地化是最佳方案。

回复

salutonmundo 6小时前 |上一页|下一页 [–]

它叫做你那该死的脑子。
回复

anubhav200 11小时前 |上一页|下一页 [–]

是的,llama.cpp、qwen 27b 和 35b,以及用于管理模型配置的 llama-cpp-manager。(https://github.com/anubhavgupta/llama-cpp-manager)
回复

Razengan 12小时前 |上一页|下一页 [–]

相关问题:是否存在可行的分布式人工智能模型?
就像我们之前推出的 SETI at Home、Folding at Home、BitTorrent 等项目一样,人们显然愿意将自己的计算机资源贡献给分布式项目。

也许在 dAI 网络中,任何人都可以提交内容进行训练,而每个运行“节点”的用户都可以拥有自己的自定义私有条件,以决定接受哪种类型的内容进行训练或推理。

例如,不喜欢动漫的人可以选择“永远不接受与动漫相关的内容或查询”,这样他们的节点基本上就会选择不接收任何与动漫相关的数据或问题。

回复

joshuamoyers 12小时前 |父级|下一级 [–]

我认为要实现可行的每秒处理数(tokens/s)或使算术强度足够高是非常困难的,因为现有的训练和推理过程中很多都受限于内存带宽。不过,从概念上讲,构建一个分布式的慢速流水线是完全可行的。
回复

SimianSci 11小时前 |父级|上一页|下一页 [–]

这种情况在相当长的一段时间内不太可能以任何有意义的方式发生。
(简而言之:分布式模型计算所需的硬件水平目前只有数据中心才能真正实现。)

令牌生成规模庞大,对单个GPU的要求极高,往往会超出PCIe等消费级互连的带宽承受能力。这从根本上意味着,如果没有强大的基础设施,将模型的计算任务分布到广阔的距离上将是一项艰巨的挑战。

举例来说,当我们把一个模型的计算任务分配到同一台工作站上的两张独立显卡上时,这并不意味着模型的计算带宽会翻倍。实际上,带宽的提升幅度很小,大约只有 20% 左右(具体数值取决于模型),因为接口(消费级硬件上的 PCIe 接口)很快就会因为两块 GPU 之间频繁的数据复制而饱和,成为瓶颈。而且请记住,这是 PCIe 接口在本地传输时发生的,其传输速度(取决于主板的代数)通常上限在 20-35 GB/s 左右。

模型性能很大程度上取决于是否拥有速度最快、带宽最高的单卡,以便最大限度地减少数据传输操作,因为模型运行所需的数据量极其庞大。我简直无法想象,如果模型计算所需的复制操作必须在不稳定的网络速度下进行,模型将会变得多么缓慢且无法使用。由于全球网络速度分布不均,性能损失将非常显著,而且网络不稳定还会导致数据验证开销增加。

分布式人工智能的梦想距离实现还有很长的路要走。

回复

wmedrano 10 小时前 |上一页|下一页 [–]

不,但我用的是 GLM5.1 而不是 Claude/GPT。
回复

drnick1 9小时前 |上一页|下一页 [–]

您推荐使用 Ollama 还是 bare llama.cpp?
回复

jboss10 8小时前 |父级|下一级 [–]

llama.cpp 速度更快,而且是开源的。Ollama 的历史褒贬不一。我使用 llama-swap 来模拟 Ollama 的使用体验。
回复

shironnnn_ 9小时前 |父级|上一页|下一页 [–]

如果在 MacOS 上,我推荐 llm-mlx,它目前渲染 token 的速度比 llama.cpp 快 10%-15%。
回复

4小时前低血糖 |上一页|下一页 [–]

如果你想在花大价钱购买显卡之前先试一试,那就运行一个适合你的目标显卡运行的程序,但要联网运行。
回复

devin 11小时前 |上一页|下一页 [–]

这里有人在用 TinyGrad 吗?
回复

板极电压 5 小时前 |上一页|下一页 [–]

我会在本地运行一些非常小的模型来进行代码补全和编写样板代码。我偶尔还会用 Claude 在网页浏览器里运行,因为它免费,但一旦它停止服务,我就会立刻停止使用它。他们休想从我这里赚到一分钱。
回复

hacker_homie 6小时前 |上一页|下一页 [–]

我在一台搭载 AMD AI Max 处理器的笔记本电脑上运行 QWEN 3.6,速度大概在 6-10 tok/s,速度慢到我可以跟着操作。它的设计存在一些问题,处理大量代码时会比较吃力。除此之外,它还是个不错的编程伙伴。
回复

epolanski 6小时前 |上一页|下一页 [–]

我没有使用本地版本,而是升级到了 DeepSeek v4。
不过,等我入手一台 256GB 以上的 MacBook 后,我打算改用本地的存储设备。

局部推理足以帮助我完成日常工作,而且不会让我变成法学硕士的助手。

回复

w10-1 10 小时前 |上一页|下一页 [–]

我用 oMLX(用于缓存)在 32GB 的 M1 max 上运行许多模型(但主要是 Gemma-4),而且是用 Xcode 运行的(天哪!)。就每秒响应时间而言,我认为在很多情况下它的响应速度比我大声读出提示符还要快(而且我并没有一直轮询 Claude 状态页面)。
我花了几个月时间精心维护AI、工具、技能和MCP服务器,但现在主要只是用它们来编写代码。我发现自己懒得用Claude了(但还是继续付费“以防万一”)。

这之所以可行,部分原因在于我的提示具有非常具体的目标、限制和建议的阶段性步骤,因为我希望代码完全按照我自己的编写方式呈现,并且我希望在特定时刻参与决策。我认为速度提升幅度在 2-4 倍,而不是像凭感觉编写全新项目那样达到 10 倍。问题不在于编码速度,而在于构建既复杂又正确且灵活的系统(即方向性准确性)。例如,智能体可以帮助我们放弃效率较低的 API 结构,而不是固守局部最优解。

其中一个缺陷是,我仍然在编写对人类来说简洁易懂的代码,但现在看来这可能是一种浪费。LLM(语言学习管理)或许更乐于接受一个 API 中包含 10 个以上的参数,而不是大量的配置对象和便捷封装器。

回复

系统2 12小时前 |上一页|下一页 [–]

在我买到80GB显存的显卡之前,我不会尝试这么做。本地的LLM(法学硕士)总是缺少一些需要更大显存的显卡才能运行的东西。
回复

ColonelPhantom 6小时前 |父级|下一级 [–]

哪些型号的显卡需要 80 GB 显存?在我看来,主流型号的显存都在 300 亿左右(例如 Qwen3.6、Gemma 4),而大型型号(例如 MiniMax、MiMo、StepFun、Deepseek)的显存则高达数千亿,80 GB 显存显然不够用。
如果你的机器配备 128GB 内存,例如 DGX Spark、Framework Desktop 或 M5 Max,勉强可以达到后一类游戏的低端配置,不过这些机器通常速度并不快。而对于前一类游戏,你只需一台配备 3090 或 5090 显卡的机器就能轻松流畅运行,甚至 5060 Ti 也完全可以。

回复

CamperBob2 38分钟前 |根|父|下一个 [–]

没错。只买一块 RTX 6000 显卡意义不大。想要运行一些 5090 运行不了的程序,至少需要两块。你可以想象,情况会如何发展。
回复

christkv 12小时前 |上一页|下一页 [–]

等待https://github.com/antirez/ds4稳定下来,以支持 strix halo。
回复

sometimelurker 9 小时前 |上一页|下一页 [–]

是的,我用的是小型 MTP qwens 和 pi。
回复

jay_kyburz 7小时前 |上一页|下一页 [–]

有人知道怎么在 Strix Halo 128GB 上和 Qwen3.6 聊天吗?
如果我给它一页上下文信息,它能生成链表或者识别出错误的 CSS 代码吗?

有没有什么在线平台可以让我和家里运行的模型进行交流,看看它的性能如何?

回复

major505 11小时前 |上一页|下一页 [–]

是的。我每天都在我的 MacBook m1 (16GB) 上使用 Owen,它运行在 Ollama 里。效果不错。速度不算特别快,而且我需要创建一个自定义镜像,将模型的初始温度设置为零,这样我就不会过度依赖它的各种花招,但它一周内都能正常工作。
回复

Der_Einzige 9小时前 |父级|下一级 [–]

许多人对智能体编码的不满实际上源于采样设置选择不当,但世界还需要几年时间才能真正理解这一点。top_p 和 top_k 参数虽然效果不佳,但却被刻意保留,因为后续方法会进行相干高温采样,而出于对齐和安全考虑,相干高温采样是绝对不允许的。
即使使用小型模型,也能获得良好智能体输出的秘诀是什么?Llamacpp 支持一种鲜为人知的采样器,名为“top-n sigma”。你应该使用它,将其设置为 1,并将 temperature 设置为任何你想要的值(可以是无穷大),你的模型就能神奇地在你的最大上下文窗口内运行。这是因为长时间的上下文生成本质上是一个采样问题。

回复

thrownaway561 9小时前 |上一页|下一页 [–]

我只用DeepSeekV4 Fast……它超级便宜。目前我的月使用量是……
67M 输出 51M 输入

总计 0.83 美元。

我真的不明白为什么人们不使用DeepSeek。

回复

ThomasGlanzmann 8小时前 |父级|下一级 [–]

我也一样。90% 的任务我都用 deepseekv4 快速完成,如果遇到不行的,我就用 deepseekv4 pro。我用 crush 作为代码助手,但移除了被屏蔽的命令,因为我还要做很多系统管理工作。我很喜欢它。7 周才花了 8 美元,而且用途非常广泛,编程、系统管理、替代谷歌搜索、投资等等,几乎无所不能。
回复

codemk8 6小时前 |父级|上一页|下一页 [–]

你是说 deepseek-v4-flash 吧?我也是。我用它来给我的 Hermes 代理商充值。它太便宜了,我有时都觉得“愧疚”。我甚至多投了一些钱,就为了确保他们不会倒闭。
回复

ThomasGlanzmann 46分钟前 |根|父|下一个 [–]

是的,我指的就是 deepseek-v4-flash。
回复

jeffrallen 10小时前 |上一页|下一页 [–]

我在公司提供的远程GPU上使用Qwen 3.6。运行良好。虽然速度慢但很稳定,工作效率高,能完成任务。可能更擅长诊断问题而不是编写新代码,不过也无所谓了。
回复

syngrog66 5小时前 |上一页|下一页 [–]

我预先用我的大脑、vim、各种其他命令行/图形用户界面工具等组合方式替换了它。
回复

gigatexal 11小时前 |上一页|下一页 [–]

我试过了。我实在无法接受它让我的 M3 Max MacBook Pro 14 原本安静得像耳语一样,性能却提升了这么多。最佳方案是使用 Claude Code 来处理中国版模型。Deepseek V4 Pro 非常非常出色。但我只是个偶尔使用 AI 的本地用户,每月 20 美元的 Claude 订阅费就足够了,而且我发现自己越来越频繁地使用它。
回复

cyanydeez 11小时前 |上一页|下一页 [–]

从未启动。使用 wither qwne3-xoder-nezt 或 qwen3.6 35b
如果你正打算购买一台新电脑,那么很容易就能找到购买 128GB 显存的理由。

回复

dude250711 12小时前 |上一页|下一页 [–]

是的,这里是在天然湿件基材上运行本地模型。
推荐配置:充足的营养、适量的咖啡因和安静的环境。

表现——目前未以代币衡量:大致处于平均水平。

回复

jasongill 12小时前 |父级|下一级 [–]

我在 Claude Code 流行之前就开始运行这个技术栈了。它运行尚可,但我发现它速度非常慢;尽管上下文窗口很大,它似乎经常会迷失方向,陷入无休止的循环(或者只是浪费令牌尝试使用网页浏览器),一耗时数小时,而且很难回到正轨。我甚至尝试启动了两个子代理,但即使经过多年的尝试,它们的编码能力仍然几乎为零,所以至少目前看来,这似乎是在浪费资源,但也许随着时间的推移,这个模型会有所改进。
回复

bananadonkey 8小时前 |根|父|下一个 [–]

我的子代理已经循环运行了近十年,至今一行代码都没写过。绝对不会再投资其他代理了……
回复

HPsquared 12小时前 |父级|上一页|下一页 [–]

我个人每小时大约能获得 50 个代币。
回复

tyingq 10 小时前 |上一页|下一页 [–]

有人尝试过“通过网络租用GPU”这种方式吗?这种方式在任何应用场景下都具有成本效益吗?
回复

kertoip_1 13小时前 |上一页|下一页 [–]

只需将 OpenRouter 连接到您的编码代理工具即可自行尝试。所有相关的 OpenRouter 模型都已包含在内。每个人的需求和期望都不同。
回复

dada216 12小时前 |上一页 [–]

本地部署?不是。主要通过 OpenCode Go 订阅使用 GLM 吗?是的,我仍然通过 OpenRouter 的 API 使用 Gemini/Claude/GPT 来完成一些相关任务,API 令牌费用每月最多 20 美元。
免责声明:我是一名 Linux 基础架构/k8s 开发人员,我编写生产代码,但主要是粘合代码,而且主要使用 golang 编写。

补充说明:我们从中获得的最大价值来自“文档智能”,而这部分内容全部出自 Gemma 和 Qwen 在 H100/H200 项目中的贡献。

回复

相关 [hn 有没有 模型] 推荐:

问HN:有没有人用本地模型替换Claude/GPT进行日常编码?

- -
Greenpants 11小时前 |下一个 [–]. 我非常重视数据隐私,也希望LLM(生命周期管理)能够免费运行. 我使用的是Pi编码框架,但将其容器化并沙盒化,以确保它完全离线运行. 在我的Mac Studio(配备128GB内存)或MacBook(配备36GB内存)上,我使用Qwen3.6 35b版本,只启用了30亿个活动参数,因此运行速度非常快.

SEO有没有未来?

- - 月光博客
  对于SEO的未来,国内外都有争论,它关系到成千上万的SEO从业人员,也关系到企业的网络推广策略. 其实早在几年前,SEO大佬ZAC就发出“SEO服务前景不妙”的呼声,还拿国外SEO大佬纷纷转行和SEO公司改变商业模式作为例子,说明SEO太过受制于搜索引擎,搜索引擎算法的更新带来的往往就是SEO公司的倒闭.

iPhon5宣传片 坑爹有没有

- chan - 我们爱讲冷笑话
一些订阅看不到的用户 点这儿观看. 欢迎订阅关注冷笑话微博FOTO!精美图片每日分享精彩推荐最好玩的冷游戏.

穷孩子有没有春天?

- Aaron Xu - 果壳网 guokr.com - 果壳网
《南方周末》一篇关于“寒门弟子没有春天”的报道在网友中被吵得沸沸扬扬. 压倒性的声音在呼喊“穷孩子永无春天是教育资源不平等的必然结果”. 早在上世纪中后期,发展心理学家已经开始广泛研究经济社会地位如何对个体发展带来影响的课题. 单独的“环境决定论”或“个体决定论”已经不能再解释个体发展和代际相传的复杂性,只有从环境和个体的交互作用中才能理性看待人类发展的真实画面.

含乳饮料有没有营养?

- - 科学松鼠会
一场营养快线的“乳胶”闹剧,让广大群众知道了“含乳饮料”跟“牛奶”不是一回事. 在含乳饮料的安全问题得到澄清之后,厂家和营养专家们又为它有没有营养而各执一词. 厂家说:能够成胶说明产品蛋白含量高;既有果汁又有牛奶,它的营养更全面更丰富. 营养专家说:营养价值只有牛奶的三分之一,还有大量的糖,可以算是垃圾食品了.

模型制作

- 小鱼儿 - 非正常人类研究中心 – Mtime时光网
1.材料:一大袋的一次性筷子(花了60块钱);5支502胶水;5张粗砂纸;记号笔一只;锋利的美工刀片若干,破剪刀一把. 就是这种屌毛筷子,质量也太他妈的差了点,80%都是弯的 . 随便提一下:我的脚丫子还是蛮性感滴 . 开始动工了!!  先做门框跟房子的底架. 3.不好意思,忘了交代一下了,我是先画图纸的,看到那张纸了没有.

有问必答:你有没有数码产品强迫症?

- ivan - Engadget 中国版
适当的把玩是可以的,但你现在是否已经潜意识里有了这种症状. 引用来源 | 此文章网址 | 转寄此文章 | 回应.

国庆节要加班的苦逼有没有……你们懂的

- jaywizard23 - 工口堂
估计很多人都已经get了,还是惯例放一放吧.

Nokia Lumia 800 的盒子里有没有什么特别呢?

- Woooon - Engadget 中国版
Lumia 800 的动手玩都看过了,还有什么没有看呢. 还没有呢,不过可以先看看它的开箱照片. Lumia 800 在外观上跟 N9 非常相似,不过前者的盒子设计实在是较用心呢;印着 Lumia 800 的多角度照和大大的手机名称,体积也较 N9 的为大. 至于随盒附送的东西则有 USB 线、充电器、耳机、说明书和 N9 也有附送的黑色保护套(视乎手机颜色而定).

有没有一句话走进你的心里

- sincerebaby - 河蟹娱乐
  1.生活里,有很多转瞬即逝,像在车站的告别,刚刚还相互拥抱,转眼已各自天涯. 很多时候,你不懂,我也不懂,就这样,说着说着就变了,听着听着就倦了,看着看着就厌了,跟着跟着就慢了,走着走着就散了,爱着爱着就淡了,想着想着就算了.   2.其时,我很累了,我习惯假装坚强,习惯了一个人面对所有,我不知道自己到底想怎么样.