DeepWiki 一个常用 RAG 应用的开发流程

Splitter 类型	核心思路	主要优点
AST/语法树型（ Tree-sitter、 LlamaIndex CodeSplitter）	按语言语法解析，按文件→模块→类/函数→代码块分层切分	边界与语义单元对齐（函数/类/方法）；检索更精准；可附带符号名/签名/路径等元数据；减少“切断语义”导致的幻觉
语言/模式感知启发式（ LangChain Recursive + 语言分隔符）	维护各语言的分隔符（class/def/function/export 等），先递归按分隔符切分，再做 token 约束	实现简单、跨语言容易落地；比纯词/字符切分更稳；成本低、工程集成快
这两者的对比结果还在做测试，但都会比存文本分割好很多；具体对比结果可以参考后续的文章。

- - crossoverJie's Blog

上一篇文章：大模型应用开发必需了解的基本概念分享了关于 LLM 大模型应用开发的一些基础知识，本文乘热打铁，借助一个真实的大模型应用来分析下其中的流程. 这里我们还是以 deepwiki-open为例进行分析. 通过这个截图可以知道它的主要功能：一键把任意 GitHub/GitLab/Bitbucket 仓库生成“可浏览的交互式 Wiki”.

为什么放弃了 RAG？ RAG 的六大难题

- - V2EX - 技术

RAG 本身并不算是个坏主意. 我们认真实践过，也确实在某些场景下跑通了. 去年，我们花了几个月搭过几套完整的 RAG 管线：三阶段处理（ Extract 、Chunk 、Embed ），三种搜索策略（ Vector 、BM25 、Hybrid + Reranking ）. 从文本提取，粗排，到 Rerank 精排，每一个环节都认真做了一遍.

传统的搜索是全文搜索, 即用户提供关键字, 系统将此关键字去数据库中的文本查找, 看文本是否含此关键字, 如有则返回. 这种有个缺点, 如果提供的是关键字的同义词, 则无法搜索了.. 于是最新的人工智能技术能解决这个问题, 即只提供同义词之类的也能找出来.. 为什么能查找出来呢, 系统将待搜索的文本转成向量, 再将关键词转成向量, 查找欧氏距离或余弦相似度最近的那组向量, 再将此对应的文本返回..

Agent 讓 RAG 過時了嗎? 談 AI Coding 的檢索策略

- - ihower { blogging }

看了一場 Augment Code (也是一家做 AI IDE 的廠商) 來講 “Agentic 檢索” 對比 “傳統 RAG 檢索” 的演講，蠻有啟發的. 在 AI Coding 領域，簡單的工具正在擊敗複雜的 RAG 系統. AI Coding 的演進歷程. AI Coding 的演進是這樣:.

GetEd2k （Android应用）

- 某牢 - eMule Fans 电骡爱好者

GetEd2k是一个Android应用程序，作者是anacletus. 此应用可以帮助你把网页中的电驴(eDonkey) 链接添加到你个人电脑的电驴客户端里，不过前提是你的客户端开启了用于远程控制的Web interface（Web服务器，网页接口，Web界面），当然，eMule（电骡）， MLDonkey 和 aMule 都支持该功能，所以这三种主流电驴客户端的用户都可以使用GetEd2k.

fixed应用

- - ITeye博客

今天在逛人人网时，发现人人网首页左侧的“应用动态”，随着我页面向下滚动，一直固定在网站的左侧. 但这效果存在一点瑕疵，在拖动过程中存在一点抖动(ie下)，不是非常平滑. 我尝试使用jquey实现了该效果，也解决了抖动的问题. 创建一个ID为sideBar的div，将它的position设置为absolute.

Voldemort应用

- - 冰火岛

互联网数据应用产品涉及到到大数据存储，譬如推荐系统，精准营销，个性化搜索这样的产品，后台离线计算的海量数据需要展示给用户. 在电子商务应用中，譬如将User作为key，给用户挖掘的结果作为value；或者以商品id作为key，商品挖掘的知识作为value，这些数据可以通过KV存储，从而满足实际需求.

httpclient4的应用

- - 编程语言 - ITeye博客

httpclient一个实现了HTTP协议的客户端编程工具包. 一个使用的背景：登录需要验证，需要压力测试一下，用webdriver等工具搞不定. 就用到了他，有ocr开源的工具，结合httpclient完美的处理了. 网上的例子主要是3的版本，这里主要是总结一下4的版本. 本身带的例子也不错：下载地址，api的参考.

Solr SpellCheck 应用

- - 开源软件 - ITeye博客

通过对各类型的SpellCheck组件学习，完成项目拼写检查功能. 本文使用基于拼写词典的实现方式，solr版本为5.3.0. SpellCheck 简述. 拼写检查是对用户错误输入，响应正确的检查建议. 比如输入：周杰轮，响应：你是不是想找周杰伦. Solr的拼写检查大致可分为两类，基于词典与基于Solr索引.

当应用不仅仅是应用

- HACK21 - 爱范儿 · Beats of Bits

(Ankit Gupta 和 Akshay Kothari 是 Pulse 的创始人，他们的应用在 iOS/Android 平台获得极高的下载量，曾获得乔布斯的赞赏. 他们的公司 Alphonso Labs 获得了 100 万风投和天使投资). by ankit gupta from posterous blog | 积木译，转载请注明 ifanr 译文链接.

DeepWiki 一个常用 RAG 应用的开发流程

deepwiki 介绍

使用

流程

生成本地本地向量数据库

Spitter

embedding

生成目录

每个目录的具体详情页

总结

相关 [deepwiki rag 应用] 推荐：