2026实习面试:阿里钉钉AI Agent研发工程师
总结摘要
2026实习面试:阿里钉钉AI_Agent研发
电话面试,基本都在聊我的RAG智能问答项目
RRF算法中的常数k为什么设置为60(平滑排名差异(调节“第一名”的权重)、鼓励“多路共识”(多列表融合))
当时没答出来:它是为了防止某一次搜索(比如纯向量或纯文本)的“第一名”分数过高,从而压制了另一种搜索的结果。它让融合算法更看重 “多次出现的文档” (即在语义和关键词上都有匹配)。
混合检索之后,有没有使用到重排序
RAG的文档分片过程中,除了设置覆盖率还有哪些方法?(语义分片、递归字符分片、父文档索引)
你的文档注入分片流程中,如果出现服务突然崩溃了怎么办?
文档的向量化过程需要花费很长的时间,你有什么办法可以提高效率吗?(文档分段,并行向量化)
你使用了虚拟线程,那么使用过程需要注意哪些问题?(synchronized关键字)
你使用SSE+虚拟线程,向用户流式回复,那么如果用户想中途停止AI的回复,应该如何做呢?(建立本地注册表,用户发送独立请求,终止回复中的虚拟线程)
如何评估RAG的检索效果?(召回率)(还有一个 nDCG )
你都用过哪些大模型?用这些模型主要用来干什么?