prompt-injection
2026-04-09
深入探讨 Prompt Injection 的四层防御体系,涵盖威胁模型、输入层防御、结构化约束、工具权限控制与架构防御,帮助开发者构建更安全的 LLM 应用。
626 words
|
3 minutes
向量数据库检索算法详解
深入解析主流向量数据库检索算法,包括HNSW、IVF、PQ、LSH等,涵盖算法原理、参数调优、选型决策及代码实战
2467 words
|
12 minutes
AI Interview 中的Agent编排方案
职责: 解析新简历文本或获取已有简历,提取结构化信息。
1270 words
|
6 minutes
LLM Fine-Tuning
深入解析 LLM 微调技术,涵盖 SFT 监督微调和 LoRA 低秩适配两大核心方法,从数学原理到实践代码全面讲解。
6847 words
|
34 minutes
Claude Agent 编排完全指南
深入解析 Claude Code 中的智能体编排机制,涵盖并行执行、串行执行、互动协调等核心编排方式,以及可用代理列表和实战技巧。
4381 words
|
22 minutes
Transformer 架构详解
深入解析 Transformer 架构:FFN 与全连接层的区别、Scaled Dot-Product Attention、Multi-Head Attention、Layer Norm vs Batch Norm,以及 BERT/GPT 架构对比。
3751 words
|
19 minutes
强化学习与对齐技术:RL、PPO 与 RLHF 详解
强化学习(Reinforcement Learning,RL)是机器学习三大范式之一,与监督学习和无监督学习并列。与其他两种范式不同,强化学习强调智能体(Agent)通过与环境互动来学习最优策略。智能体在每一步交互中根据当前状态(State)采取动作(Action),环境随后返回新的状态和奖励(Reward),智能体据此调整策略,逐步学习如何最大化累积奖励。
2824 words
|
14 minutes
RL
2026-04-07
深入解析强化学习核心技术,涵盖PPO算法原理、Critic网络作用机制、GRPO组内相对优势估计及RLHF在大语言模型对齐中的应用实践
4321 words
|
22 minutes