4/17/2026

架构学习之路

先啃 DDIA（第 1–6 章），同时拿手头项目做数据层笔记；然后读 Clean Architecture 重构自己的 Go repo 结构；接着 Building Microservices + Learning DDD 两本交叉读；最后 Cloud Native Go 和 Production Kubernetes 一起对着 K8s 集群实操。

几个实践建议：

读 DDIA 时，找项目里用的数据库（PostgreSQL/Redis/Kafka 等）对应章节，立刻去看官方文档验证书里的描述，会记忆深刻得多。

读 Building Microservices 时，不要急着拆服务，而是先用 DDD 的 bounded context 把现有 monolith 的边界画出来，再决定要不要拆。

Cloud Native Go 的代码示例质量很高，建议 fork 下来在本地跑，比只读要有效得多。

有没有哪个方向想进一步深入？比如具体的分布式模式、Go 并发架构，或者 K8s operator 开发？

4/15/2026

LLM缓存详解

可以把“大模型缓存”理解成：把已经算过的结果（或中间结果）存下来，下次尽量复用。但这里面其实分几层，不只是简单的“问题→答案”缓存。

1️⃣ 常见的几种缓存类型

（1）KV Cache（推理内部缓存）

Transformer 在生成时，会把前面 token 的 Key/Value 向量缓存下来。

本质：避免重复计算 attention
作用：同一请求内部加速
特点：
👉 只对“同一上下文继续生成”有效
👉 不跨用户、不跨请求

这类缓存是你体感“流式输出越来越快”的原因之一。

（2）Prompt Cache（提示词缓存）

缓存的是：

相同（或高度相似）的 prompt → 对应的中间表示 / 输出

典型场景：

系统提示词（system prompt）很长
多轮对话里前文基本不变

👉 这里能省掉前缀计算成本（prefill）

（3）Embedding / 语义缓存（Semantic Cache）

这个才是你问题的关键 👇

不是按“字符串完全一致”，而是：

把问题转成向量 → 找“语义相似”的历史问题 → 直接复用答案

2️⃣ 为什么命中缓存成本低很多？

因为大模型推理成本主要在两块：

（1）Prefill（吃 prompt）

复杂度 ~ O(n²)
很贵（尤其长 prompt）

（2）Decode（逐 token 生成）

每个 token 都要算一遍模型

而缓存命中后：

KV cache：不用重复 attention
Prompt cache：不用重新 encode
语义缓存：直接跳过模型推理

👉 相当于从：

几十~几百毫秒 + GPU算力

变成：

一次向量检索（毫秒级）+ 直接返回

所以成本差一个数量级是正常的。

3️⃣ “每个人问法不同，怎么命中缓存？”

这是核心难点，也是工程重点👇

❌ 不能靠字符串匹配

比如：

“今天天气怎么样”
“今天外面热不热”

字符串完全不同 → 必须 miss

✅ 用语义相似度（Embedding）

流程一般是：

把问题转 embedding（向量）
在向量数据库里找 TopK 相似问题
如果相似度 > 阈值（比如 0.9）
直接返回缓存答案

一个简单示意

Q1: 北京天气怎么样
→ embedding A

Q2: 北京今天热吗
→ embedding B

cosine(A, B) ≈ 0.95 ✅ 命中

4️⃣ 实际工程里会更复杂（关键细节）

（1）不仅缓存“问题”，还要缓存“上下文结构”

例如：

系统提示 + 用户问题

否则同一句话在不同系统角色下答案完全不同。

（2）要做归一化（Normalization）

比如：

时间标准化（“今天”→具体日期）
数字归一
同义词处理

（3）分层缓存（很关键）

一般会这样设计：

L1：精确缓存（完全命中）
L2：语义缓存（embedding）
L3：模型推理

（4）风险控制（不能乱复用）

语义缓存有坑：

用户问：“苹果股票能买吗”
另一个问：“特斯拉股票能买吗”

embedding可能很接近 ❗

👉 但答案绝不能复用

所以需要：

加实体识别（NER）
加关键字段校验
或直接限制只缓存低风险问题（FAQ类）

5️⃣ 为什么很多场景缓存命中率依然很高？

因为现实中：

👉 用户问题是“高度重复的”

典型场景：

客服（退款、发票）
编程问题（报错）
搜索类问题

哪怕表达不同：

语义空间其实是“高度聚集”的

6️⃣ 一句话总结

大模型缓存本质是三层优化：

KV Cache → 避免重复算 attention（单请求内）
Prompt Cache → 复用前缀计算
Semantic Cache → 用 embedding 做“语义命中”

而你关心的“问法不同也能命中”，核心就是：

把“文本匹配”问题，变成“向量空间相似度”问题

temperature, top_p , frequency_penalty, max_tokens 概念详解

1️⃣ temperature（温度）——控制“概率分布的平滑程度”

模型本来会输出一个概率分布：

tokenA: 0.7  
tokenB: 0.2  
tokenC: 0.1

temperature 会对这个分布做“拉伸/压缩”：

低温（0~0.3）
→ 分布更尖锐
→ 更接近“选概率最高的词”
→ 更确定、稳定
高温（0.7~1.2）
→ 分布更平滑
→ 小概率词更容易被选中
→ 更发散、有创造性

👉 数学上其实是：
[
P_i = \frac{e^{logits_i / T}}{\sum e^{logits / T}}
]

👉 直觉一句话：

temperature = “敢不敢冒险”

2️⃣ top_p（nucleus sampling）——控制“参与抽奖的候选池”

不是调整概率，而是裁剪候选集合。

步骤：

按概率排序 token
从高到低累加，直到总概率 ≥ p
只在这个子集里采样

举个例子：

原始分布：

A: 0.5
B: 0.2
C: 0.15
D: 0.1
E: 0.05

top_p = 0.7：

选：

A (0.5) + B (0.2) = 0.7

👉 只在 {A, B} 里选

👉 直觉一句话：

top_p = “允许多少概率质量参与竞争”

和 temperature 的区别

参数	作用本质
temperature	改概率分布形状
top_p	截断候选集合

👉 组合效果：

temperature 决定“洗牌程度”
top_p 决定“参与人数”

3️⃣ frequency_penalty ——“你刚说过，就少说点”

这个参数是对已经生成过的 token 做惩罚

👉 逻辑：

出现次数越多 → 概率被压低

举个例子：

生成中：

the cat and the cat and the ...

如果 frequency_penalty > 0：

“the”、“cat” 被重复使用
下一次出现概率会下降

👉 数学近似：
[
logits_i = logits_i - \lambda \cdot count(i)
]

👉 直觉一句话：

frequency_penalty = “别复读”

使用场景

场景	建议
写文章	0.3 ~ 0.8
代码生成	0
列表生成	0.2

4️⃣ max_tokens ——“最多说多少”

这个最简单，但很多人用错。

👉 它控制的是：

模型最多生成多少 token
不是字数，是 token（大概 1 token ≈ 0.75 英文词 / 1~2 中文字）

关键影响：

1. 截断

如果太小：

答案还没说完 → 被砍掉

2. 成本

token = 钱

3. 推理能力

复杂任务需要更长输出空间：

推理步骤多 → token需求更高

👉 直觉一句话：

max_tokens = “你给模型多少发挥空间”

🔥 参数之间的“联动关系”（重点）

1️⃣ temperature + top_p（最核心组合）

常见策略：

稳定输出：
  temperature = 0.2
  top_p = 0.9

创意输出：
  temperature = 0.8
  top_p = 0.95

极致确定性：
  temperature = 0
  top_p = 1

👉 不建议：

temperature 很高 + top_p 很低

→ 会变得“奇怪但又受限”

2️⃣ frequency_penalty 的副作用

太高会导致：

用奇怪同义词
语句不自然
代码变量名乱飞

👉 所以：

代码任务 = 一定要 0

3️⃣ max_tokens 和幻觉

很关键：

👉 token 不够 → 模型更容易胡编

因为：

推理链被截断
被迫提前收尾

🧠 一个工程视角总结

你可以这样理解这4个参数：

temperature      → 探索程度（exploration）
top_p            → 搜索空间（search space）
frequency_penalty→ 记忆抑制（anti-repetition）
max_tokens       → 计算预算（compute budget）

4/06/2026

云服务器（Linux + Nginx）网站服务器优化配置指南

## 一、Linux系统层优化

### 1. 安全基础配置

- **系统更新**：定期执行 `sudo apt update && sudo apt upgrade`（Debian系）或 `sudo dnf update`（RHEL系），保持内核与软件包最新。

- **防火墙**：仅开放必要端口（22/SSH、80/HTTP、443/HTTPS）。

Ubuntu：`sudo ufw allow 22,80,443/tcp && sudo ufw enable`

RHEL系：`sudo firewall-cmd --permanent --add-service={ssh,http,https} && sudo firewall-cmd --reload`

- **SSH加固**：

- 修改默认端口（`/etc/ssh/sshd_config` 中 `Port`）

- 禁用root登录（`PermitRootLogin no`）

- 启用密钥认证（`PasswordAuthentication no`）

- 配置Fail2ban防止暴力破解

- **专用服务账户**：创建非root用户（如 `www-data`）运行Nginx，遵循最小权限原则。

### 2. 内核与资源调优（`/etc/sysctl.conf`）

```conf

# 网络连接优化

net.core.somaxconn = 65535

net.ipv4.tcp_max_syn_backlog = 65535

net.core.netdev_max_backlog = 65535

net.ipv4.ip_local_port_range = 1024 65535

net.ipv4.tcp_fin_timeout = 30

# 注：tcp_tw_reuse 需谨慎使用（仅适用于客户端连接场景，服务器端建议结合业务评估）

```

生效命令：`sudo sysctl -p`

文件描述符限制：

- `/etc/security/limits.conf` 添加：

`* soft nofile 65535`

`* hard nofile 65535`

- 重启会话后验证：`ulimit -n`

### 3. 运维增强

- **时间同步**：部署 `chrony` 或 `systemd-timesyncd`，确保日志与证书时效准确。

- **日志管理**：配置 `logrotate`（`/etc/logrotate.d/nginx`），避免磁盘占满。

- **SELinux/AppArmor**：建议保留并配置策略（如 `audit2allow` 生成规则），而非直接禁用。

---

## 二、Nginx应用层优化

### 1. 核心性能配置（`nginx.conf`）

```nginx

user www-data; # 与系统创建的专用用户一致

worker_processes auto; # 匹配CPU核心数

worker_rlimit_nofile 65535; # 与系统ulimit对齐

events {

use epoll; # Linux高效事件模型

worker_connections 10240;

multi_accept on;

}

http {

sendfile on; # 零拷贝传输静态文件

tcp_nopush on; # 配合sendfile提升吞吐

tcp_nodelay on; # 小包实时传输优化

keepalive_timeout 65;

types_hash_max_size 2048;

# 隐藏版本信息

server_tokens off;

# Gzip压缩（按需启用）

gzip on;

gzip_vary on;

gzip_min_length 1024;

gzip_types text/plain text/css application/json application/javascript text/xml application/xml;

# 安全响应头（HTTPS场景补充HSTS）

add_header X-Frame-Options "SAMEORIGIN" always;

add_header X-Content-Type-Options "nosniff" always;

add_header Referrer-Policy "strict-origin-when-cross-origin" always;

# Strict-Transport-Security 仅在全站HTTPS且测试无误后启用

# 静态资源缓存

location ~* \.(jpg|jpeg|png|gif|ico|css|js|woff2)$ {

expires 1y;

add_header Cache-Control "public, immutable";

}

# 防护基础设置

client_max_body_size 10M; # 限制上传大小

limit_req_zone $binary_remote_addr zone=req_limit:10m rate=10r/s;

limit_conn_zone $binary_remote_addr zone=conn_limit:10m;

# 禁止敏感路径访问

location ~ /\.(env|git|ht|svn) {

deny all;

return 404;

}

```

### 2. SSL/TLS专项优化（启用HTTPS时）

- 协议与加密套件：

`ssl_protocols TLSv1.2 TLSv1.3;`

`ssl_ciphers 'TLS_AES_128_GCM_SHA256:TLS_AES_256_GCM_SHA384:ECDHE-RSA-AES128-GCM-SHA256';`

`ssl_prefer_server_ciphers on;`

- 会话复用：`ssl_session_cache shared:SSL:10m; ssl_session_timeout 10m;`

- OCSP Stapling：`ssl_stapling on; ssl_stapling_verify on; resolver 8.8.8.8 valid=300s;`

- 证书管理：推荐使用 Let's Encrypt + Certbot 实现自动续期。

### 3. 运维支持

- **配置验证与重载**：

`nginx -t && nginx -s reload`（避免服务中断）

- **状态监控**（谨慎开放）：

```nginx

location /nginx_status {

stub_status on;

allow 127.0.0.1; # 严格限制访问IP

deny all;

}

```

- **日志优化**：`access_log /var/log/nginx/access.log main buffer=32k flush=5s;`

---

## 三、持续运维建议

1. **监控体系**：部署 Prometheus + Node Exporter + Grafana，监控CPU、内存、连接数及Nginx指标（需启用stub_status）。

2. **定期审计**：

- 每月检查系统与Nginx安全公告

- 使用 `lynis` 或 `rkhunter` 进行安全扫描

- 验证备份完整性（网站文件、数据库、配置）

3. **压力测试**：上线前使用 `wrk` 或 `ab` 模拟流量，验证优化效果。

4. **云平台特性**：结合云厂商文档启用增强功能（如网络加速、云监控Agent、快照策略）。

> **重要提示**：

> - 所有修改前务必备份配置文件（`cp /etc/nginx/nginx.conf{,.bak}`）

> - 参数需依据实际硬件资源、流量模型动态调整，避免“一刀切”

> - 安全配置（如HSTS、CSP）需充分测试，防止业务阻断

> - 遵循“最小权限、纵深防御”原则，定期复审策略有效性

通过系统性优化与持续运维，可显著提升网站服务的可靠性与抗风险能力。如有特定业务场景（高并发API、媒体站等），建议进一步定制专项策略。

4/04/2026

MySQL 性能调优的底层心法

MySQL 性能调优的底层心法——一切为了减少磁盘随机 I/O。

4/01/2026

Go 工程实践：常见坑与设计注意事项

一、指针 vs 值传递（核心原则）

✅ 判断规则

1. 需要修改数据 → 用指针
2. 对象很大 → 用指针
3. 小对象 + 只读 → 用值（推荐）
4. 方法接收者一致 → 保持一致

❌ 常见误区

func distance(p *Point) {} // ❌ 不必要的指针

问题：

增加 nil 风险
语义误导（看起来会修改）
可能增加 GC 压力

✅ 推荐写法

func distance(p Point) {} // ✅

二、interface 使用原则

1️⃣ 不要使用 `*interface`（反模式）

func f(w *io.Writer) {} // ❌

原因：

interface 本身已是引用语义
增加一层间接访问，没有收益
破坏抽象

2️⃣ interface 的本质

interface = (type, data pointer)

👉 已经包含指针语义

三、nil 设计与风险控制

核心原则

不要让 nil 在系统中“流动”

✅ 正确做法

1️⃣ 构造函数保证非 nil

func NewUser() *User {
    return &User{}
}

2️⃣ 边界检查（而不是内部检查）

func Handle(u *User) error {
    if u == nil {
        return errors.New("nil user")
    }
    return u.do()
}

3️⃣ 小对象优先值传递

func Process(p Point) {} // 永远不会 nil

❌ 错误做法

func (u *User) Save() {
    if u == nil { // ❌ 到处防御
        return
    }
}

四、interface “假 nil”陷阱（高危）

现象

var e *MyError = nil
var err error = e

fmt.Println(err == nil) // false ❗

原因

err = (type: *MyError, data: nil)

👉 interface 判断 nil 要求：

type == nil && data == nil

✅ 规避方法

if e == nil {
    return nil // ✅
}
return e

五、error wrapping（错误链）

❌ 错误写法

return fmt.Errorf("failed: %v", err) // ❌

👉 丢失错误链

✅ 正确写法

return fmt.Errorf("failed: %w", err) // ✅

使用方式

if errors.Is(err, target) { }

自定义 error 必须实现

func (e *MyError) Unwrap() error {
    return e.Err
}

六、error 判断原则

场景	推荐
判断具体错误	`errors.Is`
类型断言	`errors.As`
直接比较	❌ 避免

七、context 使用原则

1️⃣ context 是“控制器”，不是“数据容器”

用于：
- 超时控制
- 取消传播

2️⃣ 必须向下传递

func handler(w http.ResponseWriter, r *http.Request) {
    ctx := r.Context()
    do(ctx)
}

3️⃣ goroutine 必须绑定 ctx

go func(ctx context.Context) {
    select {
    case <-ctx.Done():
        return
    }
}(ctx)

八、HTTP / Shutdown 关键点

核心理解

signal → ctx → Shutdown

Shutdown 行为

停止接收新请求
等待已有请求完成
超时后强制关闭

❌ 常见误解

Shutdown 会监听系统信号 ❌

实际：

只监听 ctx

九、接口 vs 结构体设计哲学

类型	作用
struct	表达数据
interface	表达行为

net/http 示例

func handler(w http.ResponseWriter, r *http.Request)

r：数据（大对象 → 指针）
w：行为（接口）

十、工程实践总结（最重要）

一句话原则

1. 用语义决定指针还是值，不要机械统一
2. interface 不要加指针
3. nil 不要在系统中传播
4. error 必须支持 unwrap
5. ctx 必须贯穿调用链

最容易踩的三个坑

1. interface != nil 但内部是 nil
2. error wrapping 用了 %v 而不是 %w
3. 所有 struct 都用指针（过度设计）

结尾

这套规则本质上围绕三件事：

- 可读性（语义清晰）
- 可控性（避免隐式行为）
- 可维护性（错误可追踪）

12/26/2025

事务的ACID是什么

事务的 ACID 是数据库事务必须满足的四个基本性质，用来保证在并发和故障情况下数据的正确性与可靠性：

A（Atomicity，原子性）
一个事务中的操作要么全部成功，要么全部失败回滚，不存在“只做了一半”的中间状态。
C（Consistency，一致性）
事务执行前后，数据库都必须处于一致的合法状态，满足约束（如主键、外键、唯一性、业务规则等）。
I（Isolation，隔离性）
并发执行的多个事务之间相互隔离，一个事务未提交的中间结果对其他事务不可见（具体强弱由隔离级别决定）。
D（Durability，持久性）
一旦事务提交成功，其结果会被永久保存，即使系统崩溃也不会丢失（通常依赖 WAL/redo log 等机制）。

一句话记忆：要么全做完、前后不破坏规则、互不干扰、做完不丢。

订阅：博文 (Atom)

4/17/2026

4/15/2026

1️⃣ 常见的几种缓存类型

（1）KV Cache（推理内部缓存）

（2）Prompt Cache（提示词缓存）

（3）Embedding / 语义缓存（Semantic Cache）

2️⃣ 为什么命中缓存成本低很多？

（1）Prefill（吃 prompt）

（2）Decode（逐 token 生成）

3️⃣ “每个人问法不同，怎么命中缓存？”

❌ 不能靠字符串匹配

✅ 用语义相似度（Embedding）

一个简单示意

4️⃣ 实际工程里会更复杂（关键细节）

（1）不仅缓存“问题”，还要缓存“上下文结构”

（2）要做归一化（Normalization）

（3）分层缓存（很关键）

（4）风险控制（不能乱复用）

5️⃣ 为什么很多场景缓存命中率依然很高？

6️⃣ 一句话总结

1️⃣ temperature（温度）——控制“概率分布的平滑程度”

2️⃣ top_p（nucleus sampling）——控制“参与抽奖的候选池”

举个例子：

top_p = 0.7：

和 temperature 的区别

3️⃣ frequency_penalty ——“你刚说过，就少说点”

举个例子：

使用场景

4️⃣ max_tokens ——“最多说多少”

关键影响：

1. 截断

2. 成本

3. 推理能力

🔥 参数之间的“联动关系”（重点）

1️⃣ temperature + top_p（最核心组合）

2️⃣ frequency_penalty 的副作用

3️⃣ max_tokens 和幻觉

🧠 一个工程视角总结

4/06/2026

4/04/2026

4/01/2026

一、指针 vs 值传递（核心原则）

✅ 判断规则

❌ 常见误区

✅ 推荐写法

二、interface 使用原则

1️⃣ 不要使用 *interface（反模式）

2️⃣ interface 的本质

三、nil 设计与风险控制

核心原则

✅ 正确做法

1️⃣ 构造函数保证非 nil

2️⃣ 边界检查（而不是内部检查）

3️⃣ 小对象优先值传递

❌ 错误做法

四、interface “假 nil”陷阱（高危）

现象

原因

✅ 规避方法

五、error wrapping（错误链）

❌ 错误写法

✅ 正确写法

使用方式

自定义 error 必须实现

六、error 判断原则

七、context 使用原则

1️⃣ context 是“控制器”，不是“数据容器”

2️⃣ 必须向下传递

3️⃣ goroutine 必须绑定 ctx

八、HTTP / Shutdown 关键点

核心理解

Shutdown 行为

❌ 常见误解

九、接口 vs 结构体设计哲学

net/http 示例

十、工程实践总结（最重要）

一句话原则

最容易踩的三个坑

结尾

12/26/2025

1️⃣ 不要使用 `*interface`（反模式）