聊一聊 AI

大模型,从神坛到工具箱 🔧

大模型是如何运行的?——拆解一次推理过程

想象一下你对着大模型说话,它“想”了一下然后回答你。背后发生了什么?

  • Input
    你敲进去的文字。就这么简单?不,它可能被预处理(分词、转成数字ID)。
  • Prompt
    这玩意儿太关键了!它像是指挥棒,告诉模型“现在该扮演什么角色”、“用什么语气”、“解决什么问题”。
    ✅ 好的prompt能让模型表现脱胎换骨
    ❌ 差的prompt让它像个智障
  • 推理框架
    模型的“大脑运行环境”(如TensorRT-LLM/vLLM/Ollama)。核心任务:高效组织海量参数运算
  • 模型本身
    庞然大物,海量参数矩阵存储语言知识和推理能力,部署时需加载参数到内存/显存,其实大部分的电脑经过各种配置大概率都能跑起来,但是能不能推理出来以及能不能忍受这个速度就不好说了。

理解模型的“体格”:最重要的几个参数

精度(照片分辨率类比)

  • 直观理解: 精度就像照片的分辨率。FP32是高清原图,细节丰富但文件巨大;FP16是压缩过的JPG,清晰度够用,文件小很多;INT4可能就是手机上的小缩略图了,能认出是什么,但细节模糊。选哪种?看场景! 要极致精度选FP32/FP16,要极致部署(移动端、低配设备)INT4/INT8就是未来
  • 微软的 BitNet b1.58 2B4T 4bit 级别的量化,2B 参数 0.4GB 内存开销,移动端都可以跑起来,推理速度还更快,最终的普及才是 AI 的时代象征

模型参数规模(“特征维度”的旋钮)

四维、五维,再往上人已经无法去想象多维空间是什么样了,

  • 参数意义:每个参数是神经网络中的“旋钮”,组合捕捉语言模式。
    参数越多 → 特征组合越复杂精细
  • 极简例子 🌰:
    • 1维 → 区分“男/女”
    • 2维 → 区分“男人/女人/小孩/老人”
    • 70亿维 → 描述语言浩瀚宇宙!

个人体验(非严谨测试):

参数规模 能力表现
<7B 基础文本✅,指令遵循弱❌(如“扮演猫娘”可能失败)
~14B 分水岭!指令遵循提升✅,简单推理✅
≥32B 能力跃升!复杂推理/代码生成✅,接近GPT-3.5!
70B+ 更全面但边际收益递减⚡,部署成本飙升💸
  • DeepSeek 第一版本给出的数据 32B 的表现很逼近满血版,32B 似乎是个很特殊的存在
  • DeepSeek 的最新版仅对 Qwen3-8B 做的蒸馏就已经干过了大多数 32B 的模型,包括 Qwen32B(当前 DeepSeek-R1:32B 仍然还是对 Qwen2.5 蒸馏的

灵魂拷问:大模型真的是银弹吗?🧐

维度的诅咒

一维点、二维面、三维空间、人类已经无法去想象多维空间是什么样了 → 模型却在千亿维度空间运行!致命问题
但现在的模型就是动辄几百B, 上千B 在这样海量的维度中我们真的能找到人类的区间吗?人类真的能用当前大模型的维度来描述吗? 或是超级模仿秀?🤔 也许我们就在超维度中的某个波谷在「梯度下降法」求极值,却不知其实差了 N 个维度,N 个波谷。

行业心态变迁

阶段 事件 行业反应
2022 ChatGPT 3.5发布 狂热!“参数即王道,AGI在望!”
2023+ GPT-4未公布参数 冷却!发现:
1️⃣ 边际收益递减⬇️
DeepSeek等模型崛起 2️⃣ 数据/架构瓶颈
3️⃣ 高质量小模型逆袭→放弃军备竞赛!

新共识
✅ 停止幻想“通用银弹”
聚焦垂直场景,将大模型变为可落地可快速拿收益的“工具箱”

直观感受:

真折腾不过来,这个模型还没折腾完呢,下个就来了...后端架构就算放着不动,整体能力也会被模型带着起飞。


应用的探索与瓶颈:从聊天框到互联的工具箱🧰

演化路径

  • 翻译助手 → 内置“专业翻译”prompt
  • 周报生成 → 固化“分析+总结”流程
  • 先是快捷支持上 prompt 出现了各种垂类的免 prompt 的各类小工具,譬如: 翻译助手、数据分析师等
  • 但很快就遇到了瓶颈,聊天的记录多了咋办?我可只有 4k 的上下文啊 -> 那数据多了就总结呗,一方面是浪费 token,一方面 4k 能放下的东西就这么多,一次次的总结就是一次次的丢失细节数据
  • 单体的阶段性状态: 页面能支持网页搜索了、支持挂知识库了、prompt 内置了、上下文窗口变大了 => 某些特定场景中好用的小工具
  • 通过 MCP 或者 A2A 协议将各个小工具孤岛打通...

实践:玩转本地大模型,从“垃圾佬”的3K神机到实用落地

准备工作:别被“天价”显卡吓跑

  • “3K战神”不是梦
    海鲜市场淘魔改版2080Ti(22G显存) ≈2K,配二手CPU+内存,机 核心姿势:拥抱量化!用把32B+模型压到 INT4,22G显存轻松驾驭。

整体架构:把本地服务“安全地”送上网

“白嫖”网络方案(土味智慧)

  1. HK云主机
    部署NPS Server,只要它有IPv4!
  2. 本地机器
    • 装NPS Client
    • Cron脚本定时刷IP到云主机安全组(只放行当前IP)
  3. 加密隧道
    TCP/UDP通道+强密码+对称秘钥
  4. 带宽奥秘
    • 用户请求:用户→HK小水管→隧道→你家宽带→本地服务

成本摊薄绝招
如果HK小鸡同时是你梯子→这波纯属白送!

单体模型部署与交互

选型三件套

组件 推荐方案 优势
推理框架 Ollama 一条命令跑模型,管理超友好
前端界面 GPT Web/Open WebUI 美观+对话管理+Prompt模板
Prompt工程 预设角色模板+系统指令 告别重复打字,效率翻倍🚀
RAG milvus 模型有了记忆,在特定场景下比通用大模型还好用,幻觉要低

实践

  • Ollama:Golang 二进制,真一键启动,很后端工程师思维,和 Docker 差不多的玩法。
  • PyTorch 以及其他推理框架:环境配置是地狱→新手劝退⚠️
  • n8n 惊艳的折腾记: 使用 cursor 10 分钟完成 2k 行 Code 的迭代以及 15 分钟一个 MCP Server 的 demo 的开发,最后 5 分钟把一个完整的 AI Agent 带 RAG、简单 MCP 的流程跑通,我只点了接受&运行。

模型体验红黑榜

  • DeepSeek R1/Janus-pro(得用 PyTorch 折腾很蛋疼)
  • Qwen2.5/QwQ/Qwen3: 开源似乎只有 Qwen 和其他,当前 Qwen3:32B 是我体验过最好的模型(根据我的硬件
  • ConfigUI 下: 本地模型啥都能干...
    • 生图: Flux/Lora(各个角度的图,给模型打个小补丁,让它认识自己没见过的东西、Flux 的出图非常惊艳,2080Ti 5s 出的图都能看到头发丝儿...
    • 生视频: Wan2.1/Vace: all-in-one video creation and editing,我体验完以后惊呼... 剪映不存在了??!!!2080Ti 大概 20s 跑出 1s 的视频
      • Wan2.1: 文生视频、图生视频、首尾帧出视频
      • Vace: 直接能编辑视频了...

思考:破除AI神化,直面人机协作的本质

不神化AI能力:提效工具,而非替代品

  • 核心立场
    当前AI只是高级工具,本质是给人提效的“外挂大脑”。它能处理重复劳动、扩展信息边界,但绝无可能替代人类决策——除非进入真正的“黑盒时代”(后文详解)。

黑盒时代?先看清人机本质差异

  • 算力碾压 ≠ 取代人类

    “从算盘到超级计算机,机器算力早已碾压人脑,但人依然不可替代。为什么?”

    • 关键差异1:注意力机制
      人脑是选择性过滤器:忽略99%无关信息,聚焦关键信号(比如在嘈杂餐厅听清对话)。
      机器是无差别处理器:暴力扫描所有数据,导致“轴”和“死板”(比如要求用户填写全部必填字段才下一步)。
    • 关键差异2:容错与创造力
      人类擅长模糊推理(“大概这样就行”)和容错创造(从错误中诞生新点子)。
      当前AI却是高错误率的精确机器:一本正经胡说八道(幻觉),且无法真正理解“错误”的价值。
    • 结论
      当AI的错误率远低于人类,且具备自主迭代能力时,“黑盒替代”才可能发生——但这远非当前技术所能及。

当前的通讯方式譬如 MCP 不是终态

  • 从我使用 AI 的感受来说我认为现在的瓶颈在于「沟通效率」
  • 人和模型,模型与模型,为什么一定要让模型像人呢?为什么不是直接超越人,去做人不了的事情来做补充呢?譬如: 模型现在的 Input/Output 是自然语言,那 Agent 之间的沟通、多 MCP Server 之间的沟通是否能更高效呢?
  • 10kC 已然是老掉牙的话题,如果 Agent 之间能用二进制流或者更高维的沟通方式,所谓的「自然」语言用更加高效的方式编码,类似 Server 一样并发的协作,也许也不会因为「人脑」的「泛化」和选择性的关注和忽视带来的沟通效率的折损 -- 一般来说人的沟通能传递 20% 的有效信息就算是很高效的沟通了,也许之前需要 1 个月甚至半年才能从上到下的对齐,在黑盒时代只需要 1s,各端并发协作,信息实时同步 0 GAP
updatedupdated2025-06-042025-06-04