📫 您如果想联系我,可以直接以下方式

  • 邮箱地址: [email protected]
  • 微信:echo -n 'eGlleWRkX2hhaGEK' | base64 -d
  • 电话:13253537292

欢迎关注我的小红书和微信公众号:东仔 AI Infra

点击展开微信公众号二维码

微信公众号 东仔 AI Infra

💻 截止到 2026 年,拥有超过 8 年 AI Infra、MLSys、Agent Infra、数据库与系统工程经验,长期从事云原生 AI 训练/推理平台、向量数据库托管平台、系统性能优化相关工作。熟悉 Kubernetes、GCP、AWS、PostgreSQL、存储加速、资源调度与 Agent 基础设施,能独立设计并落地大规模分布式系统与云服务,具备丰富的项目管理与跨团队协作经验。热衷于技术创新与开源社区,持续推动 AI Infra 与云原生技术的发展。

2023.5-至今 Tensorchord

  1. 负责在 GCP 上构建无服务器模型推理平台 ModelZ,围绕冷启动、镜像预热、P2P 分发、Lazy Load、模型缓存服务等关键路径优化推理性能:
  • 通过构建缓存模型服务、镜像预热等手段优化模型服务的冷启动时间
  • 基于 vLLM 部署开源模型以及托管用户 LoRA 模型,通过 KVCache、调度等手段提高大模型吞吐,减少 TTFT,降低 tail latency
  1. Cloud Team Leader: 构建向量数据库 VectorChord 的云服务以及客户支持 VectorChord Cloud
  • 在 AWS 上构建基于 PostgreSQL 的向量数据库,实现控制面、数据面分离,BYOC(Bring Your Own Cloud)、BYOD(Bring Your Own Data) 等功能
  • 引入云原生架构,实现 PostgreSQL 存算分离、高可用、Backup、PITR(Point-In-Time Recovery)、In-Place Upgrade 等功能
  1. Agent Harness 与新业务探索:
  • 构建基于 PostgreSQL 的企业级知识库 RAG 系统,作为 Agent 记忆模块的基础设施能力;接入 Linear、Gmail、GitHub 等 15 类办公系统,提供向量、BM25 混合检索能力
  • 研发基于 eBPF 的 Agent 安全项目,通过 CLI 结合 Skill 提供 Prompt Injection 防护、Agent Behavior Detection、Agent Native 等安全能力,并构建 Skill Security SaaS 平台帮助企业提升 Skill 安全性,降低供应链风险

2021.2-2023.5 Tencent Cloud

  1. 构建公有云大规模 AI 平台:
  • 通过腾讯云 EKS(Elastic Kubernetes Service)构建高性能、可伸缩的弹性离线训练平台
  • 结合腾讯云对象存储以及 GooseFS 加速器,构建云上高性能缓存调度系统,提升训练数据访问效率
  1. 构建 FinOps 基础设施帮助公共云中的客户更轻松地管理优化云成本,提升云资源利用率:
  • 通过调度时以及重调度优化,通过高低优任务识别,智能弹性扩缩容
  • 结合腾讯如意内核调度器优化以及可观测性,在保证服务质量的同时进行成本优化
  • 在内部云中大规模推出降低成本计划,通过资源的合理分配,提升资源利用率

2018-2021.2(含实习)Unisound

  1. 在 AI 算法公司 Unisound 负责 Atlas 超算平台的研发和运维,支撑 AI Labs 不同算法团队完成 NLP、TTS、ASR 以及 CV 模型训练任务。主要工作如下:
  • 开发大规模智能调度系统,优化多租户资源分配和训练资源利用效率,MFU 从 15% 提升到 30%
  • 优化高性能分布式文件系统 Lustre 的性能
  • 构建多层缓存的云原生架构以加速 AI 模型训练
  1. 在 Unisound 从事 8 比特训练及推理优化工作,参与视觉模型 8 比特推理优化,在昆仑芯与 NVIDIA Edge Device 上落地优化工作

技能栈:Kubernetes, EKS, Kubeflow, GCP, AWS, Serverless, Lustre, JuiceFS, GooseFS, Scheduler, eBPF, PostgreSQL, Vector Database, RAG, AI Training Platform, Inference Service, Cold Start Optimization, GPU / Edge, Agent Infra etc.

开源项目

🌱 目前专注在 MLOps、MLSys、PostgreSQL、Agent Infra、eBPF 以及 FinOps 方向,贡献了一些开源项目:

  1. fluid Fluid, elastic data abstraction and acceleration for BigData/AI applications in cloud. (Project under CNCF)
  2. crane Crane is a FinOps Platform for Cloud Resource Analytics and Economics in Kubernetes clusters. The goal is not only to help users to manage cloud cost easier but also ensure the quality of applications.
  3. crane-scheduler Crane scheduler is a Kubernetes scheduler which can schedule pod based on actual node load.
  4. creator Creator is the brain of crane project, contains crane core algorithm module and evaluation module.
  5. openmodelz One-click machine learning deployment (LLM, text-to-image and so on) at scale on any cluster (GCP, AWS, Lambda labs, your home lab, or even a single machine).
  6. clusternet [CNCF Sandbox Project] Managing your Kubernetes clusters (including public, private, edge, etc.) as easily as visiting the Internet
  7. vectorchord Scalable, fast, and disk-friendly vector search in Postgres, the successor of pgvecto.rs.

推荐博客

Type Author/Company Blog URL
Infra Chris Riccomini https://materializedview.io/
Infra Jack Vanlightly https://jack-vanlightly.com/
Math and Science 苏剑林 https://kexue.fm/
AI Infra Colfax https://research.colfax-intl.com/blog/
Postgres Gabriele Bartolini https://www.gabrielebartolini.it/articles/
AI Sebastian Raschka https://magazine.sebastianraschka.com/archive?sort=new
AI Algorithm Tom Yeh https://www.byhand.ai/
AI Infra Chip Huyen https://huyenchip.com/blog/