一、项目初衷
最近几个月,我一直在用 Stable Diffusion/comfy ui 玩 AI 画图。一开始是自己搭 WebUI,装 Python、配 CUDA、下模型……过程挺折腾的。虽然最后能跑起来,但局限于我本人电脑配置仅为3050ti,能跑的模型基本屈指可数,生图效果实在欠佳。但实际上ai画图可以做到的事情远不止画图,其背后的各项模型SVD,SAM3D,SDpose,controlnet等等完全可以延申至其他行业的各个方向,如果说个人开发者因为设备问题而限制了开发的想象,我觉得是个蛮可惜的一件事。
二、针对痛点
传统ai画图本地部署。
| 问题 | 具体表现 |
|---|---|
| 环境依赖复杂 | 需要特定版本的 Python、PyTorch、CUDA 驱动;Windows 和 macOS 安装体验差异大 |
| 显存门槛高 | 即使是 512x512 图像,也需要 ≥6GB 显存;sdxl 模型基本要求 8GB+ |
| 模型管理混乱 | .ckpt / .safetensors 文件动辄几个 GB,下载慢、占空间、版本难管理 |
| 启动慢、资源占用高 | 每次启动 WebUI 要加载模型到显存,关机就释放,无法“随用随走” |
| 难以集成到其他项目 | 如果你想在自己的 App 里加个“AI 生成”按钮,很难把 WebUI 当成服务调用 |
云端ai画图部署痛点
- 成本高:A10G 实例按小时计费,即使空闲也在烧钱。
- 运维复杂:要处理并发、队列、超时、OOM、日志、监控……
- 冷启动延迟:模型没加载时,首次请求可能要等 30 秒+
- 安全风险:暴露公网 API 需要考虑鉴权、防刷、DDoS
三、项目开发准备
使用 RunningHub 关联api,原因如下:
- 原生支持comfy ui 工作流
- 有稳定 RESTful API
- 国内访问速度尚可
- 模型库完善
四、项目技术
- 前端:Vue 3 + TypeScript + Vite + Pinia
- 后端:Python + FastAPI + Pydantic(数据验证)+ SQLAlchemy(数据库ORM)
- 本地应用转换:PywebView
可能有人会比较疑惑,为什么要使用pywebview,实际上是因为最近看了pywebview的相关内容,觉得满有意思,看着比electron好玩,想写写练练手。
Pydantic和SQLAlchemy用途说明
- Pydantic:
- 数据验证:自动验证API请求和响应的数据格式
- 类型检查:确保数据符合预定义的类型
- 序列化/反序列化:JSON与Python对象转换
- 配置管理:处理应用配置和环境变量
- SQLAlchemy:
- 数据库操作:支持多种数据库(SQLite、PostgreSQL、MySQL等)
- ORM映射:Python类与数据库表映射
- 查询构建:Python风格的数据库查询
- 迁移管理:数据库结构变更管理
同时在前端的构建上面,也使用了Gemini进行快速构建,不得不说,效率真快,还高效支持夜间模式
五、基础展示
- 日间模式

- 夜间模式

基础功能:
四大生成模式,满足所有需求
图像模块
- 文生图 (Text2Img):输入文字描述,AI为你创造全新图像
- 图生图 (Img2Img):上传参考图片,AI基于原图重新创作
- 批量文生图:一次设置,批量生成多种变体
- 批量图生图:基于同一参考,产出系列化作品
视频模块
- **文生视频:**输入文字描述,AI为你创造全新视频
- **图生视频:**上传参考图片,AI基于原图创作
- **首尾帧:**输入首尾帧,补全中间视频
改图模块
- **集成Nano Banana:**输入文字描述,AI为你创造
工作流识别模块
- **集成Runninghub工作流识别:**可高效复用runninghub现有方案。
生图展示
- 多并发任务列表
- v-viewer图片查看器集成

- 批量图片保存到本地

