Serverless API · 企业级

AI 模型广场

开箱即用的大模型 API：统一接入、按量计费、弹性扩展。选购资源包即可调用多系列主流模型，专注业务而非基建。

多系列模型一站式
兼容 OpenAI 风格接口
按需扩展与私有化选项

主流模型速览

1import requests

3API_URL = "https://api.moark.com/v1/chat/completions"

4headers = {

5 "Authorization": "Bearer YOUR_API_KEY",

6 "Content-Type": "application/json"

9def query(payload):

10 print("Running GLM-5...")

11 response = requests.post(API_URL, headers=headers, json=payload)

12 return response.json()

14payload = {

15 "model": "glm-5",

16 "messages": [{"role": "user", "content": "Hello"}]

17}

18print(query(payload))

> python ./chat.py

✓ Initialized.

✓ Running GLM-5 on Gitee AI!

热门系列：

模型列表

排序：

推荐

GLM-4.7-Flash

免费

GLM-4.7-Flash 作为 30B 级 SOTA 模型，在效率与效果之间提供新选择；面向 Agentic Coding 场景强化了代码与工具调用。轻量高速、首 Token 延迟低，适合对话、摘要、分类与简单工具调用；在免费额度内可快速验证原型与灰度上线。

Function Calling↑ 200K↓ 128K低延迟

Kimi-K2.5

21 元/百万 Token or 或 0.08 元/次

Moonshot 长上下文与多模态能力突出，适合长文档理解、图文混合问答与复杂 Agent 流程；支持视觉输入与工具调用，便于构建企业知识助手。

Function Calling视觉↑ 256K

Qwen3-Coder-Next

4 元/百万 Token or 或 0.02 元/次

面向代码生成、重构与仓库级语义理解的编程专用模型，支持多种语言与目录结构上下文，适合 IDE 插件、CI 生成与代码评审辅助。

编程↑ 128KFunction Calling

deepseek-coder-33b-instruct

8 元/百万 Token or 或 0.03 元/次

DeepSeek 代码向指令模型，补全与跟随能力强，适合终端内联提示、脚本生成与单元测试草稿；兼容常见编程范式与注释风格。

Function Calling↑ 16K代码

Lingshu-32B 医疗大模型

免费

面向医疗问答与辅助决策场景的专用模型，强调合规表述与可解释性；适用于预问诊、文献摘要与科研辅助（不替代执业医师诊断）。

医疗↑ 32K科研

Qwen3-8B

免费

小规模开源友好模型，推理与部署成本低，适合私有化、边缘设备与教学实验；支持常见推理框架与量化部署。

↑ 32K深度思考MindSpore开源

Hunyuan-T1-Standard

14 元/百万 Token or 或 0.04 元/次

腾讯混元系列通用对话模型，中文语境与业务表达自然，适合客服、营销文案与办公协作；支持工具调用与流式响应，便于接入微信生态相关业务。

Function Calling↑ 128K中文优化

ERNIE-4.0-Turbo-8K

12 元/百万 Token or 或 0.035 元/次

文心大模型 Turbo 版本，在推理速度与效果间折中，适合搜索增强、摘要与多轮对话；对中文知识覆盖与合规表述有较好支持。

Function Calling↑ 8K搜索增强

Step-2-Mini

6 元/百万 Token or 或 0.025 元/次

阶跃星辰轻量通用模型，适合对话、翻译与轻量 Agent；延迟与成本可控，便于与 Step 系列大模型组合成分层路由策略。

Function Calling↑ 32K低延迟

InternLM2.5-7B-Chat

2 元/百万 Token or 或 0.015 元/次

书生·浦语开源系列对话模型，社区生态活跃，适合二次微调、私有化与学术研究；支持常见推理框架与 LoRA 微调流程。

↑ 32K开源可微调

MiniMax-M2.5

8.4 元/百万 Token or 或 0.02 元/次

MiniMax 多模态与语音能力均衡，适合对话、播客脚本与实时交互场景；支持长上下文与工具调用，便于构建语音与文本一体化应用。

Function Calling↑ 200K语音

InternVL2.5-26B

0.03 元/次

大规模视觉语言模型，在图文理解、OCR 与多模态推理上表现稳定；适合文档解析、屏幕问答与行业视觉智能体。

↑ 32K视觉多模态

Qwen3-VL-4B-Instruct

0.7 元/百万 Token or 或 0.005 元/次

轻量视觉指令模型，在图文对齐与工具调用上均衡，适合对话式图像理解、票据与报表抽取、低成本多模态 API。

Function Calling↑ 32K视觉

Align-DS-V

0.04 元/次

【仅限体验】带深度推理能力的视觉模型，面向多模态对齐与跨域语义理解优化，适合评测、对齐实验与英文场景。

↑ 32K视觉英文

Qwen2-VL-72B-Instruct

12 元/百万 Token or 或 0.05 元/次

旗舰级视觉语言模型，在图文混合推理、长文档与视频帧理解上能力强；适合复杂检索、多模态 Agent 与企业知识库。

Function Calling↑ 256K多模态

GLM-4V

8 元/百万 Token or 或 0.03 元/次

智谱多模态视觉模型，支持图像理解、图表与拍照解题；中文场景友好，适合企业文档、营销素材与客服辅助。

视觉↑ 128K中文优化

DeepSeek-VL2

5 元/百万 Token or 或 0.02 元/次

DeepSeek 视觉语言系列，兼顾推理与成本；在图像问答、文档理解等任务上表现稳定，适合多模态研发与批量推理。

↑ 64K视觉多模态

Qwen3-30B-A3B-Instruct-2507

2.8 元/百万 Token or 或 0.02 元/次

MoE 架构指令模型，在效果与成本之间均衡；适合多轮对话、长上下文与通用推理任务。

↑ 32K

Qwen3-4B

免费

小规模开源友好模型，支持深度思考与 MindSpore 生态，适合私有化与边缘部署。

↑ 32K深度思考MindSpore

推荐

Qwen3-235B-A22B

10 元/百万 Token or 或 0.05 元/次

大规模 MoE 旗舰模型，深度思考能力突出，适合复杂推理、长文分析与高要求 Agent。

深度思考↑ 128K

Qwen2-72B-Instruct

0.02 元/次

通义 2 代 72B 指令模型，通用对话与指令跟随稳定，适合按次计费的轻量接入。

↑ 32K

Qwen3-235B-A22B-Instruct-2507

10 元/百万 Token or 或 0.05 元/次

旗舰 MoE 指令版，支持 Function Calling 与长上下文检索，适合企业 RAG 与多步工具调用。

Function Calling↑ 256K

Qwen2-7B-Instruct

免费

轻量 7B 指令模型，适合教学、原型验证与低延迟对话场景。

↑ 24K

Qwen2.5-32B-Instruct

1.26 元/百万 Token or 或 0.015 元/次

Qwen2.5 系列中规模模型，通用能力均衡，适合客服、写作与多轮对话。

↑ 32K

QwQ-32B

4 元/百万 Token or 或 0.02 元/次

强化推理与数学逻辑，支持深度思考模式与 MindSpore，适合复杂问题与科研辅助。

Function Calling↑ 32K深度思考MindSpore

Qwen2.5-14B-Instruct

0.01 元/次

高性价比 14B 指令模型，支持工具调用，适合集成与按次计费场景。

Function Calling↑ 32K

Qwen3-Coder

16 元/百万 Token or 或 0.05 元/次

通义代码大模型旗舰，支持长代码上下文与仓库级理解，适合 IDE、CI 与大规模代码代理。

Function Calling↑ 64K↑ 256K

Qwen2.5-Coder-32B-Instruct

0.02 元/次

32B 代码指令模型，补全与跟随能力强，适合终端与脚本生成场景。

Function Calling↑ 32K

MAI-UI-8B

1.4 元/百万 Token or 或 0.01 元/次

面向界面与多端交互的轻量模型，适合 UI 语义理解、布局分析与低代码场景。

↑ 32K

Qwen3-Coder-30B-A3B-Instruct

4 元/百万 Token or 或 0.02 元/次

MoE 代码模型，兼顾推理与成本；适合多语言仓库与中型团队研发流程。

↑ 32K

DeepSeek-V3

8 元/百万 Token or 或 0.03 元/次

DeepSeek 第三代通用大模型满血版，约 685B 规模，0324 升级路线；支持工具调用与稳定长上下文，适合企业推理与复杂 Agent。

Function Calling↑ 32K满血版0324升级版685B

DeepSeek-R1

16 元/百万 Token or 或 0.05 元/次

强化推理与思维链能力，0528 升级路线；适合数学证明、代码推理与需要显式思考过程的问答场景。

Function Calling满血版↑ 64K0528升级版

DeepSeek-R1-Distill-Qwen-14B

免费

基于 Qwen 蒸馏的轻量推理模型，支持 MindSpore 等框架，适合私有化与边缘侧部署。

↑ 32KMindSpore

DeepSeek-R1-Distill-Qwen-32B

1.26 元/百万 Token or 或 0.02 元/次

32B 蒸馏推理模型，在效果与成本之间折中，适合研发辅助、批量推理与 A/B 实验。

↑ 32K

DeepSeek-V3.2-Exp

3 元/百万 Token or 或 0.02 元/次

实验分支，MIT 协议友好；支持工具调用与较长上下文，适合尝鲜与对比评测（以官方说明为准）。

MITFunction Calling↑ 128K↓ 64K

DeepSeek-V3.1

12 元/百万 Token or 或 0.05 元/次

V3 系列迭代版本，强化工具调用与多轮一致性；适合企业知识库、客服与中等长度上下文任务。

Function Calling↑ 128K↓ 16K

DeepSeek-R1-Distill-Qwen-7B

免费

7B 级蒸馏推理模型，延迟低、易部署，适合教学、原型与轻量推理场景。

↑ 32K

DeepSeek-R1-Distill-Qwen-1.5B

免费

超小体量推理蒸馏模型，适合端侧、嵌入式与极低算力环境。

↑ 32K

DeepSeek-V3.1-Terminus

12 元/百万 Token or 或 0.05 元/次

V3.1 系列变体，面向长上下文与稳定工具调用；适合需要持续会话与检索增强的业务流程。

Function Calling↑ 128K

AI 模型广场

开箱即用的大模型 API：统一接入、按量计费、弹性扩展。选购资源包即可调用多系列主流模型，专注业务而非基建。

多系列模型一站式

兼容 OpenAI 风格接口

按需扩展与私有化选项

主流模型速览