MARK // AI EVALUATION EXPERT

MODEL EVALUATION · DATA TRAINING · MARK · MODEL EVALUATION · DATA TRAINING · MARK ·

DECODING OUTPUTS · ALIGNING STANDARDS · DECODING OUTPUTS · ALIGNING STANDARDS ·

DATA SCORE QA

MARK

ROLE AI评测专家

Decoding Outputs
Aligning Standards

ABOUT ME

MARKAI是关于我的6个关键词，欢迎了解我:

Model-minded

理解模型输出背后的意图、边界和失误模式，把评测从主观判断变成可复盘的标准。

WHAT I CAN DO

从底层数据训练、模型评测、到前端视觉呈现，提供多维度的专业能力储备。

AI · DATA TRAINING

数据训练

从数据标准、标注策略到质量闭环，把底层训练数据做得稳定、可用、可复盘。

Data Standard · Annotation · Quality Gate

AI · MODEL EVALUATION

模型评测

设计评测维度、样本集和评分口径，识别模型在事实性、鲁棒性和表达上的短板。

Benchmark · Rubric · Error Taxonomy

AI · QUALITY LOOP

质检闭环

建立抽检、复审、问题归因和返修流程，让团队输出保持一致的质量水位。

Review · SOP · Feedback Loop

AI · WORKFLOW

AI 工作流

组合 Codex、Claude、Gemini 等工具完成批处理、文案校验、数据分析和流程自动化。

Prompt · Toolchain · Automation

WHAT I HAVE DONE

不止于“单点突破”，更在于系统建构。5个维度，构成了我能力的全部。

01 · AI · DATA ENGINEERING

高质量标注数据工程体系

定义 Caption 质量标准，搭建“机器预标 → 人工精修 → 自动质检 → 混合产线”的闭环，用视觉设计背景精标多维样本，提升模型训练数据稳定性。

SOP · Quality Gate · Data Flywheel

02 · AI · MODEL EVALUATION

多模态模型评测矩阵

围绕图像理解、文本生成、事实一致性和指令遵循建立评分 Rubric，沉淀错误类型库，让模型问题能被定位、归因和复测。

Rubric · Benchmark · Error Taxonomy

03 · AI · REVIEW SYSTEM

评测质检与复审闭环

设计抽样复审、争议样本复盘和团队校准机制，把单点经验转成可复制流程，减少主观评分漂移。

Sampling · Calibration · Review

04 · AI · PROMPT OPS

Prompt 与工具链评测优化

对 Claude、Codex、Gemini 等工具进行场景化测试，比较长文本、代码、翻译、摘要和批处理能力，形成使用策略。

Prompt · Tool Test · Workflow

05 · AI · TRAINING

团队 SOP 与能力培训

把复杂评测规则拆成新人可理解的操作手册、案例库和检查清单，缩短上手时间，提高交付一致性。

Training · Playbook · Team Enablement

COLLABORATORS

我不是一个人在工作，这是我和工具之间的分工。

[ AI PARTNERS + INFRASTRUCTURE ]

✹[AI]

Claude

复杂问题拆解、策略推演和长文本判断。

Strategy · Writing · Architect

◎[AI]

Codex

前端实现、代码生成、调试和自动化流程。

Code · Refactor · Auto

✦[AI]

Gemini

文本批处理、摘要、翻译和多模态对照。

Copy · Translate · Research

◇[AI]

GPT

评测口径整理、Prompt 迭代和案例库生成。

Prompt · QA · Knowledge

{ }[INFRA]

VS Code

写文档、做网页、调脚本的主要工作台。

Editor · Build · Ship

Git[INFRA]

GitHub

沉淀项目、版本和工具实验记录。

Version · Repo · Extension

LET'S BUILD
SOMETHING
SHARP.

EMAIL2231421923@qq.com