MODEL EVALUATION · DATA TRAINING · MARK · MODEL EVALUATION · DATA TRAINING · MARK ·
DECODING OUTPUTS · ALIGNING STANDARDS · DECODING OUTPUTS · ALIGNING STANDARDS ·
DATA SCORE QA
MARK
ROLE AI评测专家
Decoding Outputs
Aligning Standards

ABOUT ME

MARKAI是关于我的6个关键词,欢迎了解我:

01

Model-minded

理解模型输出背后的意图、边界和失误模式,把评测从主观判断变成可复盘的标准。

WHAT I CAN DO

从底层数据训练、模型评测、到前端视觉呈现,提供多维度的专业能力储备。

AI · DATA TRAINING

数据训练

从数据标准、标注策略到质量闭环,把底层训练数据做得稳定、可用、可复盘。

Data Standard · Annotation · Quality Gate
AI · MODEL EVALUATION

模型评测

设计评测维度、样本集和评分口径,识别模型在事实性、鲁棒性和表达上的短板。

Benchmark · Rubric · Error Taxonomy
AI · QUALITY LOOP

质检闭环

建立抽检、复审、问题归因和返修流程,让团队输出保持一致的质量水位。

Review · SOP · Feedback Loop
AI · WORKFLOW

AI 工作流

组合 Codex、Claude、Gemini 等工具完成批处理、文案校验、数据分析和流程自动化。

Prompt · Toolchain · Automation

WHAT I HAVE DONE

不止于“单点突破”,更在于系统建构。5个维度,构成了我能力的全部。

01 · AI · DATA ENGINEERING

高质量标注数据工程体系

定义 Caption 质量标准,搭建“机器预标 → 人工精修 → 自动质检 → 混合产线”的闭环,用视觉设计背景精标多维样本,提升模型训练数据稳定性。

SOP · Quality Gate · Data Flywheel
02 · AI · MODEL EVALUATION

多模态模型评测矩阵

围绕图像理解、文本生成、事实一致性和指令遵循建立评分 Rubric,沉淀错误类型库,让模型问题能被定位、归因和复测。

Rubric · Benchmark · Error Taxonomy
03 · AI · REVIEW SYSTEM

评测质检与复审闭环

设计抽样复审、争议样本复盘和团队校准机制,把单点经验转成可复制流程,减少主观评分漂移。

Sampling · Calibration · Review
04 · AI · PROMPT OPS

Prompt 与工具链评测优化

对 Claude、Codex、Gemini 等工具进行场景化测试,比较长文本、代码、翻译、摘要和批处理能力,形成使用策略。

Prompt · Tool Test · Workflow
05 · AI · TRAINING

团队 SOP 与能力培训

把复杂评测规则拆成新人可理解的操作手册、案例库和检查清单,缩短上手时间,提高交付一致性。

Training · Playbook · Team Enablement

COLLABORATORS

我不是一个人在工作,这是我和工具之间的分工。

[ AI PARTNERS + INFRASTRUCTURE ]
[AI]

Claude

复杂问题拆解、策略推演和长文本判断。

Strategy · Writing · Architect
[AI]

Codex

前端实现、代码生成、调试和自动化流程。

Code · Refactor · Auto
[AI]

Gemini

文本批处理、摘要、翻译和多模态对照。

Copy · Translate · Research
[AI]

GPT

评测口径整理、Prompt 迭代和案例库生成。

Prompt · QA · Knowledge
{ }[INFRA]

VS Code

写文档、做网页、调脚本的主要工作台。

Editor · Build · Ship
Git[INFRA]

GitHub

沉淀项目、版本和工具实验记录。

Version · Repo · Extension

LET'S BUILD
SOMETHING
SHARP.

EMAIL2231421923@qq.com