[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-74271":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":23,"hasPages":23,"topics":25,"createdAt":10,"pushedAt":10,"updatedAt":32,"readmeContent":33,"aiSummary":34,"trendingCount":16,"starSnapshotCount":16,"syncStatus":35,"lastSyncTime":36,"discoverSource":37},74271,"FireRed-Image-Edit","FireRedTeam\u002FFireRed-Image-Edit","FireRedTeam","FireRed-Image-Edit is a powerful image editing foundation model achieving open-source state-of-the-art performance with precise instruction following, high-fidelity generation, superior identity consistency, and seamless multi-element fusion.","",null,"Python",1253,74,12,30,0,5,21,48,15,78.93,"Apache License 2.0",false,"main",[26,27,28,29,30,31],"aigc","deep-learning","diffusion-models","image-generation","image2image","pytorch","2026-06-12 04:01:14","\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Flogo.png\" width=\"400\"\u002F>\n\u003Cp> \n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\" target=\"_blank\">\u003Cimg alt=\"Hugging Face\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRedTeam-ffc107?color=ffc107&logoColor=white\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--1.1-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--1.0-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--LoRA--Zoo-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"HF Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HF%20Demo-FireRed--Image--Edit--1.1-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFireRedTeam\u002FREDEdit-Bench\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Dataset\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-REDEdit--Bench-ffc107?color=ffc107&logoColor=white\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Faigc\u002FmodelTraining\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.1--Lora--Training-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.1-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.0-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"MS Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20MS%20Demo-FireRed--Image--Edit--1.1-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Code-black'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0'>\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-blue\" alt=\"License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-b5212f.svg?logo=arxiv\">\u003C\u002Fa>\n\u003C\u002Fp> \n\n\u003Cp align=\"center\">\n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">HuggingFace\u003C\u002Fa> |\n    🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">ModelScope\u003C\u002Fa> |\n    🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">Demo\u003C\u002Fa> |\n    📄 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344\">Technical Report\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Fteaser.png\" width=\"800\"\u002F>\n\u003Cp> \n\n\n## 🔥 FireRed-Image-Edit\n**FireRed-Image-Edit-1.1** Based on the FireRed-Image-Edit-1.0 foundation model, it optimizes portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\n\n**FireRed-Image-Edit-1.0** is a general-purpose image editing model that delivers high-fidelity and consistent editing across a wide range of scenarios. FireRed-Image-Edit delivers leading open-source results with accurate instruction following, high image quality, and consistent visual coherence.\n\n## ✨ Key Features\n#### Strong Editing Performance \n- 🆔 **State-of-the-Art Identity Consistency**: Open-source SOTA in character identity preservation, ensuring subjects remain recognizable across complex edits.\n- 🧩 **Multi-Element Fusion**: Freely combine 10+ elements with Agent-powered automatic cropping and stitching—no more struggles with short prompts.\n- 💄 **Comprehensive Portrait Makeup**: Dozens of styles from professional beauty retouching and yellow\u002Folive skin tone brightening to Halloween witch makeup and creative looks.\n- 📝 **Text Style Reference**: Maintains high-fidelity typography and stylized text comparable to closed-source solutions.\n- 🖼️ **Professional Photo Restoration**: High-quality old photo repair and enhancement with superior detail recovery.\n\n#### Ultimate Engineering Optimization\n- 🔧 **Open LoRA Training Ecosystem:** Full training code released for custom style creation, optimized samplers maximize GPU efficiency for identical tasks, sizes, and input counts.\n- ⚡ **Extreme Speed Optimization**: Complete acceleration suite featuring distillation, quantization, and static compilation—delivering 4.5s end-to-end generation with just 30GB VRAM\n- 🤖 **Intelligent Agent Workflow**: Automatic multi-image processing handles complex compositions like virtual try-on without requiring lengthy prompt engineering\n- 🔌 **Universal Deployment**: Native ComfyUI node support and GGUF lightweight format compatibility for seamless production integration\n- 🏋️  **Efficient Training Methodology**: Offline feature pre-extraction completely decouples VLM inference from training workflow, eliminating generation overhead for maximum convergence speed.\n\n#### Native Editing Capability from T2I Backbone \n- 🏗️ **Backbone-Agnostic Architecture**: Editing capabilities injected through full Pretrain → SFT → RL pipeline, transferable to any T2I foundation model.\n\n## 📰 News\n- 2026.03.25: [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Faigc\u002FmodelTraining) now supports LoRA training for FireRed-image-edit.\n- 2026.03.09: We have released **REDEdit-Bench**, a new image editing benchmark. REDEdit-Bench covers more diverse scenarios and editing instructions that better align with human language, providing a more comprehensive and realistic evaluation for image editing tasks.\n- 2026.03.03: We release FireRed-Image-Edit-1.1, which, based on the FireRed-Image-Edit-1.0 foundation model, optimizes portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\n- 2026.03.01: We offer a lightweight inference script (including distilled [Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-1.0-Lightning-8steps-v1.0.safetensors), quantization, db_cache, and static compilation), now requiring only **30GB VRAM** and **~4.5s\u002Fsample**. 🚀 Try it by simply running `python inference.py --optimized True`.\n- 2026.02.28: We released the [Train](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit\u002Ftree\u002Fmain\u002Ftrain), supporting HSDP\u002FFSDP, Disaggregated Training, and Multi-Condition Aware Bucket Sampler.\n- 2026.02.27: We released the [ Agent](#-agent) module for instruction rewriting, multi-image preprocessing, supporting automatic ROI detection, image stitching for editing with more than 3 images.\n- 2026.02.27: We provided FireRed-Image-Edit-1.0-**ComfyUI** workflow. Check more details on [Huggingface](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI)\n- 2026.02.14: We released FireRed-Image-Edit-1.0 model weights. Check more details on [Huggingface](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0).\n- 2026.02.10: We released the [Technical Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344) of FireRed-Image-Edit-1.0. \n\n## 🏆 Evaluation Results\nFireRed-Image-Edit establishes a new state-of-the-art among open-source models on Imgedit, Gedit, and RedEdit, while surpassing our closed-source competitors in specific dimensions—a distinction further corroborated by human evaluations highlighting its superior prompt following and visual consistency. Detailed information can be found [here](docs\u002Fbenchmark.md).\n\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Feval_benchmark.png\" width=\"800\"\u002F>\n\u003Cp>\n\n\n## 🎨 Showcase\nSome real outputs produced by FireRed-Image-Edit across general editing.\n\n### Portrait([More Cases](docs\u002Fportrait_en.md) | [更多结果](docs\u002Fportrait_cn.md))\n\u003Cp align=\"center\">\n    \u003Ca href=\".\u002Fassets\u002Fshowcase_portrait.png\">\n        \u003Cimg src=\".\u002Fassets\u002Fshowcase_portrait.jpg\" width=\"800\"\u002F>\n    \u003C\u002Fa>\n\u003Cp>\n\n### Multi-image-fusion([More Cases](docs\u002Fmulti_image.md))\n\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Fshowcase_multi_fusion.png\" width=\"800\"\u002F>\n\u003Cp> \n\n> case1: 将图2的男人，穿着图2的黑色\"New York Bears\"棒球夹克和迷彩裤子和蓝黑配色的AJ1高帮球鞋，在图1的空旷的橄榄球场上。球场阳光明媚，他带着图2黑色的帽子，帽檐是红色，夹克上的白色条纹在暗光中格外醒目。他的左肩随意地挎着图3那只复古棕色皮质旅行包，包口微微敞开，露出里面图3那个磨损的棕色橄榄球。右手则轻松地拖着图3的白色滑板，板底那威武的黑色狮子图腾在草地映衬下如同猛兽。图3那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里，忠诚地望向主人。男人脖子上挂着图2那副黑色Beats耳机，地上放着图3那座复古的青铜奖杯，在阳光下下泛着胜利的光芒。整个场景融合了街头潮流与竞技体育的质感，空旷球场、皮革装备的温润光泽、以及滑板带来的街头气息，共同构成了一个关于青春、热爱与赛后孤独的静谧时刻。\n\n\n### Makeup([Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-Makeup.safetensors))\n\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Fshowcase_makeup.jpg\" width=\"800\"\u002F>\n\u003Cp> \n\n> case1: 为人物添加欧美Y2K妆：使用冷白皮哑光粉底均匀肤色，描绘粗平的深棕色挑眉，眼部涂抹亮片银灰眼影并晕染至眉骨，画上黑色上扬眼线，粘贴浓密假睫毛，用浅金色高光提亮卧蚕，在苹果肌扫上蜜桃色腮红，唇部涂抹镜面玻璃唇釉，并在颧骨处轻扫修容粉。\n\n> case2: 为人物添加缎光底妆：使用自然色缎光粉底均匀肤色，描绘自然眉形并填充浅棕色眉粉，眼部涂抹深棕色眼影并晕染眼尾，画自然内眼线，刷上浓密睫毛膏，在卧蚕处提亮，涂抹水润感红色豆沙色口红并勾勒唇形，在苹果肌扫上粉色腮红，在鼻梁、颧骨处轻扫银色高光。\n\n\n### Text Style Reference([Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-Covercraft.safetensors))([More Cases](docs\u002Ftext.md))\n\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Fshowcase_mult_text.png\" width=\"800\"\u002F>\n\u003Cp> \n\n## 🗂️ Model Zoo\n\n\u003Cdiv style=\"overflow-x: auto; margin-bottom: 16px;\">\n  \u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Models\u003C\u002Fth>\n        \u003Cth style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Task\u003C\u002Fth>\n        \u003Cth style=\"padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Description\u003C\u002Fth>\n        \u003Cth style=\"padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Download Link\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Image-Editing\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">General-purpose image editing model\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0-Distilled\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Image-Editing\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">Distilled version of FireRed-Image-Edit-1.0 for faster inference\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-Lightning\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-Lightning\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.1\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Image-Editing\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">Based on the FireRed-Image-Edit-1.0, it optimizes portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Text-to-Image\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">High-quality text-to-image generation model\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">To be released\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n## 🏗️ Model Architecture\n\u003Cp align=\"center\">\n    \u003Cimg src=\".\u002Fassets\u002Farchitecture.png\" width=\"800\"\u002F>\n\u003Cp> \n\n## ⚡️ Quick Start\n\n1. Install dependencies\n```bash\npip install -r requirements.txt\n```\n\n2. Use the following code snippets to generate or edit images.\n```\npython inference.py \\\n    --input_image .\u002Fexamples\u002Fedit_example.png \\\n    --prompt \"在书本封面Python的下方，添加一行英文文字2nd Edition\" \\\n    --output_image output_edit.png \\\n    --seed 43\n```\n\n## 🤖 Agent\n\nThe Agent module provides **Recaption & Multi-Image Preprocessing** capabilities.\n\nFireRed-Image-Edit natively supports **1–3** input images. When users need to edit with **more than 3 images**, the built-in **Agent** module automatically:\n\n1. **ROI Detection** – Sends all images + the user instruction to a Gemini function-calling model that returns a bounding-box for the most relevant region in each image.\n2. **Crop & Stitch** – Crops each image to its ROI, then partitions and stitches them into **2–3 composite images** (≈1024×1024 each) while minimising whitespace and preserving content at maximum resolution.\n3. **Recaption** – Rewrites the user instruction so that image references (图1\u002F图2\u002Fimage N …) correctly point to the new composite images, and expands the prompt to ~512 words\u002Fcharacters for richer editing context. The user's original language is preserved.\n\n\n**(Optional)** To enable the **Recaption** feature (rewriting instructions via an LLM for better editing results), set up one of the supported LLM providers:\n\n**Option 1: Gemini (default)**\n\n```bash\nexport GEMINI_API_KEY=\"your-gemini-api-key\"\n```\n\n**Option 2: MiniMax**\n\n```bash\nexport RECAPTION_PROVIDER=\"minimax\"\nexport MINIMAX_API_KEY=\"your-minimax-api-key\"\n```\n\nUses the [MiniMax](https:\u002F\u002Fwww.minimax.io\u002F) OpenAI-compatible API with the `MiniMax-M2.7` model by default. You can also use `MiniMax-M2.7-highspeed` for faster responses.\n\n**Option 3: Any OpenAI-compatible API**\n\n```bash\nexport RECAPTION_PROVIDER=\"openai_compatible\"\nexport OPENAI_COMPATIBLE_API_KEY=\"your-api-key\"\nexport OPENAI_COMPATIBLE_BASE_URL=\"https:\u002F\u002Fyour-api.example.com\u002Fv1\"\nexport OPENAI_COMPATIBLE_MODEL=\"your-model-name\"\n```\n\n> **Note:** The LLM API is **not required** for basic usage. Without it, the Agent will still perform ROI detection and image stitching normally, but will skip the instruction rewriting step. Setting an LLM API key is recommended for best results. The ROI detection step always uses Gemini (multimodal required).\n\n\n\n## 🏋️ How to Train\nTraining is a **two-step** process:\n\n1. **Extract VLM embeddings** — Run offline extraction on your image–text JSONL.\n2. **SFT training** — Train on the extracted embeddings (HSDP\u002FFSDP, multi-node supported).\n\n→ Full details: [train\u002FREADME.md](train\u002FREADME.md) (data format, environment, commands).\n\n## 📊 Benchmark\nTo better validate the capabilities of our model, we propose a benchmark called REDEdit-Bench. Our main goal is to build more diverse scenarios and editing instructions that better align with human language, enabling a more comprehensive evaluation of current editing models. We collected over 3,000 images from the internet, and after careful expert-designed selection, we constructed 1,673 bilingual (Chinese–English) editing pairs across 15 categories.\n\n### Inference and Evaluation Code\nWe provide the inference and evaluation code for REDEdit-Bench. Please refer to the [redbench_infer.py](.\u002Ftools\u002Fredbench_infer.py) and [redbench_eval.py](.\u002Ftools\u002Fredbench_eval.py) scripts in the `tools` directory for more details.\n\n### Benchmark Distribution\nThe REDEdit-Bench dataset will be available soon.\n\n\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%; font-family: system-ui, -apple-system, Segoe UI, Roboto, Arial, sans-serif; font-size: 14px;\">\n \u003Cthead>\n   \u003Ctr>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; background-color: #f6f8fa; white-space: nowrap;\">Model\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">ImgEdit_O ↑\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">GEdit_O ↑ (EN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">GEdit_O ↑ (CN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">REDEdit ↑ (EN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">REDEdit ↑ (CN)\u003C\u002Fth>\n   \u003C\u002Ftr>\n \u003C\u002Fthead>\n \u003Ctbody>\n   \u003C!-- Proprietary Models -->\n   \u003Ctr>\n     \u003Ctd colspan=\"6\" style=\"border: 1px solid #d0d7de; padding: 8px; font-weight: 700; background-color: #f7f7f7; text-align: left;\">\n       🔹 Proprietary Models\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Nano-Banana\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.29\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.291\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.399\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.15\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.13\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Seedream4.0\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.30\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.701\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.692\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.18\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.15\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Seedream4.5\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.32\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>7.820\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>7.800\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.20\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.18\u003C\u002Fu>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Nano-Banana-Pro\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.37\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.738\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.799\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.42\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.48\u003C\u002Fstrong>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \n   \u003C!-- Open-source Models -->\n   \u003Ctr>\n     \u003Ctd colspan=\"6\" style=\"border: 1px solid #d0d7de; padding: 8px; font-weight: 700; background-color: #f7f7f7; text-align: left;\">\n       🔹 Open-source Models\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Step1X-Edit-v1.2\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">3.95\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.480\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.467\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">—\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">—\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Qwen-Image-Edit-2509\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.31\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.480\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.467\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">3.99\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.00\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">FLUX.2 [Dev]\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.35\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.413\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.278\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.07\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.05\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">LongCat-Image-Edit\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.45\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.748\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.731\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.12\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.12\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Qwen-Image-Edit-2511\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.51\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.877\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.819\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.23\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.18\u003C\u002Fu>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">\n       \u003Cstrong>FireRed-Image-Edit\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.56\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>7.943\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>7.887\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.26\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.33\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n\n\n## 📜 License Agreement\n\nThe code and the weights of FireRed-Image-Edit are licensed under Apache 2.0. \n\n\n## 📝 TODO:\n- [x] Release FireRed-Image-Edit-1.0 model.\n- [x] Release FireRed-Image-Edit-1.0-Distilled model, a distilled version of FireRed-Image-Edit-1.0 for few-step generation.\n- [x] FireRed-Image-Edit-1.1 released with improvements to portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\n- [ ] Release of lightweight editing models comparable to zimage\u002FFlux2-klein and other small-parameter variants.\n- [ ] Release REDEdit-Bench, a comprehensive benchmark for image editing evaluation.\n- [ ] Release FireRed-Image model, a text-to-image generative model.\n\n\n## 🖊️ Citation\n\nWe kindly encourage citation of our work if you find it useful.\n\n```bibtex\n@article{firered2026rededit,\n      title={FireRed-Image-Edit-1.0 Technical Report}, \n      author={Super Intelligence Team},\n      year={2026},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344}, \n}\n```\n\n## ⚠️ Ethics Statement\nFireRed-Image-Edit  has not been specifically designed or comprehensively evaluated for every possible downstream application. Users should be aware of the potential risks and ethical considerations when using this project, and should use it responsibly and in compliance with all applicable laws and regulations.\n\n- **Prohibited Use**: This project must not be used to generate content that is illegal, defamatory, pornographic, harmful, or that violates the privacy, rights, or interests of individuals or organizations.\n- **User Responsibility**: Users are solely responsible for any content generated using this project. The authors and contributors assume no responsibility or liability for any misuse of the codebase or for any consequences resulting from its use.\n\n\n\n## 🤝 Acknowledgements\n\nWe would like to thank the developers of the amazing open-source projects, especially [Qwen-Image](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image) for providing a powerful text-to-image foundation model, as well as [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) and [HuggingFace](https:\u002F\u002Fhuggingface.co).\n\n## ☎️ Contact\n\nPlease contact us and join our Xiaohongshu Group if you have any questions.\n\n#### Xiaohongshu Group \n\u003Cimg src=assets\u002Fxhs.png width=\"200px\">\n\n\n## ⭐ Star History\n\n[![Star History Chart](https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=FireRedTeam\u002FFireRed-Image-Edit&type=date&legend=top-left)](https:\u002F\u002Fwww.star-history.com\u002F#FireRedTeam\u002FFireRed-Image-Edit&type=date&legend=top-left)\n\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Csub>Built by 小红书智能创作基础技术团队 Xiaohongshu Intelligent Creation Core Technology Team\u003C\u002Fsub>\n\u003C\u002Fdiv>\n","FireRed-Image-Edit 是一个强大的图像编辑基础模型，实现了开源的最先进性能。该项目通过精准的指令跟随、高保真生成、卓越的身份一致性以及无缝多元素融合等核心功能，为用户提供高质量的图像处理体验。基于Python语言开发，并采用PyTorch框架支持深度学习与扩散模型技术。适用于需要高级别图像编辑能力的应用场景，如创意设计、虚拟现实内容创作及个人照片美化等领域。项目遵循Apache License 2.0协议开放源代码，便于社区贡献者参与改进和扩展。",2,"2026-06-11 03:49:47","high_star"]