Guandong Li

Featured

Interview-code-practice-python 1577

Python coding interview practice problems.

Awesome-Chinese-Stable-Diffusion 403

Curated collection of Chinese stable diffusion base models.

learn_python 297

Python learning notes, recipes, and cheatsheets.

How-to-make-high-resolution-remote-sensing-image-dataset 55

Practical guide for building high-resolution remote sensing image datasets.

Wav2lipAll 22

Wav2lip-based digital human training with lip-sync driving (96-288px).

EcommerceLLM 22

E-commerce LLM fine-tuned based on Qwen1.5 and LLaMA3.

AIGC - Large Language Models

EcommerceLLMQwen3 10

Qwen3 series e-commerce LLM fine-tuned with e-commerce data.

EcommerceLLMQwen2.5 13

Qwen2.5 series e-commerce LLM fine-tuned with e-commerce data.

EcommerceLLM 22

E-commerce LLM fine-tuned based on Qwen1.5 and LLaMA3.

MiniLLaMA3 2

Mini LLaMA3 covering full pipeline from data, tokenizer, PT, SFT to RLHF.

Medical_R1 1

Fine-tune DeepSeek-R1 on medical data.

ECOMCPM 1

Chinese GPT2-like pretrained model trained on e-commerce data.

UniFlow

Unified LLM, multimodal, FLUX generation interface with FastAPI deployment.

MediaAgent 3

Auto-monitoring, LLM rewriting, and auto-publishing agent application.

AIGC - Multimodal Models

XrayLLaVA 10

X-ray multimodal model fine-tuned on LLaVA 1.6 with 4 V100 GPUs.

XrayQwenVL 21

X-ray multimodal model fine-tuned on QwenVL-Chat.

XrayQwen2VL 7

X-ray multimodal model fine-tuned on Qwen2-VL-7B-Instruct.

XrayLLama3.2Vision 1

X-ray multimodal model fine-tuned on LLaMA3.2-Vision on 4 A800 GPUs.

OCRDetInternVL2 5

OCR detection multimodal model fine-tuned on InternVL2-8B.

OCRInternVL2 2

OCR VQA multimodal model fine-tuned on InternVL2-8B.

OCRDetPaliGemma 1

OCR text detection multimodal model based on PaliGemma.

EcommerceOCRBench 6

Large-scale OCR benchmark for multimodal LLMs in e-commerce.

AIGC - Image Generation

Awesome-Chinese-Stable-Diffusion 403

Collection of Chinese stable diffusion base models.

Awesome-ID-Customization 5

ID-Customization for character consistency generation on Flux and SD.

RealtimeFlux 2

First real-time Flux-based sketch-to-image generation model.

MaskControlnet 7

ControlNet conditioned on masks, trained on e-commerce cutout data.

ChatAce

Image editing based on Flux ACE++ for character consistency editing.

ChatFlux 1

WebUI-based ChatDiT, supports generating images through conversations.

EcommerceSD 1

Stable diffusion models for e-commerce image generation and inpainting.

HOME-CLIP 5

ChineseCLIP fine-tuned on home decoration and furniture data.

HOME-DALLE1 1

DALL-E 1 model for Chinese home decoration scenes.

controlnet_aux_add 1

Additional preprocessors for ControlNet auxiliary library.

AIGC - Video & Digital Human

Wav2lipAll 22

Wav2lip-based digital human training with lip-sync driving (96-288px).

TalkingFace 3

Training set for 2D talking face projects (wav2lip, geneface++).

Xiaobao 4

VideoClip, a video editing application.

EcommerceVideoDataset

Dataset for creating e-commerce animations.

Awesome-Chinese-Video-Generation

Collection of Chinese video generation models.

Musubi-Studio 1

Unified training framework for image and video generation models.

Typemovie Infra

Typemovie-ParaAttention 5

Enhanced ParaAttention for DiT inference with context parallelism.

TypemovieInfer 2

Unified consumer-GPU multi-GPU inference framework for image and video generation.

Computer Vision

mmdetection_add 5

Additional detection algorithms (EfficientDet, YOLOv4/v5) for mmdetection.

mmclassification_add 3

Additional classification algorithms (GhostNet, etc.) for mmcls.

mmocr_add 1

OCR algorithms organized in mm framework.

mmgeneration_add 1

GAN and traditional image generation algorithms.

mmsynth 1

Text rendering reorganized in mm format.

Camera_blur_detection 5

Camera photo blur detection with FastDeploy multi-platform deployment.

Answer_card_identification 21

Answer sheet intelligent grading system.

Dataaug 1

Data augmentation for object detection and segmentation.

FormatConversion 1

RGB to CMYK conversion for offline print materials.

Qianbian 4

Curated visual AI projects on HuggingFace, ModelScope, and PaddleHub.

Deployment & Acceleration

KuaiZai 1

Multi-platform deployment project codes.

PlateRec 4

License plate recognition based on PaddleOCR, ONNX Runtime, C++.

Yolov5_rknnlite2 12

YOLOv5 pedestrian detection deployed on RK3588 with RKNNLite2.

Learning & Tools

Interview-code-practice-python 1577

Python coding interview practice problems.

learn_python 297

Python learning notes.

How-to-make-high-resolution-remote-sensing-image-dataset 55

Guide for creating high-resolution remote sensing image datasets.

Leetcode-hot100-python 35

LeetCode Hot 100 problems in Python.

DL-data-processing-methods 34

Common data processing methods for deep learning.

Paper-Learning 27

Paper reading notes on deep learning, remote sensing, OCR, and generation.

Parking 23

Parking spot finder mobile application.

SimilarWork 7

Deep learning framework implemented with NumPy (TF static graph + PyTorch dynamic).

mmhyperspectral 2

Hyperspectral classification models in mm framework.

TPCV 1

Simple example to understand mmcv internals.

ComfyUI Extensions

Flux Series

FluxLayerDiffuse FluxCustomId FluxAttentionMask FluxClipWeight

Multimodal & Vision LLMs

InternVL2 Gemma3 LLaSM DeepSeekVL2 Qwen3Omni KimiVL Moonlight NanoBanana QWQ32B

Attention / Routing

VisualAttentionMap CrossImageAttention SelfGuidance MasaCtrl Style_Aligned

Generation Backbones

Cogview4 Diffusers 1Prompt1Story ChatGen

Video / Editing

VideoEditing AliControlnetInpainting

Tools & Utilities

M3Net BatchPrompt CompareModelWeights OneReward

SD WebUI Extensions

Virtual Try-on & ID

ootdiffusion instantid

Inpainting & Editing

outpainting lama powerpaint

Talking Face / Animation

musetalk animate_anything

Matting / Segmentation

sghm matting tokenize_anything

Real-time / Acceleration

realtime_lcm_canvas

Prompt & Color

beautifulprompt ZeST prompt_translator_architecture