Skip to content

Latest commit

 

History

History
1302 lines (1257 loc) · 41.5 KB

README.md

File metadata and controls

1302 lines (1257 loc) · 41.5 KB

star fork

中文 | English



1. 官网:

2. 开源地址:

3. 人工智能算法:


项目清单:

  • 6_web_app - [Web应用,前端VUE,后端Springboot]
  1). 训练引擎
  2). 代码语义搜索
  3). 机器翻译
  4). 一键抠图 
  5). 图像分辨率增强
  6). 图像&文本的跨模态相似性比对检索【支持40种语言】
  7). 文本向量搜索,可配合大模型使用
  8). 人像搜索
  9). 语音识别
  10). 以图搜图
  11). OCR Web应用
  12). OCR 自定义模板识别(IOCR)
      ...

AI 训练平台
- training

AI训练平台提供分类模型训练能力。
并以REST API形式为上层应用提供接口。

代码语义搜索
- code_search

用于软件开发过程中的,
代码搜代码,语义搜代码。
主要特性:
- 底层使用特征向量相似度搜索
- 单台服务器十亿级数据的毫秒级搜索
- 近实时搜索,支持分布式部署
- 随时对数据进行插入、
删除、搜索、更新等操作

机器翻译
- text_translation

- 支持202种语言互相翻译。
- 支持 CPU / GPU

一键抠图 Web 应用
- image_seg

当前版本包含了下面功能:
- 1. 通用一键抠图
- 2. 人体一键抠图
- 3. 动漫一键抠图
- 4. 框选一键抠图

图片一键高清
- image_gan

当前版本包含了下面功能:
- 图片一键高清: 提升图片4倍分辨率。
- 头像一键高清
- 人脸一键修复

图像&文本的跨模态检索
- image_text_search

- 支持40种语言
- 以图搜图:上传图片搜索
- 以文搜图:输入文本搜索
- 数据管理:提供图像压缩包(zip格式)上传

文本向量搜索
- text_search

- 语义搜索,通过句向量相似性,
检索语料库中与query最匹配的文本
- 文本聚类,文本转为定长向量,
通过聚类模型可无监督聚集相似文本
- 文本分类,表示成句向量,
直接用简单分类器即训练文本分类器
- RAG,用于大模型搜索增强生成

人像搜索
- face_search

- 搜索管理
- 存储管理
- 用户管理
- 角色管理
- 菜单管理
- 部门管理
- 岗位管理
- 字典管理
- 系统日志
- SQL监控
- 定时任务
- 服务监控

语音识别Web 应用
- asr

- 英文语音识别,
- 中文语音识别。

以图搜图
- image_search

- 搜索管理
- 存储管理
- 用户管理
- 角色管理
- 菜单管理
- 部门管理
- 岗位管理
- 字典管理
- 系统日志
- SQL监控
- 定时任务
- 服务监控

OCR Web 应用
- ocr_web_app

- 自由文本识别(支持旋转、倾斜的图片)
- 文本图片转正 (一般情况下不需要,因为ocr 原生支持旋转、倾斜的图片 )
- 表格文本识别(图片需是剪切好的单表格图片)
- 表格自动检测文本识别(支持表格文字混编,自动检测表格识别文字,支持多表格)

OCR 自定义模板识别
- iocr

- 模板自定义
- 基于模板识别(支持旋转、倾斜的图片)
- 自由文本识别
- 文本转正
  • 1_image_sdks - [图像识别 SDK]
  1). 工具箱系列:图像处理工具箱(静态图像)
  2). 目标检测
  3). 图像分割
  4). GAN
  5). 其它类别:OCR等
      ...

OCR工具箱 1:方向检测

- ocr_sdks/
ocr_direction_det_sdk
- OCR图像预处理。

OCR工具箱 2:OCR文字识别

1. ocr_sdks/ocr_v3_sdk
1). V3 文本检测:
- 中文文本检测
- 英文文本检测
- 多语言文本检测
2). V3 文本识别:
- 中文简体
- 中文繁体
- 英文
- 韩语
- 日语
- 阿拉伯
- 梵文
- 泰米尔语
- 泰卢固语
- 卡纳达文
- 斯拉夫
2. ocr_sdks/ocr_v4_sdk
- 原生支持倾斜文本文字识别。
- 更高的识别精度
- 支持中英文。

OCR工具箱 4:版面分析

- ocr_sdks/ocr_layout_sdk
可以用于配合文字识别,
表格识别的流水线处理使用。
1). 中文版面分析
2). 英文版面分析
3). 中英文文档 - 表格区域检测

OCR工具箱 5: 表格识别

- ocr_sdks/ocr_table_sdk
- 中英文表格识别。

人脸工具箱 face_sdks

1:人脸检测(含关键点)
- face_detection_sdk
2:人脸对齐
- face_alignment_sdk
- 根据人脸关键点对齐。
3:人脸特征提取与比对 - face_feature_sdk
4:人脸分辨率提升
- face_sr_sdk
5:图片人脸修复
- face_restoration_sdk
6:口罩检测
- mask_sdk

动物分类识别
- classification/animal_sdk

动物识别sdk,支持7978种动物的分类识别。

菜品分类识别
- classification/dish_sdk

菜品识别sdk,支持8416种菜品的分类识别。

烟火检测
- fire_smoke_sdk

烟火检测,给出检测框和置信度。

行人检测
- pedestrian_sdk

行人检测,给出检测框和置信度。

智慧工地检测
- smart_construction_sdk

支持检测的类别:人体,安全帽。

车辆检测
- vehicle_sdk

车辆检测,给出检测框和置信度。

图片特征提取(512维)SDK
- feature_extraction_sdk

提取图片512维特征值,
并支持图片1:1特征比对,
给出置信度。

图像&文本的跨模态检索
- image_text_40_sdk

- 支持40种语言
-图像&文本特征向量提取
-相似度计算
-softmax计算置信度

图像矫正
- image_alignment_sdk

-自动检测边缘,透视变换转正

文本图像超分辨
- image_text_sr_sdk

-可以用于提升电影字幕清晰度。

图像超分辨(4倍)
- super_resolution_sdk

-提升图片4倍分辨率。

黑白图片上色
- image_colorization_sdk

-应用到黑白图像中
从而实现黑白照片的上色。

一键抠图工具箱
- 1. 通用一键抠图

- seg_unet_sdk
-包括三个模型:满足不同精度,速度的要求。

一键抠图工具箱
- 2. 动漫一键抠图

- seg_unet_sdk
无需手动绘制边界,
大大提高了抠图的效率和精准度。
应用场景如:
- 广告设计
- 影视后期制作
- 动漫创作等

一键抠图工具箱
- 3. 衣服一键抠图

- seg_unet_sdk
应用场景:
- 电子商务
- 社交媒体
- 广告设计
- 时尚设计
- 虚拟试衣

一键抠图工具箱
- 4. 人体一键抠图

- seg_unet_sdk
- 将人体从背景中抠出,
形成一个透明背景的人体图像。
  • 2_nlp_sdks - [自然语言 SDK]
  1). 工具箱系列:sentencepiece,fastText,npy/npz文件处理等。
  2). 大模型
  3). 词向量
  4). 机器翻译
      ...

Sentencepiece分词
- kits/sentencepiece_sdk

Sentencepiece分词的Java实现。

jieba分词
- lexical_analysis/jieba_sdk

jieba分词java版本的简化实现。

机器翻译

1. 202种语言互相翻译
- translation/trans_nllb_sdk
- 支持202种语言互相翻译,
- 支持 CPU / GPU。
2. 中英互相翻译
- translation/translation_sdk
- 可以进行英语和中文之间的翻译,
- 支持 CPU / GPU。

文本特征提取向量工具箱

- embedding/*
-1. 4个中文SDK:
1).m3e_cn_sdk
2).text2vec_base_chinese_sdk
3).text2vec_base_chinese_sentence_sdk
4).text2vec_base_chinese_paraphrase_sdk
-2. 3个多语言SDK:
1).sentence_encoder_15_sdk
(支持 15 种语言)
2).sentence_encoder_100_sdk
(支持100种语言)
3).text2vec_base_multilingual_sdk
(支持50+种语言)
-3. 3个代码语义SDK:
1).code2vec_sdk
2).codet5p_110m_sdk
3).mpnet_base_v2_sdk
  • 3_audio_sdks - [语音处理 SDK]
  1). 工具箱系列:音素工具箱,librosa,java sound,javacv ffmpeg, fft, vad工具箱等。
  2). 声音克隆
  3). 语音合成
  4). 声纹识别
  5). 语音识别
      ...

中文语音识别(ASR)

1. 短语音
- asr_whisper_sdk
2. 长语音
- asr_whisper_long_sdk

TTS 文本转为语音

- tts_sdk
- TTS 文本转为语音。
  • 4_video_sdks - [视频解析SDK]
  1). 摄像头口罩检测 - camera_facemask_sdk
  2). MP4检测口罩 - mp4_facemask_sdk
  3). rtsp取流检测口罩 - rtsp_facemask_sdk

视频流分析

1. 摄像头口罩检测
- camera_facemask_sdk
2. MP4检测口罩
- mp4_facemask_sdk
3. rtsp取流检测口罩
- rtsp_facemask_sdk
  • 5_bigdata_sdks - [大数据SDK]
  1). flink-情感倾向分析【英文】- flink_sentence_encoder_sdk
  2). kafka-情感倾向分析【英文】- kafka_sentiment_analysis_sdk
      ...

大数据分析

flink-情感倾向分析
flink_sentiment_analysis_sdk
kafka-情感倾向分析
kafka_sentiment_analysis_sdk
针对带有主观描述的文本,
可自动判断该文本的情感极性类别并给出相应的置信度。
  • 7_aigc - [图像生成]
  1). 图像生成预处理工具箱 controlnet_sdks
  2). 图像生成SD工具箱 stable_diffusion_sdks
      ...
  • 7.1 图像生成预处理工具箱 controlnet_sdks

1. Canny 边缘检测

- canny_sdk
- Canny 边缘检测预处理器可很好识别出
图像内各对象的边缘轮廓,常用于生成线稿。
- 对应ControlNet模型: control_canny

2. MLSD 线条检测

- mlsd_sdk
- MLSD 线条检测用于生成房间、
直线条的建筑场景效果比较好。
- 对应ControlNet模型: control_mlsd

3. Scribble 涂鸦

- scribble_hed_sdk
- scribble_pidinet_sdk
- 图片自动生成类似涂鸦效果的草图线条。
- 对应ControlNet模型: control_mlsd

4. SoftEdge 边缘检测

- softedge_hed_sdk
- HED - HedScribbleExample
- HED Safe - HedScribbleExample
- softedge_pidinet_sdk
- PidiNet - PidiNetGPUExample
- PidiNet Safe - PidiNetGPUExample
- SoftEdge 边缘检测可保留更多柔和的边缘细节,
类似手绘效果。
- 对应ControlNet模型: control_softedge。

5. OpenPose 姿态检测

- pose_sdk
- OpenPose 姿态检测可生成图像中角色动作
姿态的骨架图(含脸部特征以及手部骨架检测)
,这个骨架图可用于控制生成角色的姿态动作。
- 对应ControlNet模型: control_openpose。

6. Segmentation 语义分割

- seg_upernet_sdk
- 语义分割可多通道应用,
原理是用颜色把不同类型的对象分割开,
让AI能正确识别对象类型和需求生成的区界。
- 对应ControlNet模型: control_seg。

7. Depth 深度检测

- depth_estimation_midas_sdk
- Midas - MidasDepthEstimationExample
- depth_estimation_dpt_sdks
- DPT - DptDepthEstimationExample
- 通过提取原始图片中的深度信息,
生成具有原图同样深度结构的深度图,
越白的越靠前,越黑的越靠后。
- 对应ControlNet模型: control_depth。

8. Normal Map 法线贴图

- normal_bae_sdk
- NormalBaeExample
- 根据图片生成法线贴图,适合CG或游戏美术师。
法线贴图能根据原始素材生成
一张记录凹凸信息的法线贴图,
便于AI给图片内容进行更好的光影处理,
它比深度模型对于细节的保留更加的精确。
法线贴图在游戏制作领域用的较多,
常用于贴在低模上模拟高模的复杂光影效果。
- 对应ControlNet模型: control_normal。

9. Lineart 生成线稿

- lineart_sdk
- lineart_coarse_sdk
- Lineart 边缘检测预处理器可很好识别出
图像内各对象的边缘轮廓,用于生成线稿。
- 对应ControlNet模型: control_lineart。

10. Lineart Anime 生成线稿

- lineart_anime_sdk
- LineArtAnimeExample
- Lineart Anime 边缘检测预处理器
可很好识别出卡通图像内
各对象的边缘轮廓,用于生成线稿。
- 对应ControlNet模型: control_lineart_anime。

11. Content Shuffle

- content_shuffle_sdk
- ContentShuffleExample
- Content Shuffle 图片内容变换位置,
打乱次序,配合模型
control_v11e_sd15_shuffle 使用。
- 对应ControlNet模型: control_shuffle。
  • 7.2 图像生成SD工具箱 stable_diffusion_sdks
1. 文生图
- txt2image_sdk
- 输入提示词(英文),
生成图片(英文)
2. 图生图
- 根据图片及提示词(英文)
生成图片
- image2image_sdk

4. Controlnet 图像生成
-4.1. Canny 边缘检测

- controlnet_canny_sdk
- Canny 边缘检测预处理器可
很好识别出图像内各对象
的边缘轮廓,常用于生成线稿。

4. Controlnet 图像生成
-4.2. MLSD 线条检测

- controlnet_mlsd_sdk
- MLSD 线条检测用于生成房间、
直线条的建筑场景效果比较好。

4. Controlnet 图像生成
-4.3. Scribble 涂鸦

- controlnet_scribble_sdk
- 图片自动生成类似涂鸦效果的草图线条。

4. Controlnet 图像生成
-4.4. SoftEdge 边缘检测

- controlnet_softedge_sdk
- SoftEdge 边缘检测可保留更多
柔和的边缘细节,类似手绘效果。

4. Controlnet 图像生成
-4.5. OpenPose 姿态检测

- controlnet_pose_sdk
- OpenPose 姿态检测可生成图像
中角色动作姿态的骨架图
(含脸部特征以及手部骨架检测)
,这个骨架图可用于控制生成角色的姿态动作。

4. Controlnet 图像生成
-4.6. Segmentation 语义分割

- controlnet_seg_sdk
- 语义分割可多通道应用,
原理是用颜色把不同类型的对象分割开,
让AI能正确识别对象类型和需求生成的区界。

4. Controlnet 图像生成
-4.7. Depth 深度检测

- controlnet_depth_sdk
- 通过提取原始图片中的深度信息,
生成具有原图同样深度结构的深度图,
越白的越靠前,越黑的越靠后。

4. Controlnet 图像生成
-4.8. Normal Map 法线贴图

- controlnet_normal_sdk
- 根据图片生成法线贴图,
适合CG或游戏美术师。
法线贴图能根据原始素材生成
一张记录凹凸信息的法线贴图,
便于AI给图片内容进行更好的光影处理,
它比深度模型对于细节的保留更加的精确。
法线贴图在游戏制作领域用的较多,
常用于贴在低模上模拟高模的复杂光影效果。

4. Controlnet 图像生成
-4.9. Lineart 生成线稿

- controlnet_lineart_sdk
- controlnet_lineart_coarse_sdk
- Lineart 边缘检测预处理器可很好识别出
图像内各对象的边缘轮廓,用于生成线稿。

4. Controlnet 图像生成
-4.10. Lineart Anime 生成线稿

- controlnet_lineart_anime_sdk
- Lineart Anime
边缘检测预处理器可很好
识别出卡通图像内各对象的边缘轮廓,
用于生成线稿。

4. Controlnet 图像生成
-4.11. Content Shuffle

- controlnet_shuffle_sdk
- Content Shuffle 图片内容变换位置,
打乱次序,配合模型
control_v11e_sd15_shuffle 使用。
  • 8_desktop_app - [桌面App]
  1). 大模型离线桌面App
  2). OCR文字识别桌面App
  3). 图像高清放大桌面App
      ...

大模型离线桌面App
- desktop_app_llm

- 支持中/英文 - 模型支持chatglm3,llama3,alpaca3等
- 支持4位,8位量化,16位半精度模型。
- 支持windows及mac系统
- 支持CPU,GPU

OCR文字识别桌面App
- desktop_app_ocr

- 图片文字识别
- 支持windows, linux, mac 一键安装

图像高清放大桌面App
- desktop_app_upscale

- 单张图片分辨率放大
- 批量图片分辨率放大
- 支持 windows, macos, ubuntu
  • 9 archive - [废弃不再维护的项目]

联系方式:

其它研究专题:

1). AI + 量子计算

2). AI + 生物医药