Xorbits Inference(Xinference) は、言語、音声認識、マルチモーダルモデルのために 設計された強力で汎用性の高いライブラリです。 Xorbits Inference を使えば、たった 1 つのコマンドで、 あなたや最先端のビルトインモデルを簡単にデプロイし、提供することができます。 Xorbits Inference は、 研究者、開発者、データサイエンティストを問わず、最先端の AI モデルの可能性を最大限に引き出すことができます。
🌟 モデルサービングを簡単に: 大規模な言語、音声認識、マルチモーダルモデルの提供プロセスを簡素化します。 1つのコマンドで、実験用と本番用のモデルをセットアップしてデプロイできます。
⚡️ 最先端モデル: コマンド1つで最先端のビルトインモデルを実験。 Inference は、最先端のオープンソースモデルへのアクセスを提供します!
🖥 異機種ハードウェアの利用: ggml でハードウェアリソースを最大限に活用しましょう。 Xorbits Inference は、GPU や CPU を含む異種ハードウェアをインテリジェントに利用し、モデル推論タスクを高速化します。
⚙️ 柔軟な API とインターフェース: OpenAI互換のRESTful API(Function Callingを含む)、RPC、コマンドライン、Web UIなど、 多様なインターフェースを提供し、モデルの管理と相互作用を容易にします。
🌐 配布デプロイメント: Excel の分散展開シナリオでは、複数のデバイスやマシンにモデルの推論をシームレスに分散させることができます。
🔌 サードパーティライブラリとの組み込み統合: Xorbits Inference は、LangChain や LlamaIndex のような人気のあるサードパーティライブラリと シームレスに統合されています。
機能 | Xinference | FastChat | OpenLLM | RayLLM |
---|---|---|---|---|
OpenAI 互換の RESTful API | ✅ | ✅ | ✅ | ✅ |
vLLM 統合 | ✅ | ✅ | ✅ | ✅ |
その他の推論エンジン(GGML、TensorRT) | ✅ | ❌ | ✅ | ✅ |
その他のプラットフォーム(CPU、Metal) | ✅ | ✅ | ❌ | ❌ |
マルチノードクラスター展開 | ✅ | ❌ | ❌ | ✅ |
画像モデル(テキストから画像へ) | ✅ | ✅ | ❌ | ❌ |
テキスト埋め込みモデル | ✅ | ❌ | ❌ | ❌ |
マルチモーダルモデル | ✅ | ❌ | ❌ | ❌ |
より多くのOpenAI機能(関数呼び出し) | ✅ | ❌ | ❌ | ❌ |
始める前に、GitHubで私たちにスターを付けてください。そうすると、新しいリリースの通知を即座に受け取ることができます!
Xinferenceを体験する最軽量な方法は、私たちのGoogle Colab上のJupyterノートブックを試すことです]。
Nvidia GPUユーザーは、Xinference Dockerイメージを使用してXinferenceサーバーを開始することができます。インストールコマンドを実行する前に、システムにDockerとCUDAが設定されていることを確認してください。
以下のようにpipを使用してXinferenceをインストールします。(他のオプションについては、インストールページを参照してください。)
pip install "xinference[all]"
ローカルインスタンスのXinferenceを開始するには、次のコマンドを実行します:
$ xinference-local
Xinferenceが実行されると、Web UI、cURL、コマンドライン、またはXinferenceのPythonクライアントを介して試すことができます。詳細はドキュメントをご覧ください。
プラットフォーム | 目的 |
---|---|
Github イシュー | バグ報告と機能リクエストの提出。 |
Slack | 他のXorbitsユーザーとの協力。 |
新機能に関する最新情報の入手。 |
この仕事が役立つ場合は、以下のように引用してください:
@inproceedings{lu2024xinference,
title = "Xinference: Making Large Model Serving Easy",
author = "Lu, Weizheng and Xiong, Lingfeng and Zhang, Feng and Qin, Xuye and Chen, Yueguo",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = nov,
year = "2024",
address = "Miami, Florida, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.emnlp-demo.30",
pages = "291--300",
}