お知らせ・ブログ

オノコムからの最新情報や、生成AI、AWSクラウド、ノーコードアプリケーションに関する有益な情報をお届けします。

さくらのクラウドでH100を使ってみた:GPT-OSSを爆速で動かす実験レポート

2025年10月27日
斧山 洋一
ブログ

さくらインターネットさんが実施している「生成AI全力応援キャンペーン」に申し込んでみました。なんと、高火力VRTと呼ばれるGPU演算が可能なサーバーを 100時間無料 で利用できるとのことです。

以前より、ローカル環境でDeepSeekのモデルを動かして遊んでいましたが、CPUで動かすモデルはやはり簡単な応答しかできません。もっと大きなモデルをエッジ環境で動かしてみたいと思い、今回試してみることにしました。

高火力VRTは「さくらのクラウド」上で起動でき、石狩第1ゾーンで利用が可能です。

余談ですが、当社は以前、さくらインターネットさんの石狩データセンターをお借りしてお客様のBCP計画を支援したことがあります。見学に伺った際、その設備の美しさと整然さに感動したのを覚えています。そこで今、NVIDIAのH100がたくさん動いていると思うと、感慨深いものがあります。

今回のステップ

話がそれましたが、今回の手順はとてもシンプルです。 わずか3ステップでAIをローカル環境で動かすことができました。

  1. さくらのクラウドでサーバーを作成する
  2. Ollamaをインストールする
  3. OllamaでGPT-OSSモデルをダウンロードして実行する

オープンソースのGPTモデルについて

ChatGPTを提供するOpenAIが、オープンソースモデルとして公開した gpt-oss を動かします。 現在、以下の2つのモデルがあります。

  • gpt-oss-20b:CPUでも動作する21Bパラメータの小規模モデル
  • gpt-oss-120b:117Bパラメータを持つ大規模モデル(GPU必須)

いずれも蒸留モデルですが、詳細な説明はここでは割愛します。

Ollamaについて

AIモデルがあっても、それを呼び出すためのツールが必要です。今回は、ローカル環境で大規模言語モデル(LLM)を簡単に実行・管理できるオープンソースツール Ollama を利用します。OllamaはWindowsやMacなどでGUIが提供されますが、CLIでも実行可能で今回それを利用します。

https://ollama.com/

類似ツールとしては、LM Studio や vLLM なども有名です。

さくらのクラウドの利用

当社は以前からさくらのクラウドを利用しており、アカウントを保有しています。 まだアカウントをお持ちでない方は、以下の公式マニュアルを参照してください。

https://manual.sakura.ad.jp/cloud/payment/signup.html

なお、高火力VRTを用いて第三者にサービスを提供する場合は、規約上の申請が必要とのことです。今回は自分用の実験利用なので問題ありません。

https://manual.sakura.ad.jp/cloud/server/gpu-plan.html

さくらのクラウドにログインするとクラウドホームから「さくらのクラウド」メニューを選択します。

sakura-cloud-20251027_1.png

次にコンソール上から「石狩第1ゾーン」を選択します。

sakura-cloud-20251027_13.png

そして、サーバを作成(追加)します。このサーバーはAWSで言うところのEC2にあたります。

sakura-cloud-20251027_12.png

作成するサーバのパラメータを決めてきます。仮想コアといわれるコンピューティングリソース部分を選びます。ここでは「高火力VRT(GPU)プラン」を選択します。また、このプランにはV100とH100のものがあり、H100の方が新しいGPUとなるのでこちらを選択します。

sakura-cloud-20251027_11.png

次にディスクを選択します。AWSでいうとEBSにあたるものです。今回動かそうとしているChatGPTのオープンモデルが容量(65GB程度)があることから余裕がある容量を選びます。また、アーカイブ選択でOSの種類を選択します。今回はUbuntu Serverを選択しました。

sakura-cloud-20251027_10.png

次に管理者ユーザのパスワードとホスト名を決めます。ここではホスト名は「gpt-oss」としておきます。

sakura-cloud-20251027_9.png

最後に「作成」を押すとサーバが作成されます。

sakura-cloud-20251027_8.png

サーバーが作成されていきます。

sakura-cloud-20251027_7.png

作成が完了したら「閉じる」を押します。

sakura-cloud-20251027_5.png

サーバが作成されていることを確認します。IPアドレスを確認してください。

sakura-cloud-20251027_4.png

SSHで接続してログイン出来ればサーバの作成は完了です。

ssh ubuntu@153.120.25.47

Ollamaのインストール

Ollamaのインストールは公式サイトにアクセスします。

https://ollama.com/download/linux

今回のさくらのクラウドのサーバーはOSをUbuntuを選択しているのでLinux版を選択します。

WEBサイトに以下の案内があるので、コピーしてSSHコンソール上で実行します。

sakura-cloud-20251027_6.png

curl -fsSL https://ollama.com/install.sh | sh

ChatGPTモデルのダウンロード

ChatGPTモデルは実はOllamaを実行するとモデルが自動的にダウンロードされます。

以下のコマンドでモデルのダウンロードと実行が可能です。

ollama run gpt-oss:120b

ダウンロードとモデルの読み込みに時間がかかるので少し待ちます。

対話式のプロンプトが帰ってきたら、あとは言語モデルと会話が行えます。

sakura-cloud-20251027_2.png

高火力VRTのH100について

さくらのクラウドに搭載されているNVIDIAのH100について以下のコマンドで確認をしてみました。

nvidia-smi

消費電力やメモリ量などが確認出来ます。

sakura-cloud-20251027_3.png

GPT-OSSモデルを動かしてみて

実際に動かしてみてまず感じたのは、とにかく 速い ということです。オンライン版ChatGPTに慣れていると、ローカル実行のレスポンスの速さと安定性には驚かされます。自分専用リソースのため、応答遅延がほとんどありません。

Ollamaはサーバーモードにも対応しており、Webアプリなどから呼び出すことも可能です。 複数人で利用する場合は当然負荷が増えますが、個人用のChatGPTとして使うには非常に快適です。H100を個人用途で占有するのは採算が合いませんが、ノートPCで動く軽量モデルの登場を期待させる体験でした。

コストについて

今回利用した高火力VRT(H100)の料金は以下の通りです(2025年10月27日時点・当社調べ)。

時割 1,037円
日割 23,581円
月額 394,625円

ストレージ料金は別途発生します。

個人利用としてはかなり高価ですが、蒸留モデルの作成や強化学習、独自モデルの実行といった研究・開発用途では十分に価値があると感じます。同等スペックのAWS EC2と比較すると、為替や価格改定にもよりますが、やや安価に利用できる印象です。

さくらのクラウドについて

当社はAWS APNとして活動しているため、普段はAWSを中心に利用しています。CDKを用いたデプロイが定常化している現在、今回のようにさくらのクラウドを触ることで、サーバーの基本的な強さと手触りを改めて感じました。

どちらが優れているかではなく、用途に応じて選択肢を持つことが重要です。今後も当社では、AWS・さくらインターネット双方のソリューションを積極的に検証・採用していきたいと考えています。

ローカルマシンでの動作について

後日談として、手元のM4 MacBook Pro(メモリ128GB)およびM4 MacBook Air(メモリ32GB)でも動作検証を行ってみました。 驚いたことに、MacBook Proでは「gpt-oss:128b」が非常にスムーズに動作しました。

sakura-cloud-20251027_14.png

「このクラスのモデルなら、もはやGPUがなくても動くのでは?」と思い、同じようにMacBook Airでも試してみたところ……
しばらく待った後、残念ながらエラーで停止してしまいました。

sakura-cloud-20251027_15.png

「gpt-oss:128b」を軽快に動かせるMacBook Proの性能には感心しましたが、やはり学習処理や大規模な演算ではGPUには敵いません。 それでも、MacBook Proをお持ちの方はOllamaと組み合わせて「gpt-oss:128b」をインストールしておくと、飛行機の機内などネットワークが不安定な環境でもChatGPTを利用できるので非常に便利です。