モデルの重みそのものを、チップの配線として物理的に刻んでしまう。
そんな驚きのアプローチをとったデバイスが登場しました。
2026年2月19日、カナダ・トロントのスタートアップ「Taalas」が沈黙を破り、世界に Taals HC1を公開した。
「The Model is The Computer(AIモデル自体がコンピュータだ)」
「メモリウォール」これがすべての問題の根源
TPUも含む従来のチップ設計には、根本的なボトルネックがある。「メモリウォール」と呼ばれる問題だ。
どれほど高速なチップを作っても、モデルの重みデータはHBM(High Bandwidth Memory)というメモリに格納されており、計算のたびにそこからデータを読み込まなければならない。この「チップ↔メモリ間のデータ転送」が電力の大半を食い、速度のボトルネックになっている。
処理エネルギーの実に約90%が、このデータ移動で消費されていると言われている。
Taalasのアプローチは根本的だ。「ならば最初から、重みをチップの中に焼き付けてしまえばいい」——モデルの重みを「実行するソフトウェア」ではなく「チップの物理的な金属配線層」として製造するのだ!
「マスクROMリコールファブリック」の仕組み
HC1チップの核心技術「マスクROMリコールファブリック」は、TSMCの半導体製造プロセスにおいて、通常は「汎用的な接続」として使われる2つの金属配線層を、AIモデルの重みに対応した特定のパターンで固定する。
チップ全体の100以上の製造レイヤーのうち、モデルごとに変えるのはたったの2層。残りは汎用的に製造できる。これにより「モデルの重みを受け取ってから2ヶ月でカスタムチップを量産する」というサイクルが実現した。
演算は1トランジスタで行列乗算を実行。HBMも液体冷却も不要だ。
数字で見るHC1の衝撃
HC1の第一弾は、Meta製オープンモデル「Llama 3.1 8B」に特化(TSMCの6nmプロセス、815mm²ダイ)。

| チップ | トークン/秒(1ユーザー) | H200比 |
|---|---|---|
| Taalas HC1 | 16,960 | 73.7× |
| Cerebras | 1,981 | 8.6× |
| SambaNova | 916 | 4.0× |
| Groq | 609 | 2.6× |
| Nvidia B200 | 594 | 2.6× |
| Nvidia H200 | 230 | 1.0× |
※Taals Labの研究結果:Taals公式ホームページより引用
Nvidia H200の73倍。消費電力は従来の1/10。
わずか25名のチームが3,000万ドルで実現した、53億トランジスタのチップがこの数字を出すのだ。
「専用化」の代償は明確、それでもある優位
Taalasのアプローチには欠点もある。簡潔に見ておこう。
①柔軟性ゼロ:HC1はLlama 3.1 8B専用だ。モデルが更新されれば新チップが必要になる。ただしTaalasは「2ヶ月でチップを量産する」サイクルを確立しているため、これはソフトウェアのバージョンアップに近い感覚で対応できるかもしれない。環境保護に逆行する気はするが……。
②精度のトレードオフ:興味深いことに独自の3bit+6bit混合量子化フォーマットを使用。フルプレシジョンのGPUと比べると出力精度に差が生じる可能性がある。量子化は通常、AIモデルをあまり性能劣化させることなく小型化する手法だ。
③フロンティアモデルの壁:HC1は8Bパラメータ対応。GPT-4クラスの数千億〜1兆パラメータモデルには、クラスター構成が必要になる。すでにDeepSeek R1では30チップ構成で12,000トークン/(秒/ユーザー)を達成と発表している。技術的な現実性はありそうだ。
しかしこれらは「欠点」というより「意図的な設計の選択」だというのが正しいだろう。推論過程の大半は、少数のモデルを大量に実行することで成り立っている。オープンウェイトのAIモデルが存在する以上、Taalasのアプローチは競争力のあるものだろう。
AI時代の到来に伴って、ハードウェアの専用化が進む中、このTaalasのハードウェアは最も先鋭的なモノだと言えるだろう。
Taalasは宣言している。「AIモデルをプラスチックと同じくらい安価で遍在するものにするには、効率を1,000倍改善する必要がある。それは汎用コンピュータ上でモデルをシミュレートすることでは達成できない」と。

↓このリンクから専用ハードで動くAIを試せます。(日本語でファインチューンされていないLlamaである上に、8Bモデルなので日本語の会話性能は低いです。それでもスピード感は分かります。)

