#100日連続投稿チャレンジの #9日目 です。 そもそもQwenとはAlibabaが開発したオープンソースのLLM(大規模言語モデル)です。最新のモデルはQwen3で0.5Bから72Bまでのサイズが提供されています。また最近Qwen3-Coderが発表され、その精度の高さと実行時の効率に ...
Qwen3-Coderは複数サイズで展開されるが、今回、最上位モデルのQwen3-Coder-480B-A35B-Instructを公開した。これは480Bのパラメータ、35BのアクティブパラメータをもつMoE (Mixture-of-Experts) モデルで、コンテキスト長は標準で256Kトークンまで対応し、YaRNなどの拡張手法 ...
ワールドクオントでCIOを務めていたロープレート氏がトップに クオンツ部門キュービスト、ポイント72の運用資産のうち17%を管理 米ヘッジファンド運用会社、 ポイント72アセット・マネジメントは、クオンツ投資部門の責任者を交代する。ブルームバーグが ...
通常版の30B MoEモデルのアップデートに続き、Coder版も公開されました。そしてunsloth氏も数時間後にgguf版を公開しています。 通常版と同様に、CPU側に溢れる事を見越して、GPU利用を制限します。 筆者環境では、num_ctx=64kとした場合、num_gpu=40程度が上限でした ...