2026-04-26 · 10 topics
Qwen/Qwen3.6-27B、Hugging Face でトレンド入り──マルチモーダル性能と長文脈処理を強化
🔥🔥🔥Qwen3.6-27B は、エージェントコーディング能力と 1M トークン超のコンテキスト長を特徴とし、SGLang や vLLM などの主要フレームワークで利用可能。
Qwen、35B/3B パラメータのマルチモーダルモデル Qwen3.6-35B-A3B を公開──エージェント機能と推論効率を強化
🔥🔥🔥Hugging Face で公開された Qwen3.6-35B-A3B は、262K トークン以上の長文脈処理能力と、コード生成・ツール連携に特化したエージェント機能を強化し、開発者の実用性を向上させた。
DeepSeek-AI、1.6T パラメータの MoE モデル DeepSeek-V4-Pro を公開──100万トークンコンテキストと FP4/FP8 推論に対応
🔥🔥🔥100万トークンコンテキストでの推論効率を DeepSeek-V3.2 比で 73% 削減し、GPQA で 90.1、GSM8K で 92.6 の SOTA 級性能を達成。
Google、マルチモーダル対応の Gemma 4 モデル群を公開──31B モデルは MoE で高速推論
🔥🔥🔥テキスト・画像・動画・音声に対応し、最大 256K トークンの長文脈処理と高度な推論・コーディング能力を備える。
moonshotai、マルチモーダルエージェントモデル Kimi K2.6 を公開──長文コーディングと自律実行能力を強化
🔥🔥🔥Kimi K2.6 は、複雑なコーディング、画像・動画入力、300 サブエージェントによる協調実行を可能にし、自律エージェントの能力を大幅に向上させる。
NanoChatはLlamaよりスクラッチからの学習効率で優位
🔥🔥GPUメモリ使用量でNanoChatがLlamaを圧倒、学習効率の差は最大2.5倍に。(原題: Nanochat vs Llama for training from scratch? [P])
ハイパーパラメータドリフトを検出する手法を提案
🔥🔥ハイパーパラメータのドリフトを検出・定量化する手法 HPO を提案。ハイパーパラメータのチューニングとモデルの再学習を自動化。(原題: HPO - hyperparameter drift [D])
大規模車両ルーティングで問題となるボトルネックを特定
🔥🔥100万停止地点へのスケーリング時に発生する計算・メモリ・アルゴリズム上の破綻点を詳細分析。(原題: What actually breaks when you try to scale vehicle routing to ~1M stops?)
白亜紀後期の海に19mの巨大タコが生息、AI解析で常識覆す
🔥🔥AI解析で白亜紀後期の海に生息した巨大タコの大きさを推定し、食物連鎖の頂点にいた可能性を指摘。(原題: Giant 19m Octopus Ruled Cretaceous Seas, AI Analysis Reveals)
ICML 2026 採択ライン予測、会議直前1週間の平均スコアを提示
🔥会議直前に採択ボーダーラインとなる平均スコアを予測する手法を提案。ICML 2026 の採択予測に利用。(原題: ICML 2026 - Final Predictions on Average Score Needed Before Scores Come Out in 1 week? [D])