🧠 research

2026-05-24 · 6 topics

Cohere、218B MoE モデル Command A+ を公開──25B アクティブパラメータでエージェント性能を強化

🔥🔥🔥

48 言語対応の Apache 2.0 ライセンス。128K コンテキストと画像入力を備え、推論プロセスを可視化する思考ログ生成と高精度なツール連携に特化している。

SulphurAI、動画生成モデル Sulphur 2 を公開──LTX 2.3 ベースの検閲なし t2v/i2v 対応モデル

🔥🔥🔥

LTX 2.3 の全フォーマットをネイティブサポートし、専用のプロンプト拡張機能により、ローカル環境でも高品質な動画生成ワークフローを構築できる。

CircleStone Labs、20億パラメータの画像生成モデル Anima を公開──アニメ特化の非商用ベースモデル

🔥🔥🔥

NVIDIA Cosmos 基盤で数百万のアニメ画像を学習。Danbooru タグと自然言語を併用でき、ComfyUI で 1536px 級のイラストを高精度に生成する。

OpenBMB、エッジ特化 MLLM「MiniCPM-V 4.6」を公開──0.8B 規模で 2B 級の視覚理解を実現

🔥🔥🔥

視覚エンコードの計算量を 50% 削減しつつ、iOS/Android へのネイティブ実装と OCR 性能の両立を 10 億パラメータ未満で達成した。

Google、マルチモーダルモデル Omni Flash を公開──実写動画への高度な被写体合成と編集を実現

🔥🔥🔥

従来の Veo を刷新し、動画や写真を元にした「Anything-to-Anything」の生成に対応。実写の人物を別環境へ合成する精度が向上し、テキストによる編集指示の追従性も強化された。

VLA モデルは環境の僅かな変化で成功率が 80% から 20% へ急落──空間推論の脆弱性を特定

🔥

視覚・言語・行動(VLA)モデルが直面する未知の課題を体系化。空間配置や指示の微細な変化への耐性を評価。(原題: Novel Problems in Vision-Language-Action Models)