Actions
960x0 jpg
(90.06 KB, 959x524)
(90.06 KB, 959x524)
Cerebras построили свой суперкомпьютер экзафлопсного класса, используя свои хвалёные чипы размером с квадрат, вписанный в стандартную пластину (420 квадратных сантиметров). 240 киловатт, 30 миллионов, околонулевые потери на параллелизацию, рекордная пропускная способность памяти. На практике будет сравнимо с Tesla Dojo Exapod. Google TPU v4 Pod построен на более ортодоксальной технологии, но пиковая производительность тоже около 1 exaFLOPS. В целом – продолжение тренда на железо от новых игроков, специализированное под обучение больших моделей. Компании попроще и попильные конторы вроде Department of Energy продолжат пользоваться чипами NVDA. https://www.hpcwire.com/2022/11/14/cerebras-builds-exascale-ai-supercomputer/ https://news.mit.edu/2022/synthetic-data-ai-improvements-1103 синтетические данные улучшают обучение. ## фундаментальное The models, dubbed a “closed-form continuous-time” (CfC) neural network, outperformed state-of-the-art counterparts on a slew of tasks, with considerably higher speedups and performance in recognizing human activities from motion sensors, modeling physical dynamics of a simulated walker robot, and event-based sequential image processing. On a medical prediction task, for example, the new models were 220 times faster on a sampling of 8,000 patients. Возможно, обман чтобы набрать классы. https://news.mit.edu/2022/solving-brain-dynamics-gives-rise-flexible-machine-learning-models-1115 https://arxiv.org/abs/2211.03495 – возможно attention is not needed, это снимет квадратичный рост стоимости инференса, и позволит масштабировать модели сравнительно безнаказанно. https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html – исследование эмерджентных способностей языковых моделей https://42papers.com/p/self-conditioned-embedding-diffusion-for-text-generation диффузия для текста, наканецто. https://ai.googleblog.com/2022/11/react-synergizing-reasoning-and-acting.html?m=1 Лучший синтез языкового "мышления" и внешнего поведения. Large Language Models with Controllable Working Memory Large Language Models with Controllable Working Memory Proposes knowledge aware finetuning (KAFT) to strengthen both controllability and robustness by incorporating counterfactual and irrelevant contexts to standard supervised datasets. https://arxiv.org/abs/2211.05110 Token Turing machines – возможно следующее поколение трансформеров, с бесконечной памятью и эффективной работой с историей визуальных событий, в принципе это идёт в графу "роботы", но глубже, чем просто очередная адаптация трансформеров для управления машиной. https://arxiv.org/abs/2211.09119 ## Miscellaneous: https://youtube.com/watch?v=VG8lanbnbwk – интересное интервью с оксфордским философом Ником Бостромом относительно безопасного ИИ, сильного ИИ и связанных тем. IBM запускает квантовый компьютер на 433 кубита, после 127-кубитного в 2021. Тут говорили, что для рисования рук с пятью пальцами нужно 512, ну, к 2023-му дай боже построят и это (на самом деле планируют 1121). https://techcrunch.com/2022/11/09/ibm-unveils-its-433-qubit-osprey-quantum-computer/