Лаборатория искусственного интеллекта Yandex Research в сотрудничестве с учеными из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета им. короля Абдаллы (KAUST) разработала метод сжатия крупных языковых моделей (LLM) без потери их качества. Это позволяет работать с ИИ-моделями на смартфонах и ноутбуках, исключая необходимость использования дорогих серверов и графических ускорителей.
Новый метод квантизации получил название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS). Он позволяет сжимать нейросети без дополнительных данных и сложной оптимизации параметров. Такой подход особенно эффективен в случаях, когда доступные данные для дообучения модели ограничены. Метод HIGGS оптимально сочетает качество, размер модели и сложность квантизации, что позволяет использовать ИИ-модели на различных устройствах.
С использованием HIGGS можно значительно ускорить процесс тестирования и внедрения ИИ-решений, а также сэкономить время и деньги на разработку. Это сделает ИИ-модели доступными не только для крупных компаний, но и для малых фирм, некоммерческих лабораторий, институтов, а также для индивидуальных разработчиков и исследователей. Ранее для квантизации ИИ-модели на смартфоне или ноутбуке требовалось использование дорогостоящих серверов, что занимало от нескольких часов до нескольких недель. Теперь этот процесс можно выполнить за несколько минут прямо на устройстве.
Метод HIGGS был протестирован на популярных ИИ-моделях Llama 3 и Qwen 2.5. Результаты показали, что HIGGS является наиболее эффективным методом квантизации по соотношению качества и размера модели среди всех аналогичных технологий, включая 4-bit NormalFloat и Half-Quadratic Quantization.
Метод HIGGS уже доступен для разработчиков и исследователей на платформах Hugging Face и GitHub, а также опубликован научный труд на arXiv. Кроме того, статью о новом методе приняли на одну из крупнейших мировых конференций по ИИ The North American Chapter of the Association for Computation Linguistics (NAACL), которая состоится с 29 апреля по 4 мая в Альбукерке (штат Нью-Мексико, США). Статья уже была цитирована такими организациями, как американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологий и другими.
Источник:
