NVIDIA và OpenAI vừa phát hành hai mô hình suy luận mở trọng số mới, gpt-oss-120b và gpt-oss-20b. Mô hình 120b có thể xử lý 1,5 triệu token mỗi giây trên một hệ thống NVIDIA GB200 NVL72 duy nhất. Điều này trở nên khả thi nhờ sự kết hợp của kiến trúc Blackwell của NVIDIA và một định dạng độ chính xác mới gọi là NVFP4. Định dạng này giúp đạt được sự cân bằng giữa độ chính xác và hiệu quả.
Điều Gì Đẩy Các Mô Hình
Điều giúp những mô hình này hoạt động hiệu quả là sự kết hợp giữa phần cứng mới và phần mềm thông minh. Chúng được đào tạo trên các GPU H100 mạnh mẽ của NVIDIA và được thiết kế để hoạt động mượt mà trên nhiều thiết bị khác nhau. Bạn có thể sử dụng chúng từ các hệ thống đám mây lớn đến các máy tính để bàn thông thường với thẻ NVIDIA RTX. Nếu bạn đã sử dụng CUDA, bạn có thể chạy những mô hình này mà không cần nhiều công sức thêm.
Cả hai mô hình cũng được đóng gói dưới dạng những gì NVIDIA gọi là "Microservices Inference." Điều này giúp các mô hình nhanh hơn và dễ dàng hơn so với trước. Bạn không cần phải xây dựng mọi thứ từ đầu. Và nếu bạn đã sử dụng các công cụ AI phổ biến như Hugging Face hoặc Llama.cpp, những mô hình này sẽ kết nối ngay lập tức.
Phần cứng Blackwell mới hơn của NVIDIA cũng đóng vai trò lớn ở đây. Nó bao gồm một tính năng gọi là NVFP4, giúp các mô hình chạy nhanh hơn và hiệu quả hơn bằng cách sử dụng các số với độ chính xác thấp hơn mà không mất đi độ chính xác. Điều đó có thể nghe có vẻ kỹ thuật, nhưng kết quả thì khá đơn giản. Nó sẽ dẫn đến AI nhanh hơn sử dụng ít năng lượng và bộ nhớ hơn. Đối với các doanh nghiệp, điều đó có thể có nghĩa là chi phí thấp hơn.
Cũng có một mối quan hệ lâu dài giữa NVIDIA và OpenAI đã giúp điều này trở thành hiện thực. Mối quan hệ này quay lại từ khi Jensen Huang thực sự giao chiếc DGX-1 đầu tiên tận tay. Những gì đang xảy ra bây giờ với chuỗi gpt-oss cảm thấy như là bước tiếp theo hợp lý trong sự hợp tác đó. Tuy nhiên, những sản phẩm đó sẽ yêu cầu sức mạnh tính toán, sự hoàn thiện và sự sẵn sàng vận hành nhiều hơn hàng triệu lần. Phần cứng, phần mềm và dịch vụ của nó đang hoạt động cùng nhau, điều này hiếm thấy ở cấp độ này.
Mở cho mọi người xây dựng
Một trong những điều quan trọng nhất về bản phát hành này là các mô hình là mở. Điều này có nghĩa là bất kỳ ai từ các công ty khởi nghiệp và các trường đại học cũng có thể làm việc trên chúng. Họ có thể xây dựng, tùy chỉnh và sử dụng chúng trong hệ thống của mình. OpenAI hiện có hơn 4 triệu nhà phát triển hoạt động trên nền tảng của mình. NVIDIA, về phần mình, có hơn 6,5 triệu nhà phát triển sử dụng các công cụ phần mềm của mình. Họ đã làm việc cùng nhau trong gần một thập kỷ, và quy mô là rất lớn. Có hàng trăm triệu GPU trên toàn thế giới chạy trên nền tảng NVIDIA CUDA. Khi công nghệ như thế này được phát hành vào một hệ sinh thái lớn và dày dạn kinh nghiệm như vậy, việc áp dụng thường diễn ra nhanh chóng. Và đó là nơi mà điều này bắt đầu cảm thấy ít giống như một buổi ra mắt và nhiều hơn như một bước ngoặt.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
NVIDIA và OpenAI đã ra mắt các mô hình lý luận mở nhanh nhất
NVIDIA và OpenAI vừa phát hành hai mô hình suy luận mở trọng số mới, gpt-oss-120b và gpt-oss-20b. Mô hình 120b có thể xử lý 1,5 triệu token mỗi giây trên một hệ thống NVIDIA GB200 NVL72 duy nhất. Điều này trở nên khả thi nhờ sự kết hợp của kiến trúc Blackwell của NVIDIA và một định dạng độ chính xác mới gọi là NVFP4. Định dạng này giúp đạt được sự cân bằng giữa độ chính xác và hiệu quả.
Điều Gì Đẩy Các Mô Hình
Điều giúp những mô hình này hoạt động hiệu quả là sự kết hợp giữa phần cứng mới và phần mềm thông minh. Chúng được đào tạo trên các GPU H100 mạnh mẽ của NVIDIA và được thiết kế để hoạt động mượt mà trên nhiều thiết bị khác nhau. Bạn có thể sử dụng chúng từ các hệ thống đám mây lớn đến các máy tính để bàn thông thường với thẻ NVIDIA RTX. Nếu bạn đã sử dụng CUDA, bạn có thể chạy những mô hình này mà không cần nhiều công sức thêm.
Cả hai mô hình cũng được đóng gói dưới dạng những gì NVIDIA gọi là "Microservices Inference." Điều này giúp các mô hình nhanh hơn và dễ dàng hơn so với trước. Bạn không cần phải xây dựng mọi thứ từ đầu. Và nếu bạn đã sử dụng các công cụ AI phổ biến như Hugging Face hoặc Llama.cpp, những mô hình này sẽ kết nối ngay lập tức.
Phần cứng Blackwell mới hơn của NVIDIA cũng đóng vai trò lớn ở đây. Nó bao gồm một tính năng gọi là NVFP4, giúp các mô hình chạy nhanh hơn và hiệu quả hơn bằng cách sử dụng các số với độ chính xác thấp hơn mà không mất đi độ chính xác. Điều đó có thể nghe có vẻ kỹ thuật, nhưng kết quả thì khá đơn giản. Nó sẽ dẫn đến AI nhanh hơn sử dụng ít năng lượng và bộ nhớ hơn. Đối với các doanh nghiệp, điều đó có thể có nghĩa là chi phí thấp hơn.
Cũng có một mối quan hệ lâu dài giữa NVIDIA và OpenAI đã giúp điều này trở thành hiện thực. Mối quan hệ này quay lại từ khi Jensen Huang thực sự giao chiếc DGX-1 đầu tiên tận tay. Những gì đang xảy ra bây giờ với chuỗi gpt-oss cảm thấy như là bước tiếp theo hợp lý trong sự hợp tác đó. Tuy nhiên, những sản phẩm đó sẽ yêu cầu sức mạnh tính toán, sự hoàn thiện và sự sẵn sàng vận hành nhiều hơn hàng triệu lần. Phần cứng, phần mềm và dịch vụ của nó đang hoạt động cùng nhau, điều này hiếm thấy ở cấp độ này.
Mở cho mọi người xây dựng
Một trong những điều quan trọng nhất về bản phát hành này là các mô hình là mở. Điều này có nghĩa là bất kỳ ai từ các công ty khởi nghiệp và các trường đại học cũng có thể làm việc trên chúng. Họ có thể xây dựng, tùy chỉnh và sử dụng chúng trong hệ thống của mình. OpenAI hiện có hơn 4 triệu nhà phát triển hoạt động trên nền tảng của mình. NVIDIA, về phần mình, có hơn 6,5 triệu nhà phát triển sử dụng các công cụ phần mềm của mình. Họ đã làm việc cùng nhau trong gần một thập kỷ, và quy mô là rất lớn. Có hàng trăm triệu GPU trên toàn thế giới chạy trên nền tảng NVIDIA CUDA. Khi công nghệ như thế này được phát hành vào một hệ sinh thái lớn và dày dạn kinh nghiệm như vậy, việc áp dụng thường diễn ra nhanh chóng. Và đó là nơi mà điều này bắt đầu cảm thấy ít giống như một buổi ra mắt và nhiều hơn như một bước ngoặt.