Cuộc chiến giữa trăm mô hình trong lĩnh vực AI đang diễn ra sôi nổi, nhưng triển vọng thương mại vẫn chưa rõ ràng
Tháng trước, trong giới AI đã xảy ra một cuộc "chiến tranh động vật". Một bên là mô hình Llama của Meta, được các nhà phát triển ưa chuộng nhờ tính năng mã nguồn mở. Công ty NEC của Nhật Bản đã nhanh chóng phát triển phiên bản ChatGPT tiếng Nhật sau khi nghiên cứu Llama. Bên kia là mô hình lớn có tên là Falcon, ra mắt vào tháng 5 và đã vượt qua Llama để đứng đầu bảng xếp hạng LLM mã nguồn mở.
Thú vị là, Falcon không phải được phát triển bởi một công ty công nghệ, mà là do Viện Nghiên cứu Đổi mới Công nghệ Abu Dhabi của Các Tiểu vương quốc Ả Rập Thống nhất phát triển. Các quan chức của Các Tiểu vương quốc Ả Rập Thống nhất cho biết, họ tham gia vào lĩnh vực này nhằm "lật đổ những người chơi cốt lõi". Ngày sau khi phiên bản Falcon 180B được phát hành, Bộ trưởng AI của Các Tiểu vương quốc Ả Rập Thống nhất đã được chọn vào danh sách "100 người có ảnh hưởng nhất trong lĩnh vực AI" của tạp chí Time.
Hiện nay, lĩnh vực AI đã bước vào giai đoạn hàng trăm nhà tranh đấu, những quốc gia và doanh nghiệp có sức mạnh đều đang xây dựng mô hình lớn của riêng mình. Chỉ riêng ở khu vực Vịnh, Ả Rập Xê Út cũng vừa mua hơn 3000 chip H100 cho các trường đại học trong nước để đào tạo LLM.
Một nhà đầu tư đã từng phàn nàn trên mạng xã hội: "Ngày xưa không coi trọng sự đổi mới mô hình kinh doanh của Internet, cảm thấy không có rào cản. Không ngờ rằng khởi nghiệp với mô hình lớn trong công nghệ cứng vẫn là cuộc chiến của hàng trăm mô hình..."
Công nghệ cứng được cho là có rào cản cao, làm thế nào lại trở thành cuộc cạnh tranh mà ai cũng có thể tham gia?
Transformer thay đổi luật chơi
Các công ty khởi nghiệp, gã khổng lồ công nghệ và các ông trùm dầu mỏ trên toàn thế giới có thể theo đuổi giấc mơ mô hình lớn, tất cả đều nhờ vào bài báo "Attention Is All You Need" mà Google phát hành vào năm 2017. Bài báo này đã công khai thuật toán Transformer, trở thành ngòi nổ cho làn sóng AI hiện tại. Các mô hình lớn hiện nay, bất kể quốc tịch, bao gồm cả series GPT gây chấn động toàn cầu, đều được xây dựng trên nền tảng Transformer.
Trước đây, "dạy máy đọc sách" luôn là một bài toán học thuật được công nhận. Khác với nhận diện hình ảnh, khi con người đọc, họ không chỉ chú ý đến từ ngữ hiện tại mà còn kết hợp với ngữ cảnh để hiểu. Đầu vào của mạng nơ-ron sớm hoạt động độc lập với nhau, khó khăn trong việc hiểu văn bản dài hoặc thậm chí toàn bộ bài viết, vì vậy đã phát sinh các vấn đề như việc dịch "开水间" thành "open water room".
Năm 2014, sau khi làm việc tại Google, nhà khoa học máy tính Ilya Sutskever( đã chuyển sang OpenAI và đạt được những bước đột phá đầu tiên. Ông đã sử dụng mạng nơ-ron hồi tiếp)RNN( để xử lý ngôn ngữ tự nhiên, giúp hiệu suất dịch thuật của Google vượt xa các đối thủ cạnh tranh. RNN đã đề xuất "thiết kế hồi tiếp", cho phép mỗi nơ-ron vừa tiếp nhận đầu vào tại thời điểm hiện tại, vừa tiếp nhận đầu vào từ thời điểm trước đó, từ đó có khả năng "kết hợp ngữ cảnh".
Sự xuất hiện của RNN đã thổi bùng lòng nhiệt huyết nghiên cứu trong giới học thuật, tác giả bài báo Transformer Noam Shazeer) cũng đã từng đắm chìm trong đó. Tuy nhiên, các nhà phát triển nhanh chóng phát hiện ra RNN có những thiếu sót nghiêm trọng: thuật toán này sử dụng tính toán tuần tự, mặc dù có thể giải quyết vấn đề ngữ cảnh, nhưng hiệu suất chạy thấp và khó xử lý một lượng lớn tham số.
Thiết kế phức tạp của RNN khiến Shazer cảm thấy chán nản. Bắt đầu từ năm 2015, ông cùng với 7 người bạn có cùng sở thích đã bắt tay vào phát triển một sản phẩm thay thế cho RNN, và kết quả cuối cùng chính là Transformer. So với RNN, Transformer có hai đột phá lớn: thứ nhất là sử dụng mã hóa vị trí thay cho thiết kế vòng lặp, cho phép tính toán song song, nâng cao đáng kể hiệu quả huấn luyện, đưa AI vào kỷ nguyên mô hình lớn; thứ hai là nâng cao khả năng hiểu ngữ cảnh.
Transformer đã giải quyết nhiều khuyết điểm, dần trở thành giải pháp chính trong NLP( xử lý ngôn ngữ tự nhiên). Đến cả Ilya cũng đã từ bỏ RNN mà ông sáng lập, chuyển sang gia nhập đội ngũ Transformer. Có thể nói, Transformer là tổ tiên của tất cả các mô hình lớn hiện nay, nó đã biến mô hình lớn từ nghiên cứu lý thuyết thành một vấn đề thuần túy về kỹ thuật.
Năm 2019, OpenAI phát triển GPT-2 dựa trên Transformer, gây chấn động giới học thuật. Google ngay lập tức ra mắt mô hình AI mạnh mẽ hơn là Meena. So với GPT-2, Meena không có sự đổi mới trong thuật toán, chỉ tăng gấp 8,5 lần tham số huấn luyện và gấp 14 lần sức mạnh tính toán. Tác giả Transformer, Ashish Vaswani, vô cùng sốc trước kiểu "xếp chồng bạo lực" này, đã viết một bản ghi nhớ có tiêu đề "Meena nuốt chửng thế giới".
Kể từ khi Transformer ra đời, tốc độ đổi mới thuật toán ở cấp độ cơ sở trong học thuật đã giảm mạnh. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô tính toán, kiến trúc mô hình ngày càng trở thành yếu tố then chốt trong cuộc đua AI. Chỉ cần có một khả năng kỹ thuật nhất định, các công ty công nghệ đều có thể phát triển các mô hình lớn.
Nhà khoa học máy tính Andrew Ng đã phát biểu tại Đại học Stanford: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học tăng cường và hiện nay là trí tuệ nhân tạo sinh tạo. Tất cả đều là công nghệ tổng quát, tương tự như điện và internet cùng các công nghệ tổng quát khác."
OpenAI chắc chắn vẫn là tiêu chuẩn dẫn đầu trong lĩnh vực LLM, nhưng cơ quan phân tích bán dẫn Semi Analysis cho rằng, sức cạnh tranh của GPT-4 đến từ giải pháp kỹ thuật - nếu mã nguồn mở, bất kỳ đối thủ nào cũng có thể nhanh chóng sao chép. Nhà phân tích này dự đoán, có thể không lâu nữa, các công ty công nghệ lớn khác cũng có thể phát triển những mô hình lớn có hiệu suất tương đương với GPT-4.
Thành lũy được xây dựng ở đâu?
Hiện nay, "trận chiến mô hình lớn" không còn là ẩn dụ nữa, mà là thực tế. Theo báo cáo, tính đến tháng 7 năm nay, số lượng mô hình lớn ở Trung Quốc đã đạt 130 cái, vượt qua 114 cái của Mỹ, các truyền thuyết thần thoại gần như không đủ để các công ty công nghệ trong nước đặt tên.
Ngoài Trung Quốc và Mỹ, các quốc gia giàu có khác cũng đã bước đầu thực hiện "mô hình một quốc gia một mô hình": Nhật Bản, Các Tiểu vương quốc Ả Rập Thống nhất, còn có Bhashini do chính phủ Ấn Độ dẫn dắt, HyperClova X do công ty internet Hàn Quốc Naver phát triển, v.v. Cảnh tượng này dường như quay trở lại thời kỳ bong bóng internet, khi các bên đều đổ tiền vào tham gia.
Như đã đề cập trước đó, Transformer biến các mô hình lớn thành vấn đề kỹ thuật thuần túy, chỉ cần có tài chính và phần cứng, phần còn lại chỉ là tinh chỉnh tham số. Tuy nhiên, việc giảm bớt rào cản gia nhập không có nghĩa là ai cũng có thể trở thành ông lớn trong thời đại AI.
Mở đầu đề cập đến "cuộc chiến giữa các loài" chính là một ví dụ điển hình: Mặc dù Falcon đã vượt qua Llama về thứ hạng, nhưng rất khó để nói rằng nó gây ra tác động lớn đến Meta. Ai cũng biết rằng, các công ty mở nguồn các thành quả nghiên cứu của mình, vừa để chia sẻ lợi ích công nghệ, vừa mong muốn huy động trí tuệ xã hội. Khi các lĩnh vực khác nhau liên tục sử dụng và cải tiến Llama, Meta có thể áp dụng những thành quả này vào sản phẩm của mình.
Đối với các mô hình lớn mã nguồn mở, cộng đồng phát triển năng động chính là lợi thế cạnh tranh cốt lõi. Meta đã xác định con đường mã nguồn mở từ khi thành lập phòng thí nghiệm AI vào năm 2015; Zuckerberg, với nền tảng là mạng xã hội, càng hiểu rõ tầm quan trọng của "duy trì mối quan hệ với công chúng".
Ví dụ, vào tháng 10, Meta đã tổ chức sự kiện "Khuyến khích Người sáng tạo AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục, môi trường có cơ hội nhận được 500.000 USD tài trợ. Hiện nay, dòng sản phẩm Llama của Meta đã trở thành tiêu chuẩn cho các LLM mã nguồn mở.
Đến đầu tháng 10, trong top 10 bảng xếp hạng LLM mã nguồn mở của một nền tảng nổi tiếng, có 8 cái được phát triển dựa trên Llama 2, tất cả đều sử dụng giấy phép mã nguồn mở của nó. Chỉ riêng trên nền tảng này, số lượng LLM sử dụng giấy phép mã nguồn mở Llama 2 đã vượt quá 1500.
Việc nâng cao hiệu suất là khả thi, nhưng hiện tại hầu hết các LLM và GPT-4 vẫn có khoảng cách rõ rệt. Ví dụ, gần đây, GPT-4 đã giành vị trí số một trong bảng xếp hạng AgentBench với điểm số 4.41. AgentBench được Đại học Thanh Hoa và nhiều trường đại học danh tiếng của Mỹ đồng phát triển, nhằm đánh giá khả năng suy luận và ra quyết định của LLM trong môi trường tạo ra mở đa chiều.
Kết quả thử nghiệm cho thấy, người đứng thứ hai Claude chỉ đạt 2.77 điểm, khoảng cách vẫn còn khá lớn. Còn đối với những LLM mã nguồn mở rầm rộ, phần lớn điểm số dao động quanh 1 điểm, chưa đạt đến một phần tư của GPT-4. Cần biết rằng, GPT-4 được phát hành vào tháng 3 năm nay, đây vẫn là thành tích sau hơn nửa năm các đồng nghiệp toàn cầu chạy đuổi.
Nguyên nhân tạo ra sự chênh lệch này là nhờ vào đội ngũ các nhà khoa học xuất sắc của OpenAI và kinh nghiệm tích lũy từ nghiên cứu LLM lâu dài, giúp họ luôn duy trì vị trí hàng đầu. Nói cách khác, khả năng cốt lõi của mô hình lớn không nằm ở số lượng tham số, mà nằm ở việc xây dựng hệ sinh thái ( mã nguồn mở ) hoặc khả năng suy luận thuần túy ( mã nguồn đóng ).
Khi cộng đồng mã nguồn mở ngày càng sôi động, hiệu suất của các LLM có thể trở nên đồng nhất, vì mọi người đều sử dụng các kiến trúc mô hình và tập dữ liệu tương tự. Một vấn đề rõ ràng hơn là: ngoài Midjourney, dường như chưa có mô hình lớn nào có thể đạt được lợi nhuận.
Tìm kiếm điểm neo giá trị
Vào tháng 8 năm nay, một bài viết có tiêu đề "OpenAI có thể sẽ phá sản vào cuối năm 2024" đã thu hút sự chú ý. Ý chính của bài viết có thể được tóm gọn trong một câu: Tốc độ tiêu tiền của OpenAI quá nhanh.
Bài viết đề cập rằng, kể từ khi phát triển ChatGPT, OpenAI đã nhanh chóng mở rộng thua lỗ, với khoản lỗ khoảng 540 triệu USD vào năm 2022, chỉ có thể dựa vào đầu tư của Microsoft để duy trì. Mặc dù tiêu đề của bài viết gây sốc, nhưng nó cũng phản ánh tình trạng của nhiều nhà cung cấp mô hình lớn: chi phí và doanh thu đang mất cân bằng nghiêm trọng.
Chi phí quá cao dẫn đến việc hiện tại chỉ có Nvidia thực sự kiếm được nhiều tiền từ AI, có thể thêm Broadcom nữa. Theo công ty tư vấn Omdia, Nvidia đã bán được hơn 300.000 chip H100 trong quý hai năm nay. Đây là một loại chip AI hiệu quả, các công ty công nghệ và tổ chức nghiên cứu trên toàn cầu đang cạnh tranh mua. Nếu chồng 300.000 chip H100 lên nhau, trọng lượng tương đương với 4,5 chiếc máy bay Boeing 747.
Doanh thu của Nvidia đã tăng vọt, tăng 854% so với cùng kỳ năm trước, khiến Phố Wall không khỏi kinh ngạc. Đáng chú ý là giá của H100 trên thị trường thứ cấp đã bị đẩy lên từ 40.000 đến 50.000 USD, trong khi chi phí vật liệu chỉ khoảng 3.000 USD.
Chi phí tính toán cao đã trở thành một rào cản cho sự phát triển của ngành công nghiệp ở một mức độ nào đó. Sequoia Capital từng ước tính: Các công ty công nghệ toàn cầu dự kiến sẽ chi 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; trong khi đó, mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu mỗi năm, có khoảng cách ít nhất 125 tỷ USD.
Ngoài ra, trừ một số ngoại lệ như Midjourney, hầu hết các công ty phần mềm sau khi đầu tư một khoản chi phí khổng lồ vẫn chưa tìm ra mô hình có lợi nhuận. Ngay cả những người dẫn đầu trong ngành như Microsoft và Adobe cũng đang phải đối mặt với những thách thức.
Công cụ tạo mã AI GitHub Copilot do Microsoft hợp tác với OpenAI phát triển, dù mỗi tháng thu phí 10 đô la, nhưng do chi phí cơ sở, Microsoft lại lỗ 20 đô la mỗi tháng, người dùng nặng thậm chí có thể khiến Microsoft lỗ 80 đô la mỗi tháng. Từ đó suy ra, Microsoft 365 Copilot có giá 30 đô la có thể lỗ nhiều hơn.
Tương tự, Adobe vừa ra mắt công cụ Firefly AI cũng nhanh chóng triển khai hệ thống điểm đi kèm, nhằm ngăn chặn việc người dùng sử dụng quá mức dẫn đến thua lỗ cho công ty. Khi người dùng vượt quá số điểm được phân bổ hàng tháng, Adobe sẽ giảm tốc độ dịch vụ.
Cần lưu ý rằng, Microsoft và Adobe đã là những gã khổng lồ phần mềm với các kịch bản kinh doanh rõ ràng và có nhiều người dùng trả phí. Trong khi đó, hầu hết các mô hình lớn với nhiều tham số vẫn chủ yếu được sử dụng trong lĩnh vực trò chuyện.
Không thể phủ nhận rằng nếu không có sự ra đời của OpenAI và ChatGPT, cuộc cách mạng AI này có thể sẽ không xảy ra; nhưng hiện tại, giá trị do việc huấn luyện các mô hình lớn mang lại vẫn còn nghi vấn. Khi sự cạnh tranh đồng nhất gia tăng và số lượng mô hình mã nguồn mở tăng lên, các nhà cung cấp mô hình lớn đơn thuần có thể phải đối mặt với những thách thức lớn hơn.
Sự thành công của iPhone 4 không nằm ở bộ vi xử lý A4 quy trình 45nm, mà ở chỗ nó có thể chơi các ứng dụng như Plants vs Zombies và Angry Birds.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
20 thích
Phần thưởng
20
4
Chia sẻ
Bình luận
0/400
RektButStillHere
· 6giờ trước
Có tiền thật sự có thể làm mọi thứ, quá vô lý.
Xem bản gốcTrả lời0
SigmaBrain
· 07-30 01:56
Đồ chơi quá tuyệt vời, thật sự có chút tiền ném vào là muốn đảo lộn.
Xem bản gốcTrả lời0
FrogInTheWell
· 07-30 01:53
Tham vọng của Các Tiểu vương quốc Ả Rập Thống nhất lần này thật lớn.
Xem bản gốcTrả lời0
WalletDetective
· 07-30 01:40
Phát triển cái gì chứ, cuối cùng cũng phải xem độ dày của Ví tiền.
Đằng sau cuộc chiến AI百模: Thả rào cản kỹ thuật, triển vọng kinh doanh vẫn không rõ ràng
Cuộc chiến giữa trăm mô hình trong lĩnh vực AI đang diễn ra sôi nổi, nhưng triển vọng thương mại vẫn chưa rõ ràng
Tháng trước, trong giới AI đã xảy ra một cuộc "chiến tranh động vật". Một bên là mô hình Llama của Meta, được các nhà phát triển ưa chuộng nhờ tính năng mã nguồn mở. Công ty NEC của Nhật Bản đã nhanh chóng phát triển phiên bản ChatGPT tiếng Nhật sau khi nghiên cứu Llama. Bên kia là mô hình lớn có tên là Falcon, ra mắt vào tháng 5 và đã vượt qua Llama để đứng đầu bảng xếp hạng LLM mã nguồn mở.
Thú vị là, Falcon không phải được phát triển bởi một công ty công nghệ, mà là do Viện Nghiên cứu Đổi mới Công nghệ Abu Dhabi của Các Tiểu vương quốc Ả Rập Thống nhất phát triển. Các quan chức của Các Tiểu vương quốc Ả Rập Thống nhất cho biết, họ tham gia vào lĩnh vực này nhằm "lật đổ những người chơi cốt lõi". Ngày sau khi phiên bản Falcon 180B được phát hành, Bộ trưởng AI của Các Tiểu vương quốc Ả Rập Thống nhất đã được chọn vào danh sách "100 người có ảnh hưởng nhất trong lĩnh vực AI" của tạp chí Time.
Hiện nay, lĩnh vực AI đã bước vào giai đoạn hàng trăm nhà tranh đấu, những quốc gia và doanh nghiệp có sức mạnh đều đang xây dựng mô hình lớn của riêng mình. Chỉ riêng ở khu vực Vịnh, Ả Rập Xê Út cũng vừa mua hơn 3000 chip H100 cho các trường đại học trong nước để đào tạo LLM.
Một nhà đầu tư đã từng phàn nàn trên mạng xã hội: "Ngày xưa không coi trọng sự đổi mới mô hình kinh doanh của Internet, cảm thấy không có rào cản. Không ngờ rằng khởi nghiệp với mô hình lớn trong công nghệ cứng vẫn là cuộc chiến của hàng trăm mô hình..."
Công nghệ cứng được cho là có rào cản cao, làm thế nào lại trở thành cuộc cạnh tranh mà ai cũng có thể tham gia?
Transformer thay đổi luật chơi
Các công ty khởi nghiệp, gã khổng lồ công nghệ và các ông trùm dầu mỏ trên toàn thế giới có thể theo đuổi giấc mơ mô hình lớn, tất cả đều nhờ vào bài báo "Attention Is All You Need" mà Google phát hành vào năm 2017. Bài báo này đã công khai thuật toán Transformer, trở thành ngòi nổ cho làn sóng AI hiện tại. Các mô hình lớn hiện nay, bất kể quốc tịch, bao gồm cả series GPT gây chấn động toàn cầu, đều được xây dựng trên nền tảng Transformer.
Trước đây, "dạy máy đọc sách" luôn là một bài toán học thuật được công nhận. Khác với nhận diện hình ảnh, khi con người đọc, họ không chỉ chú ý đến từ ngữ hiện tại mà còn kết hợp với ngữ cảnh để hiểu. Đầu vào của mạng nơ-ron sớm hoạt động độc lập với nhau, khó khăn trong việc hiểu văn bản dài hoặc thậm chí toàn bộ bài viết, vì vậy đã phát sinh các vấn đề như việc dịch "开水间" thành "open water room".
Năm 2014, sau khi làm việc tại Google, nhà khoa học máy tính Ilya Sutskever( đã chuyển sang OpenAI và đạt được những bước đột phá đầu tiên. Ông đã sử dụng mạng nơ-ron hồi tiếp)RNN( để xử lý ngôn ngữ tự nhiên, giúp hiệu suất dịch thuật của Google vượt xa các đối thủ cạnh tranh. RNN đã đề xuất "thiết kế hồi tiếp", cho phép mỗi nơ-ron vừa tiếp nhận đầu vào tại thời điểm hiện tại, vừa tiếp nhận đầu vào từ thời điểm trước đó, từ đó có khả năng "kết hợp ngữ cảnh".
Sự xuất hiện của RNN đã thổi bùng lòng nhiệt huyết nghiên cứu trong giới học thuật, tác giả bài báo Transformer Noam Shazeer) cũng đã từng đắm chìm trong đó. Tuy nhiên, các nhà phát triển nhanh chóng phát hiện ra RNN có những thiếu sót nghiêm trọng: thuật toán này sử dụng tính toán tuần tự, mặc dù có thể giải quyết vấn đề ngữ cảnh, nhưng hiệu suất chạy thấp và khó xử lý một lượng lớn tham số.
Thiết kế phức tạp của RNN khiến Shazer cảm thấy chán nản. Bắt đầu từ năm 2015, ông cùng với 7 người bạn có cùng sở thích đã bắt tay vào phát triển một sản phẩm thay thế cho RNN, và kết quả cuối cùng chính là Transformer. So với RNN, Transformer có hai đột phá lớn: thứ nhất là sử dụng mã hóa vị trí thay cho thiết kế vòng lặp, cho phép tính toán song song, nâng cao đáng kể hiệu quả huấn luyện, đưa AI vào kỷ nguyên mô hình lớn; thứ hai là nâng cao khả năng hiểu ngữ cảnh.
Transformer đã giải quyết nhiều khuyết điểm, dần trở thành giải pháp chính trong NLP( xử lý ngôn ngữ tự nhiên). Đến cả Ilya cũng đã từ bỏ RNN mà ông sáng lập, chuyển sang gia nhập đội ngũ Transformer. Có thể nói, Transformer là tổ tiên của tất cả các mô hình lớn hiện nay, nó đã biến mô hình lớn từ nghiên cứu lý thuyết thành một vấn đề thuần túy về kỹ thuật.
Năm 2019, OpenAI phát triển GPT-2 dựa trên Transformer, gây chấn động giới học thuật. Google ngay lập tức ra mắt mô hình AI mạnh mẽ hơn là Meena. So với GPT-2, Meena không có sự đổi mới trong thuật toán, chỉ tăng gấp 8,5 lần tham số huấn luyện và gấp 14 lần sức mạnh tính toán. Tác giả Transformer, Ashish Vaswani, vô cùng sốc trước kiểu "xếp chồng bạo lực" này, đã viết một bản ghi nhớ có tiêu đề "Meena nuốt chửng thế giới".
Kể từ khi Transformer ra đời, tốc độ đổi mới thuật toán ở cấp độ cơ sở trong học thuật đã giảm mạnh. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô tính toán, kiến trúc mô hình ngày càng trở thành yếu tố then chốt trong cuộc đua AI. Chỉ cần có một khả năng kỹ thuật nhất định, các công ty công nghệ đều có thể phát triển các mô hình lớn.
Nhà khoa học máy tính Andrew Ng đã phát biểu tại Đại học Stanford: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học tăng cường và hiện nay là trí tuệ nhân tạo sinh tạo. Tất cả đều là công nghệ tổng quát, tương tự như điện và internet cùng các công nghệ tổng quát khác."
OpenAI chắc chắn vẫn là tiêu chuẩn dẫn đầu trong lĩnh vực LLM, nhưng cơ quan phân tích bán dẫn Semi Analysis cho rằng, sức cạnh tranh của GPT-4 đến từ giải pháp kỹ thuật - nếu mã nguồn mở, bất kỳ đối thủ nào cũng có thể nhanh chóng sao chép. Nhà phân tích này dự đoán, có thể không lâu nữa, các công ty công nghệ lớn khác cũng có thể phát triển những mô hình lớn có hiệu suất tương đương với GPT-4.
Thành lũy được xây dựng ở đâu?
Hiện nay, "trận chiến mô hình lớn" không còn là ẩn dụ nữa, mà là thực tế. Theo báo cáo, tính đến tháng 7 năm nay, số lượng mô hình lớn ở Trung Quốc đã đạt 130 cái, vượt qua 114 cái của Mỹ, các truyền thuyết thần thoại gần như không đủ để các công ty công nghệ trong nước đặt tên.
Ngoài Trung Quốc và Mỹ, các quốc gia giàu có khác cũng đã bước đầu thực hiện "mô hình một quốc gia một mô hình": Nhật Bản, Các Tiểu vương quốc Ả Rập Thống nhất, còn có Bhashini do chính phủ Ấn Độ dẫn dắt, HyperClova X do công ty internet Hàn Quốc Naver phát triển, v.v. Cảnh tượng này dường như quay trở lại thời kỳ bong bóng internet, khi các bên đều đổ tiền vào tham gia.
Như đã đề cập trước đó, Transformer biến các mô hình lớn thành vấn đề kỹ thuật thuần túy, chỉ cần có tài chính và phần cứng, phần còn lại chỉ là tinh chỉnh tham số. Tuy nhiên, việc giảm bớt rào cản gia nhập không có nghĩa là ai cũng có thể trở thành ông lớn trong thời đại AI.
Mở đầu đề cập đến "cuộc chiến giữa các loài" chính là một ví dụ điển hình: Mặc dù Falcon đã vượt qua Llama về thứ hạng, nhưng rất khó để nói rằng nó gây ra tác động lớn đến Meta. Ai cũng biết rằng, các công ty mở nguồn các thành quả nghiên cứu của mình, vừa để chia sẻ lợi ích công nghệ, vừa mong muốn huy động trí tuệ xã hội. Khi các lĩnh vực khác nhau liên tục sử dụng và cải tiến Llama, Meta có thể áp dụng những thành quả này vào sản phẩm của mình.
Đối với các mô hình lớn mã nguồn mở, cộng đồng phát triển năng động chính là lợi thế cạnh tranh cốt lõi. Meta đã xác định con đường mã nguồn mở từ khi thành lập phòng thí nghiệm AI vào năm 2015; Zuckerberg, với nền tảng là mạng xã hội, càng hiểu rõ tầm quan trọng của "duy trì mối quan hệ với công chúng".
Ví dụ, vào tháng 10, Meta đã tổ chức sự kiện "Khuyến khích Người sáng tạo AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục, môi trường có cơ hội nhận được 500.000 USD tài trợ. Hiện nay, dòng sản phẩm Llama của Meta đã trở thành tiêu chuẩn cho các LLM mã nguồn mở.
Đến đầu tháng 10, trong top 10 bảng xếp hạng LLM mã nguồn mở của một nền tảng nổi tiếng, có 8 cái được phát triển dựa trên Llama 2, tất cả đều sử dụng giấy phép mã nguồn mở của nó. Chỉ riêng trên nền tảng này, số lượng LLM sử dụng giấy phép mã nguồn mở Llama 2 đã vượt quá 1500.
Việc nâng cao hiệu suất là khả thi, nhưng hiện tại hầu hết các LLM và GPT-4 vẫn có khoảng cách rõ rệt. Ví dụ, gần đây, GPT-4 đã giành vị trí số một trong bảng xếp hạng AgentBench với điểm số 4.41. AgentBench được Đại học Thanh Hoa và nhiều trường đại học danh tiếng của Mỹ đồng phát triển, nhằm đánh giá khả năng suy luận và ra quyết định của LLM trong môi trường tạo ra mở đa chiều.
Kết quả thử nghiệm cho thấy, người đứng thứ hai Claude chỉ đạt 2.77 điểm, khoảng cách vẫn còn khá lớn. Còn đối với những LLM mã nguồn mở rầm rộ, phần lớn điểm số dao động quanh 1 điểm, chưa đạt đến một phần tư của GPT-4. Cần biết rằng, GPT-4 được phát hành vào tháng 3 năm nay, đây vẫn là thành tích sau hơn nửa năm các đồng nghiệp toàn cầu chạy đuổi.
Nguyên nhân tạo ra sự chênh lệch này là nhờ vào đội ngũ các nhà khoa học xuất sắc của OpenAI và kinh nghiệm tích lũy từ nghiên cứu LLM lâu dài, giúp họ luôn duy trì vị trí hàng đầu. Nói cách khác, khả năng cốt lõi của mô hình lớn không nằm ở số lượng tham số, mà nằm ở việc xây dựng hệ sinh thái ( mã nguồn mở ) hoặc khả năng suy luận thuần túy ( mã nguồn đóng ).
Khi cộng đồng mã nguồn mở ngày càng sôi động, hiệu suất của các LLM có thể trở nên đồng nhất, vì mọi người đều sử dụng các kiến trúc mô hình và tập dữ liệu tương tự. Một vấn đề rõ ràng hơn là: ngoài Midjourney, dường như chưa có mô hình lớn nào có thể đạt được lợi nhuận.
Tìm kiếm điểm neo giá trị
Vào tháng 8 năm nay, một bài viết có tiêu đề "OpenAI có thể sẽ phá sản vào cuối năm 2024" đã thu hút sự chú ý. Ý chính của bài viết có thể được tóm gọn trong một câu: Tốc độ tiêu tiền của OpenAI quá nhanh.
Bài viết đề cập rằng, kể từ khi phát triển ChatGPT, OpenAI đã nhanh chóng mở rộng thua lỗ, với khoản lỗ khoảng 540 triệu USD vào năm 2022, chỉ có thể dựa vào đầu tư của Microsoft để duy trì. Mặc dù tiêu đề của bài viết gây sốc, nhưng nó cũng phản ánh tình trạng của nhiều nhà cung cấp mô hình lớn: chi phí và doanh thu đang mất cân bằng nghiêm trọng.
Chi phí quá cao dẫn đến việc hiện tại chỉ có Nvidia thực sự kiếm được nhiều tiền từ AI, có thể thêm Broadcom nữa. Theo công ty tư vấn Omdia, Nvidia đã bán được hơn 300.000 chip H100 trong quý hai năm nay. Đây là một loại chip AI hiệu quả, các công ty công nghệ và tổ chức nghiên cứu trên toàn cầu đang cạnh tranh mua. Nếu chồng 300.000 chip H100 lên nhau, trọng lượng tương đương với 4,5 chiếc máy bay Boeing 747.
Doanh thu của Nvidia đã tăng vọt, tăng 854% so với cùng kỳ năm trước, khiến Phố Wall không khỏi kinh ngạc. Đáng chú ý là giá của H100 trên thị trường thứ cấp đã bị đẩy lên từ 40.000 đến 50.000 USD, trong khi chi phí vật liệu chỉ khoảng 3.000 USD.
Chi phí tính toán cao đã trở thành một rào cản cho sự phát triển của ngành công nghiệp ở một mức độ nào đó. Sequoia Capital từng ước tính: Các công ty công nghệ toàn cầu dự kiến sẽ chi 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; trong khi đó, mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu mỗi năm, có khoảng cách ít nhất 125 tỷ USD.
Ngoài ra, trừ một số ngoại lệ như Midjourney, hầu hết các công ty phần mềm sau khi đầu tư một khoản chi phí khổng lồ vẫn chưa tìm ra mô hình có lợi nhuận. Ngay cả những người dẫn đầu trong ngành như Microsoft và Adobe cũng đang phải đối mặt với những thách thức.
Công cụ tạo mã AI GitHub Copilot do Microsoft hợp tác với OpenAI phát triển, dù mỗi tháng thu phí 10 đô la, nhưng do chi phí cơ sở, Microsoft lại lỗ 20 đô la mỗi tháng, người dùng nặng thậm chí có thể khiến Microsoft lỗ 80 đô la mỗi tháng. Từ đó suy ra, Microsoft 365 Copilot có giá 30 đô la có thể lỗ nhiều hơn.
Tương tự, Adobe vừa ra mắt công cụ Firefly AI cũng nhanh chóng triển khai hệ thống điểm đi kèm, nhằm ngăn chặn việc người dùng sử dụng quá mức dẫn đến thua lỗ cho công ty. Khi người dùng vượt quá số điểm được phân bổ hàng tháng, Adobe sẽ giảm tốc độ dịch vụ.
Cần lưu ý rằng, Microsoft và Adobe đã là những gã khổng lồ phần mềm với các kịch bản kinh doanh rõ ràng và có nhiều người dùng trả phí. Trong khi đó, hầu hết các mô hình lớn với nhiều tham số vẫn chủ yếu được sử dụng trong lĩnh vực trò chuyện.
Không thể phủ nhận rằng nếu không có sự ra đời của OpenAI và ChatGPT, cuộc cách mạng AI này có thể sẽ không xảy ra; nhưng hiện tại, giá trị do việc huấn luyện các mô hình lớn mang lại vẫn còn nghi vấn. Khi sự cạnh tranh đồng nhất gia tăng và số lượng mô hình mã nguồn mở tăng lên, các nhà cung cấp mô hình lớn đơn thuần có thể phải đối mặt với những thách thức lớn hơn.
Sự thành công của iPhone 4 không nằm ở bộ vi xử lý A4 quy trình 45nm, mà ở chỗ nó có thể chơi các ứng dụng như Plants vs Zombies và Angry Birds.