Η στρατηγική ξεπέρασε τις υπάρχουσες μεθόδους και μοντέλα σε διάφορα benchmarks και το αποτέλεσμα έδειξε καλύτερες επιδόσεις με λιγότερους υπολογιστικούς πόρους, σύμφωνα με το έγγραφο που επικαλείται το Bloomberg.
Η DeepSeek ονομάζει αυτά τα νέα μοντέλα DeepSeek-GRM – συντομογραφία για τη «γενικευμένη μοντελοποίηση ανταμοιβής» – και θα τα κυκλοφορήσει σε βάση ανοιχτού κώδικα, δήλωσε η εταιρεία.
Άλλοι προγραμματιστές τεχνητής νοημοσύνης, συμπεριλαμβανομένου του κινεζικού τεχνολογικού γίγαντα Alibaba Group Holding Ltd. και της OpenAI με έδρα το Σαν Φρανσίσκο, προωθούνται επίσης σε ένα νέο σύνορο βελτίωσης της συλλογιστικής και των δυνατοτήτων αυτο-αναβάθμισης, ενώ ένα μοντέλο τεχνητής νοημοσύνης εκτελεί εργασίες σε πραγματικό χρόνο.
Η Meta Platforms Inc. με έδρα το Menlo Park της Καλιφόρνιας κυκλοφόρησε την τελευταία οικογένεια μοντέλων τεχνητής νοημοσύνης, το Llama 4, το Σαββατοκύριακο και τα χαρακτήρισε ως τα πρώτα που χρησιμοποιούν την αρχιτεκτονική Mixture of Experts (MoE).
Τα μοντέλα της DeepSeek βασίζονται σημαντικά στην MoE για την αποδοτικότερη χρήση των πόρων και η Meta έκανε συγκριτική αξιολόγηση της νέας της έκδοσης με τη νεοσύστατη εταιρεία με έδρα την Hangzhou. Η DeepSeek δεν έχει διευκρινίσει πότε μπορεί να κυκλοφορήσει το επόμενο μοντέλο-ναυαρχίδα της.