Блог пользователя beaaaan

Автор beaaaan, история, 5 недель назад, По-английски

Apparently, it's codeforces performance beats both o1-mini, o1 and deepseek r1 in codeforces rating:

It's price is on par with o1-mini, I guess they felt the heat from deepseek r1:

  • Проголосовать: нравится
  • +5
  • Проголосовать: не нравится

»
5 недель назад, # |
  Проголосовать: нравится +20 Проголосовать: не нравится

o1 is claimed to be 1800 and it fails div2b, i'm suspicious of this

»
5 недель назад, # |
  Проголосовать: нравится +8 Проголосовать: не нравится

I just tested it on all the problems that Deepseek R1 failed that I had tested (from https://codeforces.net/blog/entry/138735 ), it solved all of them (though it took 2 attempts on Maximum AND Queries (Easy version)). I also tested it on Paint a Strip, which o1-pro (which was 200$) wasn't able to solve.

I'm also on the free plan, meaning my o3-mini is on low compute (if it means anything, it also has way shorter wait times)

»
5 недель назад, # |
Rev. 2   Проголосовать: нравится +3 Проголосовать: не нравится

nvm

  • »
    »
    5 недель назад, # ^ |
      Проголосовать: нравится 0 Проголосовать: не нравится

    the edit...

    It's nice to know that the lower rated problems aren't entirely screwed, though it's a bit nerve wracking seeing it solve problems on the free plan that it used to not be able to solve on the 200$ plan

»
5 недель назад, # |
Rev. 2   Проголосовать: нравится 0 Проголосовать: не нравится
  • »
    »
    5 недель назад, # ^ |
      Проголосовать: нравится +3 Проголосовать: не нравится

    Note: o3-mini has already achieved a rating(allegedly) of 2130 (above cf master) with the setting set to high reasoning.

»
5 недель назад, # |
Rev. 2   Проголосовать: нравится 0 Проголосовать: не нравится

If you have access to this model, please try this question — 2060D - Subtract Min Sort. This is a simple 1100 rated problem that DeepSeek-R1 gets wrong despite me giving it more than enough hints.

(update: I tried it myself. It failed on first but after giving it a very obvious hint, it was able to solve it. https://chatgpt.com/share/679e03a1-e82c-8004-b362-a745b412bf52)

»
5 недель назад, # |
Rev. 2   Проголосовать: нравится +32 Проголосовать: не нравится

cf is cooked

»
5 недель назад, # |
  Проголосовать: нравится +1 Проголосовать: не нравится

well its not gpt-o7 yet xdd

»
5 недель назад, # |
Rev. 2   Проголосовать: нравится 0 Проголосовать: не нравится

2036 is medium version. High version is 2130. Only 2400 people higher right now.

»
4 недели назад, # |
  Проголосовать: нравится +8 Проголосовать: не нравится

I tried o3-mini-high on last completed round. I tried for A, B, C, D, E1.

Results:

A -> solved in 1m 12s

B -> solved in 2m 17s

C -> WA on test 2 (surprising, I thought it'll be able crack this)

D -> WA on test 1

E1 -> WA on test 2

»
4 недели назад, # |
  Проголосовать: нравится +2 Проголосовать: не нравится

Gpt o3 mini low is really insane, it has solved almost all the problem i've asked upto 1900 rated.It's going to ruin all the fun. I think codeforces rating system just got cooked,as free users can access it.Contests should be unrated untill they find any solutions.

»
4 недели назад, # |
  Проголосовать: нравится 0 Проголосовать: не нравится

I have access to R1 Pro and it runs out of token before answering any problems. LOL

»
4 недели назад, # |
  Проголосовать: нравится 0 Проголосовать: не нравится

Bruh, o3 will beat me for sure...

  • »
    »
    4 недели назад, # ^ |
      Проголосовать: нравится -12 Проголосовать: не нравится

    I don't think so, these models most probably solving problems whose solutions are already available on internet.