360-推荐算法

一面

算法题:1. 非递归的二叉树中序遍历;2. 指定概率列表,写一个随机采样算法

  1. 介绍竞赛
  2. 召回的多样性
  3. 数据规模
  4. ANN使用的什么工具
  5. 点击率预估为什么选择 lgb
  6. 排序为什么不使用基于 pair wise 的模型
  7. 了解 LambdaMart 算法吗
  8. lightgbm 相较于 xgboost 的优势
  9. 了解的其他点击率预估算法
  10. 对特征交叉方面的个人理解
  11. wide & deep 模型 wide 部分和 deep 部分分别侧重学习什么信息
  12. deepfm 一定优于 wide & deep 吗
  13. 如何解决稀疏问题(回答的 hash embedding,不知道对不对)
  14. 在模型侧如何打压热门商品

二面

  1. 介绍比赛背景
  2. 怎么分工的,你负责的部分
  3. 为什么使用 w2v,有试过其他 embedding 工具吗
  4. w2v 的参数怎么调节的
  5. w2v 的 min_count 设置的多大,从什么方面考虑的
  6. 介绍 NN 的结构
  7. 怎么调参的
  8. 了解哪些正则化方法(layernorm,batchnom)
  9. 上面两者有什么区别
  10. 有没有遇到过梯度消失,梯度爆炸,怎么解决的
  11. 多任务模型结构了解吗
  12. 知道哪些点击率预估模型
  13. 点击率预估任务中负样本过多怎么办
  14. 下采样后,训练样本和线上 server 样本分布不一样怎么办(纠偏公式)
  15. 冷启动该怎么做
  16. 开放题:现在做一个搜索系统,你会考虑哪些东西,各方面都行
  17. 未来的职业规划

百度-推荐算法

一面

算法题:leetcode 34

  1. 研究方向
  2. 学习的课程
  3. 推荐流程中哪一步最重要
  4. 怎么办精排做的更准
  5. 特征挖掘比较核心的技术
  6. 特征挖掘方面,深度学习比机器学习的优点
  7. 深度学习有能力做特征交叉,那哪些部分还需要我们人工去做
  8. 如何解决新特征没有embedding的问题
  9. 面对一个新的深度模型,如何去分析(参数,结构)
  10. 介绍比赛
  11. 比赛分工
  12. word2vec 向量作为embedding层初始化能提升多少效率
  13. word2vec 工作原理
  14. 负采样的原理是什么
  15. 二分类的损失函数
  16. 多分类的损失函数
  17. sofamax公式是啥
  18. 用的什么优化算法,为什么
  19. 你的模型和别人相比有什么优点
  20. 模型集成是模型越多越好吗
  21. 模型的差异体现在哪里
  22. 如何判断新加的特征是否有效
  23. MapReduce的原理知道吗

二面

算法题:leetcode 1047

  1. 介绍比赛
  2. 比赛分工
  3. itemcf如何改进的
  4. 手写itemcf伪代码
  5. 工业上召回怎么做的(双塔)
  6. 为什么物品的embedding离线生成,用户的embedding是在线计算,能反过来吗
  7. 如果只有用户历史点击序列,怎么生成用户和物品的embedding
  8. word2vec和bert有什么区别
  9. 召回的样本标签怎么构造

三面

聊实习,聊项目,聊人生

触宝-推荐算法

一面

算法题:Leetcode 15. 三数之和

  1. 介绍竞赛
  2. 多路召回的介绍
  3. 为什么选择lgb做点击率预测
  4. 后处理打压的原因和做法
  5. 为什么用transformer对有序序列处理
  6. transformer里残差连接的作用

二面

  1. 简述树的前序遍历,中序遍历,后序遍历
  2. 什么是排序算法的稳定性,哪些排序算法是稳定的
  3. 了解哪些传统的分类算法
  4. FM了解吗
  5. xgboost了解吗
  6. 梯度消失和梯度爆炸,解决方法
  7. dropout和batchnorm可以放在一起用吗,顺序是怎么样的
  8. 数值特征放到神经网络之前需要做哪些处理
  9. 如何在端到端中进行自动分桶
  10. 如何保证用户向量和物品向量在一个向量空间
  11. 多任务学习了解吗
  12. 多任务loss怎么结合
  13. 联合训练和交替训练的区别
  14. 推荐的整体流程
  15. 召回有哪些做法
  16. 精排模型有哪些
  17. 推荐有哪些指标
  18. auc的变种
  19. 推荐有哪些在线指标
  20. 介绍竞赛项目
  21. 如何评估NN的特征重要性
  22. 树模型的特征重要性怎么计算的
  23. 现在反思项目有哪些优化点
  24. 竞赛如何分工合作的

三面

  1. 介绍竞赛
  2. 如果有新的商品上架,优化摆放位置,如何建模,有什么约束
  3. 对触宝的了解
  4. 以后的打算

华为-消费者BG

一面(FX计划挂)

算法题:Leetcode 200. 岛屿数量 Leetcode 397. 整数替换

  1. 介绍比赛
  2. 介绍研究方向
  3. 介绍聚类kmeans,还知道哪些聚类方法
  4. 如何确定聚类数量
  5. 介绍KNN
  6. TF-IDF 计算方法
  7. 余弦距离和欧氏距离区别
  8. 卷积神经网络的变种有哪些
  9. 深度学习克服过拟合的方法
  10. dropout在循环神经网络需要注意什么

一面(正式批)

算法题:Leetcode 1143. 最长公共子序列

  1. 说一下笔试题的思路
  2. 介绍竞赛
  3. 介绍实习

二面

算法题:大数据找中位数

  1. 介绍研究内容、研究背景、指标提升情况
  2. 任选一个竞赛讲一下
  3. 基于图片emb的召回和基于文本emb的召回哪个效果好,为什么

三面

没问技术问题,忽略

shein-推荐算法

一面(挂)

算法题:leetcode 802. 找到最终的安全状态

  1. 介绍比赛
  2. ndcg计算方式
  3. 如果使用auc,而不用ndcg,会有什么问题
  4. 集成模型bagging和boosting的区别
  5. bagging和boosting在偏差和方差上的区别
  6. xgboost和gbdt的区别
  7. xgboost的叶子生成方式
  8. lightgbm在计算速度上做了哪些优化
  9. 模型打压热门有哪些做法
  10. 知道ee吗
  11. skip-gram和cbow的区别
  12. skip-gram和cbow哪一个预测速度快
  13. skip-gram和cbow哪一个对稀疏词效果好
  14. skip-gram 负采样和分层softmax的时间复杂度各是多少
  15. multi-head的作用是什么
  16. self-attention为什么要缩放

拼多多-推荐算法

一面

算法题:Leetcode 82. 删除排序链表中的重复元素 II

  1. 介绍简历上的竞赛
  2. 介绍ANN的召回
  3. 工业界中,排序使用召回的信息会有什么问题
  4. 工业界中,w2v向量做为Embedding层初始化会有什么问题
  5. 比赛分工

二面

算法题:股票一次买入和卖出,求最佳收益和买入卖出点

  1. 介绍竞赛
  2. 介绍研究方向
  3. 如果资源无限,去掉前置的召回阶段,直接进行全量的排序,模型的效果会有什么影响
  4. 深度学习在推荐方面的应用

三面

  1. 了解拼多多吗
  2. 为什么想做推荐
  3. 从哪些地方了解的相关知识
  4. 介绍推荐系统
  5. 双塔召回为什么离线索引物品embedding
  6. 概率题:北京一般有雾霾的概率是1/4,有三个同事都说今天有雾霾,但他们说真话的概率为3/4,问今天真的有雾霾的概率是多少。

哔哩哔哩-广告推荐算法

一面

算法题:leetcode 518. 零钱兑换 II

  1. 介绍多任务工作
  2. 介绍优化器算法,演化进程
  3. LR有大量的特征交叉,如何做特征筛选
  4. L1和L2正则化的区别
  5. 神经网络初始化方法
  6. 神经网络都初始化成相同的参数会有什么影响,如何缓解
  7. 粗排是怎么做

二面

问实习,问未来打算

阿里巴巴-淘特-推荐广告

一面

  1. 介绍实习
  2. 端外的转换label怎么得到的
  3. 介绍竞赛

二面

  1. 介绍实习
  2. 阿里和字节算法的优缺点
  3. 介绍广告整体的请求背景
  4. 介绍现在推荐的热点,发展方向

美团-广告推荐算法

一面

  1. 介绍实习内容
  2. 多任务的 loss 怎么设计
  3. 有没有考虑辅助任务带偏主任务的情况
  4. 在线指标有哪些
  5. 广告主价值是什么
  6. 多任务更应该关注哪些在线指标
  7. 为什么要下掉ID类特征
  8. ocpx里的 bid 出价指什么
  9. 过拟合的解决方式
  10. dropout原理
  11. 广告系统的有哪些模块
  12. 混排流程
  13. 混排在排序侧做还是出价侧做
  14. 广告推荐各个模块用的 point wise,pair wise 还是 list wise(答案不唯一)
  15. 概率题:两个人抛硬币,抛到正面的人获胜,先手抛获胜的概率是多少
  16. 算法题:给定一串数列长度为n(无序),给定子序列长度为k(k<=n),求出长度为k的子序列,使其数字总和为最大值的所有情况。值域(-无穷,+无穷),输出为序列元素的idx。数列[1,2,3] k=3 ,输出[0,1,2], k=2 输出[1,2]
    [1,2,3,3] k=3 输出[1,2,3], k=1 输出[2], [3]

二面

  1. 浅拷贝和深拷贝的区别,python里的具体实现
  2. c++栈和堆的区别
  3. 最大后验和最大似然的区别
  4. xgboost、lightgbm、GBDT之间的区别
  5. 树的分裂增益是什么
  6. 介绍实习内容
  7. 介绍竞赛
  8. 职业规划
  9. 算法题:数字0和1的矩阵,判断矩阵中的1能否围成一个圈

三面

  1. 介绍实习
  2. 多任务中有没有辅助任务带偏主任务的情况
  3. 介绍竞赛
  4. 比赛分工
  5. 和前排方案的差距

爱奇艺-广告推荐算法

一面

  1. 介绍竞赛
  2. xgboost、lightgbm、GBDT之间的区别
  3. NN的优化调参思路
  4. 有没有试过BN,效果怎么样
  5. 算法题:Leetcode 5. 最长回文子串

二面

  1. 介绍竞赛
  2. 商品的属性 embedding 可以怎么得到
  3. 工业场景下召回的主流做法
  4. 协同过滤和双塔模型各有什么缺点
  5. 召回双塔最后加DNN做交叉,产生的计算复杂度会在哪些方面
  6. 如何解决冷门商品召回
  7. 介绍实习内容
  8. 算法题:Leetcode 142. 环形链表 II

三面

  1. 介绍实习
  2. 为什么要做多目标
  3. 业界中多目标怎么做的
  4. 熟悉什么编程语言
  5. 会用 tensorflow 吗
  6. 什么时候毕业
  7. 有哪些 offer

网易云音乐-推荐算法

一面

  1. 聊项目
  2. 如何改进 itemcf 的
  3. session 截断怎么做的
  4. ANN 的用户向量表示怎么得到的
  5. 特征工程怎么做的
  6. 算法题:字符串逆序并转换大小写:”Hello Word” 转换为 “wORLD hELLO”

二面

  1. 介绍实习
  2. mmoe和esmm解决的问题是什么
  3. 上面两者的loss函数是什么
  4. 介绍精排模型结构
  5. DIN和DIEN的区别
  6. 大规模稀疏特征优化器如何选择
  7. 如何缓解模型过拟合
  8. L1正则和L2正则的区别
  9. 树的分裂方式
  10. GBDT和随机森林的区别

快手-社区推荐算法

一面

  1. 介绍实习
  2. 精排模型结构
  3. 介绍竞赛
  4. 算法题:浮点数的三次方根

二面

  1. 知道哪些字符串匹配算法,介绍一下kmp
  2. 快排算法,是否是稳定的,如何改进成稳定的
  3. 两个骰子根据各自的高斯分布出随机值,随机选取一个骰子摇,得到一个随机数,求他是哪个骰子得到的
  4. 如何求目标函数的最小值
  5. nn 怎么求导
  6. rnn 怎么求导
  7. 过拟合的缓解方法
  8. 介绍实习内容

小红书-社区算法

一面

算法题:leetcode 239. 滑动窗口最大值

  1. 介绍研究内容
  2. 网络表示在工业界的应用现状
  3. 介绍竞赛里如何作的debias
  4. 竞赛过程中哪些地方提升明显
  5. 介绍以下transformer
  6. 如何学习机器学习的
  7. 业界推荐算法下的痛点和热点
  8. 介绍LR
  9. LR的损失函数为什么是连乘
  10. 介绍AUC的含义
  11. roc曲线的两个坐标轴分别是什么
  12. 测试集负样本不变,正样本变为一半,auc指标有什么变化