360-推荐算法
一面
算法题:1. 非递归的二叉树中序遍历;2. 指定概率列表,写一个随机采样算法
- 介绍竞赛
- 召回的多样性
- 数据规模
- ANN使用的什么工具
- 点击率预估为什么选择 lgb
- 排序为什么不使用基于 pair wise 的模型
- 了解 LambdaMart 算法吗
- lightgbm 相较于 xgboost 的优势
- 了解的其他点击率预估算法
- 对特征交叉方面的个人理解
- wide & deep 模型 wide 部分和 deep 部分分别侧重学习什么信息
- deepfm 一定优于 wide & deep 吗
- 如何解决稀疏问题(回答的 hash embedding,不知道对不对)
- 在模型侧如何打压热门商品
二面
- 介绍比赛背景
- 怎么分工的,你负责的部分
- 为什么使用 w2v,有试过其他 embedding 工具吗
- w2v 的参数怎么调节的
- w2v 的 min_count 设置的多大,从什么方面考虑的
- 介绍 NN 的结构
- 怎么调参的
- 了解哪些正则化方法(layernorm,batchnom)
- 上面两者有什么区别
- 有没有遇到过梯度消失,梯度爆炸,怎么解决的
- 多任务模型结构了解吗
- 知道哪些点击率预估模型
- 点击率预估任务中负样本过多怎么办
- 下采样后,训练样本和线上 server 样本分布不一样怎么办(纠偏公式)
- 冷启动该怎么做
- 开放题:现在做一个搜索系统,你会考虑哪些东西,各方面都行
- 未来的职业规划
百度-推荐算法
一面
算法题:leetcode 34
- 研究方向
- 学习的课程
- 推荐流程中哪一步最重要
- 怎么办精排做的更准
- 特征挖掘比较核心的技术
- 特征挖掘方面,深度学习比机器学习的优点
- 深度学习有能力做特征交叉,那哪些部分还需要我们人工去做
- 如何解决新特征没有embedding的问题
- 面对一个新的深度模型,如何去分析(参数,结构)
- 介绍比赛
- 比赛分工
- word2vec 向量作为embedding层初始化能提升多少效率
- word2vec 工作原理
- 负采样的原理是什么
- 二分类的损失函数
- 多分类的损失函数
- sofamax公式是啥
- 用的什么优化算法,为什么
- 你的模型和别人相比有什么优点
- 模型集成是模型越多越好吗
- 模型的差异体现在哪里
- 如何判断新加的特征是否有效
- MapReduce的原理知道吗
二面
算法题:leetcode 1047
- 介绍比赛
- 比赛分工
- itemcf如何改进的
- 手写itemcf伪代码
- 工业上召回怎么做的(双塔)
- 为什么物品的embedding离线生成,用户的embedding是在线计算,能反过来吗
- 如果只有用户历史点击序列,怎么生成用户和物品的embedding
- word2vec和bert有什么区别
- 召回的样本标签怎么构造
三面
聊实习,聊项目,聊人生
触宝-推荐算法
一面
算法题:Leetcode 15. 三数之和
- 介绍竞赛
- 多路召回的介绍
- 为什么选择lgb做点击率预测
- 后处理打压的原因和做法
- 为什么用transformer对有序序列处理
- transformer里残差连接的作用
二面
- 简述树的前序遍历,中序遍历,后序遍历
- 什么是排序算法的稳定性,哪些排序算法是稳定的
- 了解哪些传统的分类算法
- FM了解吗
- xgboost了解吗
- 梯度消失和梯度爆炸,解决方法
- dropout和batchnorm可以放在一起用吗,顺序是怎么样的
- 数值特征放到神经网络之前需要做哪些处理
- 如何在端到端中进行自动分桶
- 如何保证用户向量和物品向量在一个向量空间
- 多任务学习了解吗
- 多任务loss怎么结合
- 联合训练和交替训练的区别
- 推荐的整体流程
- 召回有哪些做法
- 精排模型有哪些
- 推荐有哪些指标
- auc的变种
- 推荐有哪些在线指标
- 介绍竞赛项目
- 如何评估NN的特征重要性
- 树模型的特征重要性怎么计算的
- 现在反思项目有哪些优化点
- 竞赛如何分工合作的
三面
- 介绍竞赛
- 如果有新的商品上架,优化摆放位置,如何建模,有什么约束
- 对触宝的了解
- 以后的打算
华为-消费者BG
一面(FX计划挂)
算法题:Leetcode 200. 岛屿数量 Leetcode 397. 整数替换
- 介绍比赛
- 介绍研究方向
- 介绍聚类kmeans,还知道哪些聚类方法
- 如何确定聚类数量
- 介绍KNN
- TF-IDF 计算方法
- 余弦距离和欧氏距离区别
- 卷积神经网络的变种有哪些
- 深度学习克服过拟合的方法
- dropout在循环神经网络需要注意什么
一面(正式批)
算法题:Leetcode 1143. 最长公共子序列
- 说一下笔试题的思路
- 介绍竞赛
- 介绍实习
二面
算法题:大数据找中位数
- 介绍研究内容、研究背景、指标提升情况
- 任选一个竞赛讲一下
- 基于图片emb的召回和基于文本emb的召回哪个效果好,为什么
三面
没问技术问题,忽略
shein-推荐算法
一面(挂)
算法题:leetcode 802. 找到最终的安全状态
- 介绍比赛
- ndcg计算方式
- 如果使用auc,而不用ndcg,会有什么问题
- 集成模型bagging和boosting的区别
- bagging和boosting在偏差和方差上的区别
- xgboost和gbdt的区别
- xgboost的叶子生成方式
- lightgbm在计算速度上做了哪些优化
- 模型打压热门有哪些做法
- 知道ee吗
- skip-gram和cbow的区别
- skip-gram和cbow哪一个预测速度快
- skip-gram和cbow哪一个对稀疏词效果好
- skip-gram 负采样和分层softmax的时间复杂度各是多少
- multi-head的作用是什么
- self-attention为什么要缩放
拼多多-推荐算法
一面
算法题:Leetcode 82. 删除排序链表中的重复元素 II
- 介绍简历上的竞赛
- 介绍ANN的召回
- 工业界中,排序使用召回的信息会有什么问题
- 工业界中,w2v向量做为Embedding层初始化会有什么问题
- 比赛分工
二面
算法题:股票一次买入和卖出,求最佳收益和买入卖出点
- 介绍竞赛
- 介绍研究方向
- 如果资源无限,去掉前置的召回阶段,直接进行全量的排序,模型的效果会有什么影响
- 深度学习在推荐方面的应用
三面
- 了解拼多多吗
- 为什么想做推荐
- 从哪些地方了解的相关知识
- 介绍推荐系统
- 双塔召回为什么离线索引物品embedding
- 概率题:北京一般有雾霾的概率是1/4,有三个同事都说今天有雾霾,但他们说真话的概率为3/4,问今天真的有雾霾的概率是多少。
哔哩哔哩-广告推荐算法
一面
算法题:leetcode 518. 零钱兑换 II
- 介绍多任务工作
- 介绍优化器算法,演化进程
- LR有大量的特征交叉,如何做特征筛选
- L1和L2正则化的区别
- 神经网络初始化方法
- 神经网络都初始化成相同的参数会有什么影响,如何缓解
- 粗排是怎么做
二面
问实习,问未来打算
阿里巴巴-淘特-推荐广告
一面
- 介绍实习
- 端外的转换label怎么得到的
- 介绍竞赛
二面
- 介绍实习
- 阿里和字节算法的优缺点
- 介绍广告整体的请求背景
- 介绍现在推荐的热点,发展方向
美团-广告推荐算法
一面
- 介绍实习内容
- 多任务的 loss 怎么设计
- 有没有考虑辅助任务带偏主任务的情况
- 在线指标有哪些
- 广告主价值是什么
- 多任务更应该关注哪些在线指标
- 为什么要下掉ID类特征
- ocpx里的 bid 出价指什么
- 过拟合的解决方式
- dropout原理
- 广告系统的有哪些模块
- 混排流程
- 混排在排序侧做还是出价侧做
- 广告推荐各个模块用的 point wise,pair wise 还是 list wise(答案不唯一)
- 概率题:两个人抛硬币,抛到正面的人获胜,先手抛获胜的概率是多少
- 算法题:给定一串数列长度为n(无序),给定子序列长度为k(k<=n),求出长度为k的子序列,使其数字总和为最大值的所有情况。值域(-无穷,+无穷),输出为序列元素的idx。数列[1,2,3] k=3 ,输出[0,1,2], k=2 输出[1,2]
[1,2,3,3] k=3 输出[1,2,3], k=1 输出[2], [3]
二面
- 浅拷贝和深拷贝的区别,python里的具体实现
- c++栈和堆的区别
- 最大后验和最大似然的区别
- xgboost、lightgbm、GBDT之间的区别
- 树的分裂增益是什么
- 介绍实习内容
- 介绍竞赛
- 职业规划
- 算法题:数字0和1的矩阵,判断矩阵中的1能否围成一个圈
三面
- 介绍实习
- 多任务中有没有辅助任务带偏主任务的情况
- 介绍竞赛
- 比赛分工
- 和前排方案的差距
爱奇艺-广告推荐算法
一面
- 介绍竞赛
- xgboost、lightgbm、GBDT之间的区别
- NN的优化调参思路
- 有没有试过BN,效果怎么样
- 算法题:Leetcode 5. 最长回文子串
二面
- 介绍竞赛
- 商品的属性 embedding 可以怎么得到
- 工业场景下召回的主流做法
- 协同过滤和双塔模型各有什么缺点
- 召回双塔最后加DNN做交叉,产生的计算复杂度会在哪些方面
- 如何解决冷门商品召回
- 介绍实习内容
- 算法题:Leetcode 142. 环形链表 II
三面
- 介绍实习
- 为什么要做多目标
- 业界中多目标怎么做的
- 熟悉什么编程语言
- 会用 tensorflow 吗
- 什么时候毕业
- 有哪些 offer
网易云音乐-推荐算法
一面
- 聊项目
- 如何改进 itemcf 的
- session 截断怎么做的
- ANN 的用户向量表示怎么得到的
- 特征工程怎么做的
- 算法题:字符串逆序并转换大小写:”Hello Word” 转换为 “wORLD hELLO”
二面
- 介绍实习
- mmoe和esmm解决的问题是什么
- 上面两者的loss函数是什么
- 介绍精排模型结构
- DIN和DIEN的区别
- 大规模稀疏特征优化器如何选择
- 如何缓解模型过拟合
- L1正则和L2正则的区别
- 树的分裂方式
- GBDT和随机森林的区别
快手-社区推荐算法
一面
- 介绍实习
- 精排模型结构
- 介绍竞赛
- 算法题:浮点数的三次方根
二面
- 知道哪些字符串匹配算法,介绍一下kmp
- 快排算法,是否是稳定的,如何改进成稳定的
- 两个骰子根据各自的高斯分布出随机值,随机选取一个骰子摇,得到一个随机数,求他是哪个骰子得到的
- 如何求目标函数的最小值
- nn 怎么求导
- rnn 怎么求导
- 过拟合的缓解方法
- 介绍实习内容
小红书-社区算法
一面
算法题:leetcode 239. 滑动窗口最大值
- 介绍研究内容
- 网络表示在工业界的应用现状
- 介绍竞赛里如何作的debias
- 竞赛过程中哪些地方提升明显
- 介绍以下transformer
- 如何学习机器学习的
- 业界推荐算法下的痛点和热点
- 介绍LR
- LR的损失函数为什么是连乘
- 介绍AUC的含义
- roc曲线的两个坐标轴分别是什么
- 测试集负样本不变,正样本变为一半,auc指标有什么变化