一、赛题理解
本次竞赛[首页]针对学术领域的论文同名作者消歧问题,根据提供的AMiner中大量有挑战性的作者同名消歧数据集,表现在每个姓名关联的论文和学者数量有所增加。本次竞赛的任务是识别出哪些同名作者的论文属于同一个人。
常见的解决方案:
more >>
重庆邮电大学19届研究僧一枚,找工作中......
为了求职笔试面试,需恶补基础、算法原理,于是仔细研读了七月在线发布的BAT机器学习面试1000题系列,也添加了一些自己的理解或来自其他博客的答案,以下内容均来自BAT机器学习面试1000题系列。该文为本人的阅读笔记,主要是为了记忆和自查。
more >>
损失函数(Loss function)或者代价函数(Cost function)是用来估量你模型的预测值 $f(x)$ 与真实值 Y 的不一致程度,也就是当前W取值下的不理想程度。它是一个非负实值函数,通常用 $L(Y,f(x))$ 来表示。损失函数越小,模型的鲁棒性就越好。损失函数(一次预测好坏)是经验风险函数(平均意义下模型好坏)的核心部分,也是结构风险函数的重要组成部分。
一些资源:CS231n 2016 通关 第三章-SVM与Softmax
more >>
为了求职笔试面试,需恶补基础、算法原理,于是仔细研读了七月在线发布的BAT机器学习面试1000题系列,也添加了一些自己的理解或来自其他博客的答案,以下内容均来自BAT机器学习面试1000题系列。该文为本人的阅读笔记,主要是为了记忆和自查。
more >>
任务:图像分类问题,就是对于输入的图像数据,根据已有的分类标签集合,选出合适的标签对齐进行分类标记,属于监督学习的范畴。虽然该问题对人来说非常简单,但却是计算机视觉领域的核心问题,计算机视觉领域中很多看似不同的问题(比如物体检测和分割),都可以被归结为图像分类问题。
难点:对于计算机来说,一张图像是由[Hight,Width,Channel]组成的张量(Tensor),张量中的元素为像素值大小,大小在0-255之间的整型,其中0表示全黑,255表示全白。因此图像分类的目标就是:把这些上百万的数字变成一个简单的标签(label)。可想而知,计算机视觉算法所应对的困难与挑战有多大。
more >>
CS231n是斯坦福大学李飞飞团队2015年冬季学期开始开设的一门基于神经网络或者说卷积神经网络的计算机视觉课程,全称是CS231n: Convolutional Neural Networks for Visual Recognition,如今完全成为了一门明星课程,也是每一个CVer入门的必学课程之一。目前,已经有2015冬季版,2016冬季版,2017春季版,2018春季版(视频未公布),每学期的视频更新都会引起一波充电热潮。
互联网和传感器的发展,特别是视觉传感器,如:手机摄像头,数码相机,视频监控,行车记录仪等等,引发了视觉信息的大爆炸。不得不说,我们完全进入到了一个视觉时代,一个图片、视频信息爆炸的时代。但是这些信息也是最难以被利用的信息,我们称其为“互联网中的暗物质”。就像银河系中85%的质量属于暗物质和暗能量,难以被检测和利用。YouTube每60秒就会接受150小时以上的视频上传,我们根本不可能靠人眼给如此大量的数据进行标注、分类。那么如何对这些数据进行标记、分类、索引等工作,进而利用这些数据来做广告、检索或者其他操作。唯一的希望就是利用计算机去帮我们完成这项工作,运用计算机视觉技术对图片进行标签、分类,对视频进行理解。如何更好地利用这些海量数据,如何应对“暗物质”的挑战,如何让计算机更好地理解这个世界,这就是计算机视觉要解决的问题。
计算机视觉是一门跨学科的课程,所以,我们面对的问题,建模方式也必将是跨学科的,像工程学、物理学、生物学、心理学、计算机科学和数学都有着密切关系。
一些资源:http://cs231n.github.io/classification/
more >>
为了求职笔试面试,需恶补基础、算法原理,于是仔细研读了七月在线发布的BAT机器学习面试1000题系列,也添加了一些自己的理解或来自其他博客的答案,以下内容均来自BAT机器学习面试1000题系列。该文为本人的阅读笔记,主要是为了记忆和自查。
July我又回来了。
之前本博客整理过数千道微软等公司的面试题,侧重数据结构、算法、海量数据处理,详见:微软面试100题系列,今17年,近期和团队整理BAT机器学习面试1000题系列,侧重机器学习、深度学习。我们将通过这个系列索引绝大部分机器学习和深度学习的笔试面试题、知识点,它将更是一个足够庞大的机器学习和深度学习面试库/知识库,通俗成体系且循序渐进。
此外,有四点得强调下:
虽然本系列主要是机器学习、深度学习相关的考题,其他类型的题不多,但不代表应聘机器学习或深度学习的岗位时,公司或面试官就只问这两项,虽说是做数据或AI相关,但基本的语言(比如Python)、编码coding能力(对于开发,编码coding能力怎么强调都不过分,比如最简单的手写快速排序、手写二分查找)、数据结构、算法、计算机体系结构、操作系统、概率统计等等也必须掌握。对于数据结构和算法,一者 重点推荐前面说的微软面试100题系列(后来这个系列整理成了新书《编程之法:面试和算法心得》),二者 多刷leetcode,看1000道题不如实际动手刷100道。
本系列会尽量让考察同一个部分(比如同是模型/算法相关的)、同一个方向(比如同是属于最优化的算法)的题整理到一块,为的是让大家做到举一反三、构建完整知识体系,在准备笔试面试的过程中,通过懂一题懂一片。
本系列每一道题的答案都会确保逻辑清晰、通俗易懂(当你学习某个知识点感觉学不懂时,十有八九不是你不够聪明,十有八九是你所看的资料不够通俗、不够易懂),如有更好意见,欢迎在评论下共同探讨。
关于如何学习机器学习,最推荐机器学习集训营系列。从Python基础、数据分析、爬虫,到数据可视化、spark大数据,最后实战机器学习、深度学习等一应俱全。
另,本系列会长久更新,直到上千道、甚至数千道题,欢迎各位于评论下留言分享你在自己笔试面试中遇到的题,或你在网上看到或收藏的题,共同分享帮助全球更多人,thanks。
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true