UU阅书 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!
UU阅书 >  大时代之巅 >   第768章 爬虫

在国内做生意,限制比较多。如果是小打小闹的小公司,只要在合理合法的经营、竞争,怎样都没问题。如果是大公司,那就不行了。

如果是国企间展开激烈竞争,当局一统计,发现这种竞争对两家企业的利润都有损害,就会出面协调了。可以把两家企业的老总互换,化干戈为玉帛。再不行,当局谈话,进行问诫。还不行,就有杀手锏了,两家企业直接合并。

民企间的竞争相对自由,可大公司之间也有限制。

每一家成功的民企,经营的都很不容易。

当局在法律法规、政策等方面都有一定的保护。

在美国,一个市值1000多亿美元的公司一旦报出财务造假,3个月内就破产倒闭了,处置得极其严苛。可国内不一样,民企做大,真是太不容易了,因为犯了点小错就直接杀头,太可惜了,罚款几十万引以为戒,意思意思得了。

企业倒了,那么多员工怎么办?损失的GDP怎么办?

这就导致有很多无耻可恶的商人,利用国家对民族经济的呵护和关爱,不好好做企业,天天想着操纵资本、收割韭菜,导致A股假账烂账一大堆。

这里面的水太深,周不器从不参与,哪怕A股现在历史性的大涨,他也不去炒股,免得惹一身腥。

炒股才能赚几个钱啊。

他这种身份的人,只要牌坊正,根本不需要去股市里偷鸡摸狗,官府会敲锣打鼓的主动给他送钱。

要想钱生钱,最好的办法就是把钱集中起来,交给最会赚钱又人品可靠值得信任的人,让他去带领大家共同致富。

周不器现在基本就是这样的人。

郭丹那边已经回馈了,市里针对紫微星总部的事,已经拿出了一个大致性的意见,会给出一个在首都地区对民企来说前所未有的扶持方案。

回到紫微星和百度的竞争上,周不器肯定不能像石婧琳说的那样采取一些过激的行为。

就算是竞争,也要在一定的范围之内。

要是紫微星真的把百度搞死了,这不是牛逼,这是傻逼。同样的,百度要是把紫微星搞死了,李老板也就被请去喝茶了。

3Q大战一度轰轰烈烈,也是当局出面化解纠纷。

第二天,周不器叫上了郭鹏飞、韩乐水、聂才俊、宁雅娴等人,去搜索事业群那边考察工作。场面不小。

紫微星的几大事业群负责人中,王小船的压力是最大的。

前期工程已经做到了完美,可就是拿不到结果,市场份额一直维持在33%-35%之间。所以他才申请了一个建议,要做一个类似百度贴吧的项目。

好在周不器对王小船充满了信任。

“不要急,我早就说过了,短期之内不看份额,只看产品。”

“产品……”

王小船暗暗叹气。

单看产品,微点搜索也不如百度啊!唯一的优势,就是微点的配套设施更多,有浏览器,有导航网,有输入法,有音乐平台等等。

周不器笑了笑,“这点信心都没有?还是说你承认技术不行?”

王小船从小就是计算机天才,在技术方面从未服过谁,摇头道:“搜索引擎的架构高度复杂,有抓取器、渲染器、DNS解析、Redis内存数据库、URL队列、种子队列、响应队列、URL提取、URL过滤、重复URL检测等等,是一个技术性很强的庞大工程。我自认为微点的架构不比百度差,可一些技术细节,还需要时间。”

周不器笑着说:“我知道搜索技术很高端,可随着时间的推移,搜索技术就会走下神坛,变为比较大众的技术。最根本的技术,还是大数据处理。”

在大方向的理论上,周大老板比一些专业人士还强。

王小船深以为然,“是啊,大数据的处理。百度和谷歌的差距,微点和百度的差距,最主要的就是体现在我们在数据处理时的效率问题。按理来说,通过爬虫技术,可以抓取到互联网上所有信息。可相关信息太多了,数据量太大了。怎么才能在短时间内把想要的信息抓取并展示出来,是搜索引擎最大的技术难题。”

周不器打了个响指,笑道:“巧了,我这次过来,就是想问问你爬虫的事。”

王小船有些费解。

周大老板这个技术外行,怎么还关心起技术细节来了?

就缓缓的解释道:“爬虫是搜索的基础工具,爬虫搜信息……嗯,就跟使用浏览器上网差不多,都是先向服务器发送请求,获得返回的页面,然后筛选出有价值的内容。如果时间足够长计算量足够大,使用爬虫工具,就可以把互联网上的所有信息都搜索一遍。”

见周大老板似乎很感兴趣的样子。

王小船就拿过纸笔,很快速的写下了一行代码,“假如说我们要爬取微知网的信息,用这行代码就可以实现了。”

周不器拿过代码一看,嗯,是很简单。

headers={‘Use-Agent’:‘ChaiknowsThebot’,}

r=requests.gets(“

html=r.text

print(html)

难怪说3月份的时候,北科有两个计算机系的大学生被开除了。

这技术好像是不太难。

因为大四写论文,可用谷歌、百度、微点等搜索引擎,却搜不到别人写的相关论文。怎么办?就有计算机系的学生,自己写了段爬虫算法。

然后成功的爬取到了几百篇相关论文。

接下来就好办了,摘抄、重组、整合。

如果查重不过关,也简单,用谷歌翻译,先汉译英、再英译汉。再人工地把句子整理通顺,查重就顺利通过。

可能是北科的创业环境被周不器给带起来了,那俩大学生就有了通过技术牟利的心思,玩起了帮同学写论文的生意。

被发现后,俩人都被开除了。

要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。

王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”

周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”

王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫Robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”

“嗯!”

周不器点了点头。

这就是他想要的答案。

爬虫黑名单!

王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”

周不器道:“我看了一下微知网的数据,过去3个月,有超过1.1亿的访问量,是来自百度。”

王小船没有惊喜,深吸了口气,忧心忡忡的说:“微知的访问量本来就不高,如果屏蔽了百度,流量就更低了。”

周不器并不在乎,“微知不需要流量,微知需要的是优质内容。你都说了,百度的算法不如谷歌,很难通过简单的数据处理完成对一些有深度内容的检索,来爬取微知的内容,是简洁途径。有不少用户都是通过百度来访问微知,我们要断了这条线!”

王小船眨眨眼,“真要屏蔽吗?”

“当然。”

“可Robot协议没有法律效力。”

“啥?”

“这个协议,是一种行业约束,君子协定,不是法律条文。如果百度真想爬取微知的内容,完全可以通过技术手段跳过协议,强行爬取。”

周不器若有所思,“君子协定啊……如果强行爬取,有违商业道德?”

王小船点了点头,“可以这么理解。”

心中深深的不以为然。

商业道德?

这东西是一层窗户纸,一捅就破。

“如果违反了怎么办?”

“国外有过类似的案子,违反了协议,也被处罚了。因为法官认为这个协议虽不是法律条文,但作为广泛被接受的行业规则,就应该被遵守。不过国内好像不太行。就像RSS聚合器似的,可以去各个网站上订阅信息。网站拒绝了RSS订阅,依旧可以通过技术手段强行订阅。”

周不器想了一下,语气轻松,笑着说:“没事,百度在美国上市,不敢玩的太出格。先这么做吧,第一步,微知网屏蔽百度的爬虫。你这边也做准备,我打算一步步的、全面彻底的跟百度切割。”

王小船睁大眼睛,“全都切割?”

周不器淡淡地道:“对!”

“这行吗?”

“你觉得切割了,对谁的危害更大?”

“这……”

王小船有些犹豫,不太好说。

周不器冷冷的道:“紫微星不主动欺负别人,却也不会任人欺负。百度从校内网挖了十几个人,把一个满建制的小组都给挖走了。不亮亮肌肉,李大老板以为我脾气好,好说话呢!”

都屏蔽了,当然对微点搜索最有利。

可王小船格局没这么小,不认为这是个好主意,好心的提示一句,“咱们自身的利益也会受损。百度是最大的搜索引擎,是流量分发平台。”

周不器却很有信心,“平台的优势是轻量级,劣势是容易被人卡脖子。联想电脑品牌这么响,你知道联想最怕什么吗?最怕微软的系统授权和英特尔的芯片断供。每一次发生分歧,都要支付一大笔钱。如果把百度比作联想电脑,紫微星就需要成为最大的零配件供应商。微知、朋友网、校内网,接下来,我们还会有今日头条和微博。比比看!”

UU阅书推荐阅读:刚重生,青涩校花投怀送抱全球觉醒:偷听SSS级校花心声手术直播间非黑即白?不,我是商业巨擘!大妆大清佳人军痞王爷,超猛的!结婚抓奸笑我傻,跪求原谅你是谁花都奇兵师妹老想撩我怎么办游戏缔造者隐姓埋名二十年,崛起先杀白月光贵妻谋后我只是个病人,别叫我天灾捡回家的班花太黏人,我遭老罪了重生80,断绝关系后我垄断了南方市场极速治愈:双修镇压道基因武道全能少女UP主我表白的人全让病娇妹妹送走了替身又如何,玄学大佬拿捏女财阀人在家中坐,萝莉天上来重生后,我只想混娱乐圈神医狂妃今天飒爆了极品女婿秦浩工业大摸底:摸出来个南天门计划妻子背叛:摇身一变成太子灵气复苏之猫命长生做媒这一块,我谁都不服做卡牌,我可是你祖宗!桃运修真者邻家妹子爱上我重启平行人生灵气复苏:从文明书院开始漫漫修真路,一人独登仙陌上花开为君归轮回剑典盛世良后道士不想下山思归何归大唐盛世游龙前男友爆红后我被迫官宣了神算创世深山林场:重返83打猎发家妖女满堂?明明是仙子忠诚!重回高三别再错过那个傻女孩破事精英之怕麻烦的副经理炮灰女配的逆袭人生在民族资产的路上以她饲虎
UU阅书搜藏榜:小楼大厦大国中医潇洒离婚后,她藏起孕肚成首富!予你熠熠星光小祖宗她是顶流大佬的心尖宠平淡的水乡生活绑定慈母系统后,我摆烂了凰妃逆天下玄学大佬被乖兮兮的奶狗缠疯了林域守从长征开始:十军团的绝境血路接单相亲,美女总裁赖上我直播打假,开局800页保险护体我和我姐一起穿越了魔族少年闯人间四合院:从逃荒开始逆天十八线艺人搞副业,天天跑警局穿书:我被疯批反派夜夜盯到腿软小市场住手!这不是游戏世界!才女清照权斗觉醒时代:我的队友全是觉醒女神神豪花钱系统!医品嫡妃:娇宠偏执摄政王重生之寒门吝啬媳八零后少林方丈史上最强斩妖师道吟重生黑客女王:冷少追妻忙第99次心动娘亲有点拽我家有只九尾狐腹黑竹马:小青梅,吃不够!被团宠成顶流后,她掉马了最强老公:独宠软萌小甜妻圣灵魔法师绝品医妃:误惹腹黑王爷顶流宠妃倾天下总裁老公惹不得我是修士,你们怎么跟我玩修真到异世求求你出道吧穿越后我靠混吃等死苟成了终极大佬慢穿之璀璨人生蚀骨婚情:前夫,请止步人在终极,开局时空之子美人犹记总裁三观不太正五行天
UU阅书最新小说:人在高武,软饭系统早来了20年七年感情喂了狗,离婚妻子悔当初出狱就无敌,退婚绿茶悔哭了我堂堂王者,浪得飞起怎么了?我奇门医圣,出狱后全球震颤!与你四季长春出狱人间无敌,你们高攀不起!山花烂漫时鉴宝天瞳:开局捡漏北海镇卷诸天监狱,开局降服六翼天使最强战兵鉴宝奇瞳被赶回乡下后,我带着全家暴富逆袭重生七五之年代红利重生后第一件事就拉校花进小黑屋林昊:都市之巅峰战神这战兽哪里强了?通天神医狂龙出狱,绝色总裁爱上我渡劫期为什么还要写周报我亿万富豪,谁要重生啊!天下第一天下奇将官场恩仇录重生高三:科技霸主归来网购霜之哀伤,竟然收到真货!从乡村中医到女性之友房产大亨被活活逼死,我嫁权臣抄了整个侯府练武十年,突然觉醒了女神系统抗战,开局小地图从老军医到元帅断绝关系后,觉醒SSS级天赋百分百爆率让你上军校,你内卷成将军了?放下青梅竹马后的快乐生活全职法师之孤冥星高武:九十岁高龄,亿万倍暴击!重回80,从列车员到捡漏大师都市超强狂龙无良少年官场小白到主政一方邪龙归来:冰山总裁疯狂倒贴女主这么好看?那我抱走了!重回1990:开局拿下姐姐的村花闺蜜重生之踏仙路就在你背后神豪:我是舔狗为谁疯狂?让开宠物店,你店里五毒俱全?全球首富:从摆地摊开始崛起救赎者的轮回挽歌美利坚卧底警探,我会以德服人